diff --git "a/debug.log" "b/debug.log"
new file mode 100644--- /dev/null
+++ "b/debug.log"
@@ -0,0 +1,2223 @@
+[2025-10-31 00:01:31,161] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:7760] bf16 support detected, enabling for this configuration.
+[2025-10-31 00:01:31,543] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:7760] baseline 0.000GB ()
+[2025-10-31 00:01:31,544] [INFO] [axolotl.cli.config.load_cfg:248] [PID:7760] config:
+{
+  "activation_offloading": false,
+  "axolotl_config_path": "my-config.yml",
+  "base_model": "Qwen/Qwen3-4B",
+  "base_model_config": "Qwen/Qwen3-4B",
+  "batch_size": 4,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_90",
+    "fp8": false,
+    "n_gpu": 1,
+    "n_node": 1
+  },
+  "chat_template": "chatml",
+  "context_parallel_size": 1,
+  "dataloader_num_workers": 1,
+  "dataloader_pin_memory": true,
+  "dataloader_prefetch_factor": 256,
+  "dataset_num_proc": 16,
+  "dataset_prepared_path": "prepared_data2",
+  "datasets": [
+    {
+      "chat_template": "tokenizer_default",
+      "field_messages": "messages",
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "joeyzero/OpenThought-144k-Backfill-0.2",
+      "trust_remote_code": false,
+      "type": "chat_template"
+    },
+    {
+      "chat_template": "tokenizer_default",
+      "field_messages": "messages",
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "joeyzero/dolphin-r1-backfill-0.0.2",
+      "trust_remote_code": false,
+      "type": "chat_template"
+    }
+  ],
+  "ddp": false,
+  "device": "cuda:0",
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "env_capabilities": {
+    "torch_version": "2.7.1"
+  },
+  "eval_batch_size": 2,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_sample_packing": true,
+  "eval_table_size": 0,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": true,
+  "fp16": false,
+  "gradient_accumulation_steps": 2,
+  "gradient_checkpointing": false,
+  "hf_use_auth_token": true,
+  "hub_model_id": "joeyzero/Qwen3-4B-Reasoning-Backfill-V0.1",
+  "include_tkps": true,
+  "learning_rate": 2.5e-05,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": false,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "lora_dropout": 0.0,
+  "loraplus_lr_embedding": 1e-06,
+  "lr_scheduler": "cosine",
+  "max_grad_norm": 1.0,
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 2,
+  "model_config_type": "qwen3",
+  "num_epochs": 4.0,
+  "optimizer": "adamw_bnb_8bit",
+  "otel_metrics_host": "localhost",
+  "otel_metrics_port": 8000,
+  "output_dir": "./thinking-backfill-0.1.17",
+  "pad_to_sequence_len": true,
+  "pretrain_multipack_attn": true,
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "sample_packing": true,
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "save_steps": 0.5,
+  "sequence_len": 1024,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": true,
+  "skip_prepare_dataset": false,
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "tf32": false,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "Qwen/Qwen3-4B",
+  "tokenizer_save_jinja_files": true,
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": false,
+  "trl": {
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "use_vllm": false,
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "use_otel_metrics": false,
+  "use_ray": false,
+  "use_wandb": true,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "gpu_memory_utilization": 0.9,
+    "host": "0.0.0.0",
+    "port": 8000
+  },
+  "wandb_name": "reasoning-backfill-attempt-04",
+  "wandb_project": "reasoning-backfill",
+  "warmup_steps": 40,
+  "weight_decay": 0.02,
+  "world_size": 1
+}
+[2025-10-31 00:01:32,578] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:7760] EOS: 151645 / <|im_end|>
+[2025-10-31 00:01:32,578] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:7760] BOS: None / None
+[2025-10-31 00:01:32,578] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:7760] PAD: 151643 / <|endoftext|>
+[2025-10-31 00:01:32,578] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:7760] UNK: None / None
+[2025-10-31 00:01:32,579] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:475] [PID:7760] Loading prepared dataset from disk at prepared_data2/00beaf69a2639c1250888269a8624992...
+[2025-10-31 00:01:32,787] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:7760] total_num_tokens: 37_608_602
+[2025-10-31 00:01:33,446] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:7760] `total_supervised_tokens: 17_899_199`
+[2025-10-31 00:01:34,255] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:7760] Using single process for pack_parallel, running sequentially.
+[2025-10-31 00:01:35,344] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:7760] Using single process for pack_parallel, running sequentially.
+[2025-10-31 00:01:35,864] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 0.5274832248687744
+[2025-10-31 00:01:35,871] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:7760] Using single process for pack_parallel, running sequentially.
+[2025-10-31 00:01:36,274] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 0.40900588035583496
+[2025-10-31 00:01:36,280] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:7760] Using single process for pack_parallel, running sequentially.
+[2025-10-31 00:01:36,729] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 0.4532792568206787
+[2025-10-31 00:01:36,735] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:7760] Using single process for pack_parallel, running sequentially.
+[2025-10-31 00:01:37,134] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 0.40355348587036133
+[2025-10-31 00:01:37,176] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:7760] gather_len_batches: [20040]
+[2025-10-31 00:01:37,176] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:7760] data_loader_len: 10020
+[2025-10-31 00:01:37,176] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:7760] sample_packing_eff_est across ranks: [0.9165747539462191]
+[2025-10-31 00:01:37,176] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:7760] sample_packing_eff_est: 0.92
+[2025-10-31 00:01:37,176] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:7760] total_num_steps: 40080
+[2025-10-31 00:01:37,180] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:7760] Maximum number of steps set at 40080
+[2025-10-31 00:01:37,218] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:7760] Loading tokenizer... Qwen/Qwen3-4B
+[2025-10-31 00:01:37,972] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:7760] EOS: 151645 / <|im_end|>
+[2025-10-31 00:01:37,972] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:7760] BOS: None / None
+[2025-10-31 00:01:37,972] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:7760] PAD: 151643 / <|endoftext|>
+[2025-10-31 00:01:37,972] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:7760] UNK: None / None
+[2025-10-31 00:01:37,972] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:7760] Loading model
+[2025-10-31 00:01:38,153] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:7760] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2025-10-31 00:01:38,156] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:7760] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+[2025-10-31 00:01:38,156] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:7760] Applying multipack dataloader patch for sample packing...
+model.safetensors.index.json: 0.00B [00:00, ?B/s]model.safetensors.index.json: 32.8kB [00:00, 40.2MB/s]
+model-00001-of-00003.safetensors:   0%|                                                                                                                                                                                                                                                          | 0.00/3.96G [00:00<?, ?B/s]model-00001-of-00003.safetensors:   0%|                                                                                                                                                                                                                                                | 1.02M/3.96G [00:01<1:43:08, 639kB/s]model-00001-of-00003.safetensors:   1%|█▋                                                                                                                                                                                                                                               | 27.6M/3.96G [00:02<04:48, 13.6MB/s]model-00001-of-00003.safetensors:   1%|██▌                                                                                                                                                                                                                                              | 42.6M/3.96G [00:03<04:58, 13.1MB/s]model-00001-of-00003.safetensors:   2%|█████                                                                                                                                                                                                                                            | 83.0M/3.96G [00:03<02:07, 30.3MB/s]model-00001-of-00003.safetensors:   3%|██████▋                                                                                                                                                                                                                                           | 109M/3.96G [00:04<02:04, 30.9MB/s]model-00001-of-00003.safetensors:   3%|███████▊                                                                                                                                                                                                                                          | 127M/3.96G [00:04<01:38, 38.8MB/s]model-00001-of-00003.safetensors:   5%|███████████▉                                                                                                                                                                                                                                      | 194M/3.96G [00:05<00:59, 63.5MB/s]model-00001-of-00003.safetensors:   5%|████████████▉                                                                                                                                                                                                                                     | 212M/3.96G [00:06<01:36, 38.7MB/s]model-00001-of-00003.safetensors:  12%|████████████████████████████                                                                                                                                                                                                                       | 457M/3.96G [00:07<00:31, 111MB/s]model-00001-of-00003.safetensors:  12%|█████████████████████████████                                                                                                                                                                                                                      | 473M/3.96G [00:08<00:33, 104MB/s]model-00001-of-00003.safetensors:  14%|█████████████████████████████████▋                                                                                                                                                                                                                 | 549M/3.96G [00:08<00:31, 107MB/s]model-00001-of-00003.safetensors:  14%|███████████████████████████████████▏                                                                                                                                                                                                               | 574M/3.96G [00:08<00:30, 110MB/s]model-00001-of-00003.safetensors:  15%|████████████████████████████████████▌                                                                                                                                                                                                              | 596M/3.96G [00:09<00:29, 115MB/s]model-00001-of-00003.safetensors:  17%|██████████████████████████████████████████▏                                                                                                                                                                                                        | 686M/3.96G [00:09<00:25, 130MB/s]model-00001-of-00003.safetensors:  18%|███████████████████████████████████████████▊                                                                                                                                                                                                       | 714M/3.96G [00:09<00:23, 137MB/s]model-00001-of-00003.safetensors:  20%|███████████████████████████████████████████████▉                                                                                                                                                                                                   | 782M/3.96G [00:10<00:24, 129MB/s]model-00001-of-00003.safetensors:  21%|██████████████████████████████████████████████████▉                                                                                                                                                                                                | 830M/3.96G [00:10<00:25, 122MB/s]model-00001-of-00003.safetensors:  22%|█████████████���██████████████████████████████████████▉                                                                                                                                                                                             | 866M/3.96G [00:11<00:32, 95.6MB/s]model-00001-of-00003.safetensors:  24%|█████████████████████████████████████████████████████████                                                                                                                                                                                         | 933M/3.96G [00:12<00:33, 90.7MB/s]model-00001-of-00003.safetensors:  25%|█████████████████████████████████████████████████████████████▏                                                                                                                                                                                    | 1.00G/3.96G [00:12<00:26, 110MB/s]model-00001-of-00003.safetensors:  27%|█████████████████████████████████████████████████████████████████▏                                                                                                                                                                                | 1.07G/3.96G [00:13<00:23, 125MB/s]model-00001-of-00003.safetensors:  28%|██████████████████████████████████████████████████████████████████▊                                                                                                                                                                               | 1.09G/3.96G [00:13<00:21, 133MB/s]model-00001-of-00003.safetensors:  28%|████████████████████████████████████████████████████████████████████▏                                                                                                                                                                             | 1.11G/3.96G [00:13<00:20, 138MB/s]model-00001-of-00003.safetensors:  29%|█████████████████████████████████████████████████████████████████████▋                                                                                                                                                                            | 1.14G/3.96G [00:13<00:21, 133MB/s]model-00001-of-00003.safetensors:  29%|███████████████████████████████████████████████████████████████████████▎                                                                                                                                                                          | 1.17G/3.96G [00:13<00:19, 143MB/s]model-00001-of-00003.safetensors:  31%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                                                                       | 1.22G/3.96G [00:14<00:17, 153MB/s]model-00001-of-00003.safetensors:  32%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                                                                   | 1.28G/3.96G [00:14<00:19, 140MB/s]model-00001-of-00003.safetensors:  33%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                  | 1.30G/3.96G [00:14<00:19, 137MB/s]model-00001-of-00003.safetensors:  34%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                | 1.33G/3.96G [00:15<00:28, 91.0MB/s]model-00001-of-00003.safetensors:  34%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                               | 1.35G/3.96G [00:15<00:24, 105MB/s]model-00001-of-00003.safetensors:  36%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                           | 1.42G/3.96G [00:16<00:23, 106MB/s]model-00001-of-00003.safetensors:  38%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                       | 1.49G/3.96G [00:16<00:21, 115MB/s]model-00001-of-00003.safetensors:  38%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                     | 1.51G/3.96G [00:16<00:21, 115MB/s]model-00001-of-00003.safetensors:  39%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                                   | 1.54G/3.96G [00:18<00:41, 58.4MB/s]model-00001-of-00003.safetensors:  40%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                 | 1.57G/3.96G [00:18<00:41, 57.0MB/s]model-00001-of-00003.safetensors:  42%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                            | 1.65G/3.96G [00:19<00:27, 83.8MB/s]model-00001-of-00003.safetensors:  43%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                        | 1.71G/3.96G [00:19<00:23, 94.5MB/s]model-00001-of-00003.safetensors:  46%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                   | 1.81G/3.96G [00:19<00:15, 136MB/s]model-00001-of-00003.safetensors:  51%|████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████▎                                                                                                                      | 2.02G/3.96G [00:20<00:10, 185MB/s]model-00001-of-00003.safetensors:  52%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 2.04G/3.96G [00:21<00:12, 149MB/s]model-00001-of-00003.safetensors:  54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 2.13G/3.96G [00:21<00:09, 193MB/s]model-00001-of-00003.safetensors:  55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 2.18G/3.96G [00:21<00:10, 173MB/s]model-00001-of-00003.safetensors:  57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 2.25G/3.96G [00:22<00:12, 135MB/s]model-00001-of-00003.safetensors:  59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 2.33G/3.96G [00:22<00:09, 168MB/s]model-00001-of-00003.safetensors:  61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 2.40G/3.96G [00:23<00:09, 170MB/s]model-00001-of-00003.safetensors:  62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 2.47G/3.96G [00:23<00:08, 174MB/s]model-00001-of-00003.safetensors:  67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 2.64G/3.96G [00:24<00:05, 248MB/s]model-00001-of-00003.safetensors:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 2.70G/3.96G [00:24<00:05, 233MB/s]model-00001-of-00003.safetensors:  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 2.74G/3.96G [00:24<00:05, 230MB/s]model-00001-of-00003.safetensors:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 2.76G/3.96G [00:24<00:05, 224MB/s]model-00001-of-00003.safetensors:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 2.79G/3.96G [00:25<00:10, 111MB/s]model-00001-of-00003.safetensors:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 2.86G/3.96G [00:26<00:09, 118MB/s]model-00001-of-00003.safetensors:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 2.92G/3.96G [00:26<00:08, 123MB/s]model-00001-of-00003.safetensors:  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 2.95G/3.96G [00:26<00:08, 122MB/s]model-00001-of-00003.safetensors:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████▉                                                          | 3.01G/3.96G [00:27<00:06, 140MB/s]model-00001-of-00003.safetensors:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 3.03G/3.96G [00:27<00:06, 143MB/s]model-00001-of-00003.safetensors:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 3.26G/3.96G [00:27<00:02, 320MB/s]model-00001-of-00003.safetensors:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 3.30G/3.96G [00:27<00:02, 242MB/s]model-00001-of-00003.safetensors:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 3.44G/3.96G [00:28<00:02, 240MB/s]model-00001-of-00003.safetensors:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 3.46G/3.96G [00:28<00:02, 216MB/s]model-00001-of-00003.safetensors:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 3.55G/3.96G [00:29<00:02, 171MB/s]model-00001-of-00003.safetensors:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 3.61G/3.96G [00:29<00:02, 163MB/s]model-00001-of-00003.safetensors:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 3.64G/3.96G [00:30<00:01, 167MB/s]model-00001-of-00003.safetensors:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 3.69G/3.96G [00:30<00:01, 140MB/s]model-00001-of-00003.safetensors:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 3.82G/3.96G [00:30<00:00, 205MB/s]model-00001-of-00003.safetensors:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3.89G/3.96G [00:31<00:00, 204MB/s]model-00001-of-00003.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3.96G/3.96G [00:31<00:00, 255MB/s]model-00001-of-00003.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3.96G/3.96G [00:31<00:00, 126MB/s]
+model-00002-of-00003.safetensors:   0%|                                                                                                                                                                                                                                                          | 0.00/3.99G [00:00<?, ?B/s]model-00002-of-00003.safetensors:   0%|▏                                                                                                                                                                                                                                                | 2.71M/3.99G [00:02<55:24, 1.20MB/s]model-00002-of-00003.safetensors:   1%|███▍                                                                                                                                                                                                                                             | 57.5M/3.99G [00:03<03:06, 21.0MB/s]model-00002-of-00003.safetensors:   2%|███▉                                                                                                                                                                                                                                             | 65.4M/3.99G [00:03<02:54, 22.5MB/s]model-00002-of-00003.safetensors:   2%|█████▌                                                                                                                                                                                                                                           | 91.5M/3.99G [00:04<02:24, 26.9MB/s]model-00002-of-00003.safetensors:   3%|███████▏                                                                                                                                                                                                                                          | 118M/3.99G [00:04<01:38, 39.2MB/s]model-00002-of-00003.safetensors:   5%|███████████▏                                                                                                                                                                                                                                      | 185M/3.99G [00:04<00:55, 69.1MB/s]model-00002-of-00003.safetensors:   5%|████████████▊                                                                                                                                                                                                                                     | 212M/3.99G [00:05<00:56, 66.6MB/s]model-00002-of-00003.safetensors:   7%|█████████████████▍                                                                                                                                                                                                                                | 287M/3.99G [00:05<00:40, 91.9MB/s]model-00002-of-00003.safetensors:   8%|███████████████████                                                                                                                                                                                                                                | 313M/3.99G [00:06<00:35, 103MB/s]model-00002-of-00003.safetensors:  10%|███████████████████████                                                                                                                                                                                                                           | 381M/3.99G [00:06<00:38, 93.6MB/s]model-00002-of-00003.safetensors:  10%|████████████████████████▋                                                                                                                                                                                                                         | 407M/3.99G [00:07<00:35, 99.5MB/s]model-00002-of-00003.safetensors:  12%|███████████████████████████▊                                                                                                                                                                                                                      | 459M/3.99G [00:07<00:45, 78.2MB/s]model-00002-of-00003.safetensors:  14%|██████████████████████████████████▎                                                                                                                                                                                                                | 563M/3.99G [00:08<00:25, 137MB/s]model-00002-of-00003.safetensors:  15%|███████████████████████████████████▉                                                                                                                                                                                                               | 589M/3.99G [00:08<00:24, 138MB/s]model-00002-of-00003.safetensors:  16%|████████████████████████████████████████                                                                                                                                                                                                           | 657M/3.99G [00:08<00:24, 136MB/s]model-00002-of-00003.safetensors:  18%|████████████████████████████████████████████                                                                                                                                                                                                       | 724M/3.99G [00:09<00:20, 158MB/s]model-00002-of-00003.safetensors:  19%|█████████████████████████████████████████████▋                                                                                                                                                                                                     | 750M/3.99G [00:09<00:19, 162MB/s]model-00002-of-00003.safetensors:  19%|███████████████████████████████████████████████▎                                                                                                                                                                                                   | 776M/3.99G [00:09<00:23, 135MB/s]model-00002-of-00003.safetensors:  21%|███████████████████████████████████████████████████▏                                                                                                                                                                                              | 843M/3.99G [00:10<00:32, 95.6MB/s]model-00002-of-00003.safetensors:  21%|████████████████████████████████████████████████████                                                                                                                                                                                              | 857M/3.99G [00:10<00:35, 88.0MB/s]model-00002-of-00003.safetensors:  22%|████████████████████████████████████████████████████▋                                                                                                                                                                                             | 868M/3.99G [00:10<00:34, 90.0MB/s]model-00002-of-00003.safetensors:  22%|██████████████████████████████████████████████████████▍                                                                                                                                                                                            | 894M/3.99G [00:11<00:29, 105MB/s]model-00002-of-00003.safetensors:  24%|██████████████████████████████████████████████████████████▎                                                                                                                                                                                       | 961M/3.99G [00:11<00:33, 91.4MB/s]model-00002-of-00003.safetensors:  26%|██████████████████████████████████████████████████████████████▍                                                                                                                                                                                   | 1.03G/3.99G [00:12<00:27, 108MB/s]model-00002-of-00003.safetensors:  26%|███████████████████████████████████████████████████████████████▉                                                                                                                                                                                  | 1.05G/3.99G [00:12<00:25, 116MB/s]model-00002-of-00003.safetensors:  27%|██████████████████████████████████████████████████████████████████▌                                                                                                                                                                               | 1.10G/3.99G [00:12<00:22, 130MB/s]model-00002-of-00003.safetensors:  28%|████████████████████████████████████████████████████████████████████▍                                                                                                                                                                            | 1.13G/3.99G [00:13<00:31, 91.0MB/s]model-00002-of-00003.safetensors:  29%|█████████████████████████████████████████████████████████████████████▎                                                                                                                                                                           | 1.15G/3.99G [00:14<00:43, 65.4MB/s]model-00002-of-00003.safetensors:  29%|██████████████████████████████████████████████████████████████████████▉                                                                                                                                                                          | 1.17G/3.99G [00:14<00:35, 78.5MB/s]model-00002-of-00003.safetensors:  30%|████████████████████████████████████████████████████████████████████████▌                                                                                                                                                                        | 1.20G/3.99G [00:14<00:35, 78.2MB/s]model-00002-of-00003.safetensors:  33%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                                                                   | 1.30G/3.99G [00:15<00:22, 121MB/s]model-00002-of-00003.safetensors:  35%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                             | 1.39G/3.99G [00:15<00:13, 188MB/s]model-00002-of-00003.safetensors:  36%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                                           | 1.43G/3.99G [00:15<00:17, 144MB/s]model-00002-of-00003.safetensors:  38%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                      | 1.50G/3.99G [00:16<00:16, 153MB/s]model-00002-of-00003.safetensors:  38%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                     | 1.53G/3.99G [00:16<00:15, 158MB/s]model-00002-of-00003.safetensors:  39%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                                   | 1.57G/3.99G [00:16<00:16, 150MB/s]model-00002-of-00003.safetensors:  40%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                 | 1.59G/3.99G [00:16<00:15, 153MB/s]model-00002-of-00003.safetensors:  42%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                                             | 1.66G/3.99G [00:17<00:14, 158MB/s]model-00002-of-00003.safetensors:  43%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                                          | 1.70G/3.99G [00:17<00:14, 161MB/s]model-00002-of-00003.safetensors:  43%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                                         | 1.73G/3.99G [00:17<00:16, 135MB/s]model-00002-of-00003.safetensors:  44%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                       | 1.75G/3.99G [00:17<00:16, 139MB/s]model-00002-of-00003.safetensors:  45%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                      | 1.78G/3.99G [00:18<00:18, 120MB/s]model-00002-of-00003.safetensors:  46%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                  | 1.85G/3.99G [00:18<00:19, 108MB/s]model-00002-of-00003.safetensors:  47%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                | 1.87G/3.99G [00:19<00:21, 99.8MB/s]model-00002-of-00003.safetensors:  49%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                                            | 1.94G/3.99G [00:19<00:15, 128MB/s]model-00002-of-00003.safetensors:  51%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                       | 2.02G/3.99G [00:20<00:19, 98.4MB/s]model-00002-of-00003.safetensors:  52%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                   | 2.09G/3.99G [00:21<00:19, 99.3MB/s]model-00002-of-00003.safetensors:  54%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 2.16G/3.99G [00:21<00:15, 121MB/s]model-00002-of-00003.safetensors:  59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 2.37G/3.99G [00:22<00:07, 230MB/s]model-00002-of-00003.safetensors:  61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 2.41G/3.99G [00:22<00:06, 245MB/s]model-00002-of-00003.safetensors:  63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 2.51G/3.99G [00:22<00:06, 220MB/s]model-00002-of-00003.safetensors:  64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 2.54G/3.99G [00:22<00:07, 194MB/s]model-00002-of-00003.safetensors:  66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 2.62G/3.99G [00:23<00:06, 198MB/s]model-00002-of-00003.safetensors:  66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 2.65G/3.99G [00:23<00:07, 175MB/s]model-00002-of-00003.safetensors:  68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████▊                                                                             | 2.72G/3.99G [00:23<00:07, 178MB/s]model-00002-of-00003.safetensors:  69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 2.75G/3.99G [00:24<00:06, 180MB/s]model-00002-of-00003.safetensors:  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 2.77G/3.99G [00:24<00:06, 184MB/s]model-00002-of-00003.safetensors:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 2.80G/3.99G [00:24<00:06, 191MB/s]model-00002-of-00003.safetensors:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 2.87G/3.99G [00:24<00:06, 181MB/s]model-00002-of-00003.safetensors:  74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 2.96G/3.99G [00:25<00:05, 182MB/s]model-00002-of-00003.safetensors:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 3.03G/3.99G [00:25<00:05, 188MB/s]model-00002-of-00003.safetensors:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 3.10G/3.99G [00:26<00:06, 141MB/s]model-00002-of-00003.safetensors:  79%|██████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 3.16G/3.99G [00:26<00:05, 156MB/s]model-00002-of-00003.safetensors:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 3.23G/3.99G [00:27<00:05, 140MB/s]model-00002-of-00003.safetensors:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 3.31G/3.99G [00:27<00:04, 159MB/s]model-00002-of-00003.safetensors:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 3.33G/3.99G [00:27<00:04, 142MB/s]model-00002-of-00003.safetensors:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 3.47G/3.99G [00:28<00:02, 215MB/s]model-00002-of-00003.safetensors:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 3.54G/3.99G [00:28<00:02, 214MB/s]model-00002-of-00003.safetensors:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 3.60G/3.99G [00:29<00:02, 165MB/s]model-00002-of-00003.safetensors:  94%|████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 3.74G/3.99G [00:29<00:01, 223MB/s]model-00002-of-00003.safetensors:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 3.87G/3.99G [00:29<00:00, 269MB/s]model-00002-of-00003.safetensors:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 3.94G/3.99G [00:30<00:00, 217MB/s]model-00002-of-00003.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3.99G/3.99G [00:30<00:00, 235MB/s]model-00002-of-00003.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3.99G/3.99G [00:30<00:00, 130MB/s]
+model-00003-of-00003.safetensors:   0%|                                                                                                                                                                                                                                                          | 0.00/99.6M [00:00<?, ?B/s]model-00003-of-00003.safetensors:   8%|███████████████████                                                                                                                                                                                                                              | 7.88M/99.6M [00:00<00:10, 8.49MB/s]model-00003-of-00003.safetensors:  38%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                                                                      | 37.4M/99.6M [00:01<00:01, 36.8MB/s]model-00003-of-00003.safetensors: 100%|███████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 64.1MB/s]model-00003-of-00003.safetensors: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 51.9MB/s]
+Loading checkpoint shards:   0%|                                                                                                                                                                                                                                                                       | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 2/3 [00:00<00:00, 16.88it/s]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 22.16it/s]
+generation_config.json:   0%|                                                                                                                                                                                                                                                                      | 0.00/239 [00:00<?, ?B/s]generation_config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 239/239 [00:00<00:00, 865kB/s]
+[2025-10-31 00:02:45,036] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:7760] Converting modules to torch.bfloat16
+[2025-10-31 00:02:45,619] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:7760] Memory usage after model load 0.000GB ()
+[2025-10-31 00:02:57,377] [WARNING] [py.warnings._showwarnmsg:110] [PID:7760] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/trl/import_utils.py:91: UserWarning: TRL currently only supports vLLM version `0.10.2`. You have version 0.10.1 installed. We recommend to install this version to avoid compatibility issues.
+  warnings.warn(
+
+[2025-10-31 00:03:03,262] [INFO] [axolotl.train.save_initial_configs:402] [PID:7760] Pre-saving tokenizer to ./thinking-backfill-0.1.17...
+[2025-10-31 00:03:03,441] [INFO] [axolotl.train.save_initial_configs:407] [PID:7760] Pre-saving model config to ./thinking-backfill-0.1.17...
+[2025-10-31 00:03:03,444] [INFO] [axolotl.train.execute_training:196] [PID:7760] Starting trainer...
+[2025-10-31 00:03:06,763] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 1.0231437683105469
+[2025-10-31 00:03:07,780] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 1.0160093307495117
+[2025-10-31 00:03:08,861] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 1.0786917209625244
+[2025-10-31 00:03:09,938] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:7760] generate_batches time: 1.0748023986816406
+[2025-10-31 00:03:09,938] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:7760] gather_len_batches: [20028]
+[34m[1mwandb[0m: Currently logged in as: [33mjoeyzero[0m to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
+[34m[1mwandb[0m: [38;5;178m⢿[0m Waiting for wandb.init()...
+[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.22.3
+[34m[1mwandb[0m: Run data is saved locally in [35m[1m/workspace/axolotl/wandb/run-20251031_000310-0za8eodb[0m
+[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
+[34m[1mwandb[0m: Syncing run [33mreasoning-backfill-attempt-04[0m
+[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/joeyzero/reasoning-backfill[0m
+[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/joeyzero/reasoning-backfill/runs/0za8eodb[0m
+[34m[1mwandb[0m: Detected [huggingface_hub.inference, openai] in use.
+[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
+[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
+[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
+[2025-10-31 00:03:12,172] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:7760] The Axolotl config has been saved to the WandB run under files.
+  0%|                                                                                                                                                                                                                                                                                              | 0/40080 [00:00<?, ?it/s]  0%|                                                                                                                                                                                                                                                                                   | 1/40080 [00:04<50:21:54,  4.52s/it]  0%|                                                                                                                                                                                                                                                                                   | 2/40080 [00:05<26:45:10,  2.40s/it]  0%|                                                                                                                                                                                                                                                                                   | 3/40080 [00:06<18:14:21,  1.64s/it]  0%|                                                                                                                                                                                                                                                                                   | 4/40080 [00:06<14:14:23,  1.28s/it]  0%|                                                                                                                                                                                                                                                                                   | 5/40080 [00:07<12:02:24,  1.08s/it]  0%|                                                                                                                                                                                                                                                                                   | 6/40080 [00:08<10:41:38,  1.04it/s]  0%|                                                                                                                                                                                                                                                                                    | 7/40080 [00:09<9:51:02,  1.13it/s]  0%|                                                                                                                                                                                                                                                                                    | 8/40080 [00:09<9:17:47,  1.20it/s]  0%|                                                                                                                                                                                                                                                                                    | 9/40080 [00:10<8:55:10,  1.25it/s]  0%|                                                                                                                                                                                                                                                                                   | 10/40080 [00:11<8:39:55,  1.28it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 1.2935, 'grad_norm': 14.6875, 'learning_rate': 5.625e-06, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.25, 'epoch': 0.0}
+  0%|                                                                                                                                                                                                                                                                                   | 10/40080 [00:11<8:39:55,  1.28it/s]  0%|                                                                                                                                                                                                                                                                                   | 11/40080 [00:12<8:30:33,  1.31it/s]  0%|                                                                                                                                                                                                                                                                                   | 12/40080 [00:12<8:23:21,  1.33it/s]  0%|                                                                                                                                                                                                                                                                                   | 13/40080 [00:13<8:17:50,  1.34it/s]  0%|                                                                                                                                                                                                                                                                                   | 14/40080 [00:14<8:14:20,  1.35it/s]  0%|                                                                                                                                                                                                                                                                                   | 15/40080 [00:14<8:11:37,  1.36it/s]  0%|                                                                                                                                                                                                                                                                                   | 16/40080 [00:15<8:09:49,  1.36it/s]  0%|                                                                                                                                                                                                                                                                                   | 17/40080 [00:16<8:08:34,  1.37it/s]  0%|                                                                                                                                                                                                                                                                                   | 18/40080 [00:17<8:08:05,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 19/40080 [00:17<8:08:03,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 20/40080 [00:18<8:07:23,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.854, 'grad_norm': 4.875, 'learning_rate': 1.1875e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2456.09, 'epoch': 0.0}
+  0%|▏                                                                                                                                                                                                                                                                                  | 20/40080 [00:18<8:07:23,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 21/40080 [00:19<8:08:02,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 22/40080 [00:20<8:08:02,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 23/40080 [00:20<8:07:45,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 24/40080 [00:21<8:07:54,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 25/40080 [00:22<8:08:33,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 26/40080 [00:22<8:07:56,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 27/40080 [00:23<8:07:43,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 28/40080 [00:24<8:07:14,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 29/40080 [00:25<8:06:49,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 30/40080 [00:25<8:06:37,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6748, 'grad_norm': 3.765625, 'learning_rate': 1.8125e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2727.46, 'epoch': 0.0}
+  0%|▏                                                                                                                                                                                                                                                                                  | 30/40080 [00:25<8:06:37,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 31/40080 [00:26<8:07:57,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 32/40080 [00:27<8:07:03,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 33/40080 [00:28<8:06:58,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 34/40080 [00:28<8:06:35,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 35/40080 [00:29<8:07:58,  1.37it/s]  0%|▏                                                                                                                                                                                                                                                                                  | 36/40080 [00:30<8:07:24,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 37/40080 [00:30<8:07:01,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 38/40080 [00:31<8:07:22,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 39/40080 [00:32<8:07:14,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 40/40080 [00:33<8:06:57,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6458, 'grad_norm': 5.1875, 'learning_rate': 2.4375e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2542.63, 'epoch': 0.0}
+  0%|▎                                                                                                                                                                                                                                                                                  | 40/40080 [00:33<8:06:57,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 41/40080 [00:33<8:07:25,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 42/40080 [00:34<8:07:44,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 43/40080 [00:35<8:07:13,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 44/40080 [00:36<8:07:05,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 45/40080 [00:36<8:06:46,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 46/40080 [00:37<8:06:39,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 47/40080 [00:38<8:06:43,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 48/40080 [00:38<8:06:02,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 49/40080 [00:39<8:06:36,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 50/40080 [00:40<8:07:27,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6774, 'grad_norm': 4.125, 'learning_rate': 2.4999996883431864e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2345.48, 'epoch': 0.0}
+  0%|▎                                                                                                                                                                                                                                                                                  | 50/40080 [00:40<8:07:27,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 51/40080 [00:41<8:08:13,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 52/40080 [00:41<8:07:14,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 53/40080 [00:42<8:06:59,  1.37it/s]  0%|▎                                                                                                                                                                                                                                                                                  | 54/40080 [00:43<8:06:34,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 55/40080 [00:44<8:06:31,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 56/40080 [00:44<8:06:18,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 57/40080 [00:45<8:06:51,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 58/40080 [00:46<8:06:51,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 59/40080 [00:47<8:07:11,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 60/40080 [00:47<8:07:11,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.5765, 'grad_norm': 3.375, 'learning_rate': 2.499998611011191e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.77, 'epoch': 0.01}
+  0%|▍                                                                                                                                                                                                                                                                                  | 60/40080 [00:47<8:07:11,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 61/40080 [00:48<8:07:34,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 62/40080 [00:49<8:07:18,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 63/40080 [00:49<8:06:38,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 64/40080 [00:50<8:05:54,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 65/40080 [00:51<8:06:26,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 66/40080 [00:52<8:06:47,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 67/40080 [00:52<8:07:00,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 68/40080 [00:53<8:07:08,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 69/40080 [00:54<8:07:29,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 70/40080 [00:55<8:07:17,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6479, 'grad_norm': 3.6875, 'learning_rate': 2.4999967641570623e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.09, 'epoch': 0.01}
+  0%|▍                                                                                                                                                                                                                                                                                  | 70/40080 [00:55<8:07:17,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 71/40080 [00:55<8:07:40,  1.37it/s]  0%|▍                                                                                                                                                                                                                                                                                  | 72/40080 [00:56<8:07:51,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 73/40080 [00:57<8:07:58,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 74/40080 [00:57<8:07:47,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 75/40080 [00:58<8:07:26,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 76/40080 [00:59<8:08:01,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 77/40080 [01:00<8:07:53,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 78/40080 [01:00<8:07:10,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 79/40080 [01:01<8:07:02,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 80/40080 [01:02<8:06:36,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.655, 'grad_norm': 5.0625, 'learning_rate': 2.4999941477819366e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2546.51, 'epoch': 0.01}
+  0%|▌                                                                                                                                                                                                                                                                                  | 80/40080 [01:02<8:06:36,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 81/40080 [01:03<8:07:36,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 82/40080 [01:03<8:07:19,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 83/40080 [01:04<8:07:51,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 84/40080 [01:05<8:07:42,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 85/40080 [01:06<8:07:24,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 86/40080 [01:06<8:07:16,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 87/40080 [01:07<8:06:08,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 88/40080 [01:08<8:05:56,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 89/40080 [01:08<8:06:21,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 90/40080 [01:09<8:06:45,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.5784, 'grad_norm': 3.984375, 'learning_rate': 2.499990761887425e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2584.81, 'epoch': 0.01}
+  0%|▌                                                                                                                                                                                                                                                                                  | 90/40080 [01:09<8:06:45,  1.37it/s]  0%|▌                                                                                                                                                                                                                                                                                  | 91/40080 [01:10<8:07:26,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 92/40080 [01:11<8:06:50,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 93/40080 [01:11<8:06:28,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 94/40080 [01:12<8:07:30,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 95/40080 [01:13<8:07:39,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 96/40080 [01:14<8:07:51,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 97/40080 [01:14<8:08:16,  1.36it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 98/40080 [01:15<8:07:40,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                  | 99/40080 [01:16<8:07:15,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 100/40080 [01:16<8:07:25,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6179, 'grad_norm': 3.515625, 'learning_rate': 2.4999866064756117e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.64, 'epoch': 0.01}
+  0%|▋                                                                                                                                                                                                                                                                                 | 100/40080 [01:17<8:07:25,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 101/40080 [01:17<8:08:04,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 102/40080 [01:18<8:07:33,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 103/40080 [01:19<8:07:36,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 104/40080 [01:19<8:08:12,  1.36it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 105/40080 [01:20<8:07:24,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 106/40080 [01:21<8:07:08,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 107/40080 [01:22<8:08:08,  1.36it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 108/40080 [01:22<8:07:54,  1.37it/s]  0%|▋                                                                                                                                                                                                                                                                                 | 109/40080 [01:23<8:08:26,  1.36it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 110/40080 [01:24<8:07:59,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6117, 'grad_norm': 4.03125, 'learning_rate': 2.499981681549055e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.76, 'epoch': 0.01}
+  0%|▊                                                                                                                                                                                                                                                                                 | 110/40080 [01:24<8:07:59,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 111/40080 [01:25<8:08:17,  1.36it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 112/40080 [01:25<8:07:42,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 113/40080 [01:26<8:07:09,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 114/40080 [01:27<8:06:53,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 115/40080 [01:27<8:07:11,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 116/40080 [01:28<8:06:51,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 117/40080 [01:29<8:06:31,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 118/40080 [01:30<8:07:04,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 119/40080 [01:30<8:07:22,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 120/40080 [01:31<8:07:10,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6695, 'grad_norm': 4.34375, 'learning_rate': 2.4999759871107865e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2387.83, 'epoch': 0.01}
+  0%|▊                                                                                                                                                                                                                                                                                 | 120/40080 [01:31<8:07:10,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 121/40080 [01:32<8:07:24,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 122/40080 [01:33<8:07:13,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 123/40080 [01:33<8:07:10,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 124/40080 [01:34<8:07:11,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 125/40080 [01:35<8:07:14,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 126/40080 [01:36<8:07:00,  1.37it/s]  0%|▊                                                                                                                                                                                                                                                                                 | 127/40080 [01:36<8:06:52,  1.37it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 128/40080 [01:37<8:06:32,  1.37it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 129/40080 [01:38<8:06:40,  1.37it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 130/40080 [01:38<8:07:27,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6279, 'grad_norm': 4.75, 'learning_rate': 2.4999695231643118e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2498.78, 'epoch': 0.01}
+  0%|▉                                                                                                                                                                                                                                                                                 | 130/40080 [01:38<8:07:27,  1.37it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 131/40080 [01:39<8:08:42,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 132/40080 [01:40<8:08:32,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 133/40080 [01:41<8:08:05,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 134/40080 [01:41<8:08:18,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 135/40080 [01:42<8:07:51,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 136/40080 [01:43<8:07:49,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 137/40080 [01:44<8:07:34,  1.37it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 138/40080 [01:44<8:08:02,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 139/40080 [01:45<8:08:05,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 140/40080 [01:46<8:10:09,  1.36it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6055, 'grad_norm': 3.6875, 'learning_rate': 2.499962289713611e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.78, 'epoch': 0.01}
+  0%|▉                                                                                                                                                                                                                                                                                 | 140/40080 [01:46<8:10:09,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 141/40080 [01:47<8:09:44,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 142/40080 [01:47<8:08:50,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 143/40080 [01:48<8:08:41,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 144/40080 [01:49<8:09:09,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 145/40080 [01:49<8:08:57,  1.36it/s]  0%|▉                                                                                                                                                                                                                                                                                 | 146/40080 [01:50<8:08:22,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 147/40080 [01:51<8:08:21,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 148/40080 [01:52<8:07:59,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 149/40080 [01:52<8:07:40,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 150/40080 [01:53<8:07:35,  1.36it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6795, 'grad_norm': 4.15625, 'learning_rate': 2.499954286763136e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.78, 'epoch': 0.01}
+  0%|█                                                                                                                                                                                                                                                                                 | 150/40080 [01:53<8:07:35,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 151/40080 [01:54<8:08:17,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 152/40080 [01:55<8:07:39,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 153/40080 [01:55<8:07:27,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 154/40080 [01:56<8:07:09,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 155/40080 [01:57<8:07:02,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 156/40080 [01:58<8:07:07,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 157/40080 [01:58<8:06:55,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 158/40080 [01:59<8:07:03,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 159/40080 [02:00<8:06:53,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 160/40080 [02:00<8:07:20,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6555, 'grad_norm': 3.421875, 'learning_rate': 2.4999455143178143e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2449.63, 'epoch': 0.02}
+  0%|█                                                                                                                                                                                                                                                                                 | 160/40080 [02:00<8:07:20,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 161/40080 [02:01<8:07:22,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 162/40080 [02:02<8:07:23,  1.37it/s]  0%|█                                                                                                                                                                                                                                                                                 | 163/40080 [02:03<8:07:44,  1.36it/s]  0%|█                                                                                                                                                                                                                                                                                 | 164/40080 [02:03<8:07:16,  1.37it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 165/40080 [02:04<8:07:08,  1.37it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 166/40080 [02:05<8:06:49,  1.37it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 167/40080 [02:06<8:06:55,  1.37it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 168/40080 [02:06<8:06:40,  1.37it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 169/40080 [02:07<8:06:17,  1.37it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 170/40080 [02:08<8:06:33,  1.37it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6666, 'grad_norm': 4.1875, 'learning_rate': 2.499935972383046e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2483.81, 'epoch': 0.02}
+  0%|█▏                                                                                                                                                                                                                                                                                | 170/40080 [02:08<8:06:33,  1.37it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 171/40080 [02:09<8:07:48,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 172/40080 [02:09<8:08:16,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 173/40080 [02:10<8:08:19,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 174/40080 [02:11<8:07:56,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 175/40080 [02:11<8:07:19,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 176/40080 [02:12<8:07:15,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 177/40080 [02:13<8:07:13,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 178/40080 [02:14<8:07:13,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 179/40080 [02:14<8:07:50,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 180/40080 [02:15<8:07:28,  1.36it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.6499, 'grad_norm': 4.28125, 'learning_rate': 2.499925660964706e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2676.57, 'epoch': 0.02}
+  0%|█▏                                                                                                                                                                                                                                                                                | 180/40080 [02:15<8:07:28,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 181/40080 [02:16<8:08:14,  1.36it/s]  0%|█▏                                                                                                                                                                                                                                                                                | 182/40080 [02:17<8:08:21,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 183/40080 [02:17<8:08:19,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 184/40080 [02:18<8:08:12,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 185/40080 [02:19<8:13:22,  1.35it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 186/40080 [02:20<8:11:04,  1.35it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 187/40080 [02:20<8:09:23,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 188/40080 [02:21<8:08:09,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 189/40080 [02:22<8:07:57,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 190/40080 [02:22<8:07:11,  1.36it/s]                                                                                                                                                                                                                                                                                                                             {'loss': 0.5887, 'grad_norm': 3.34375, 'learning_rate': 2.4999145800691415e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2547.88, 'epoch': 0.02}
+  0%|█▎                                                                                                                                                                                                                                                                                | 190/40080 [02:22<8:07:11,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 191/40080 [02:23<8:07:35,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 192/40080 [02:24<8:07:51,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 193/40080 [02:25<8:07:32,  1.36it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 194/40080 [02:25<8:06:46,  1.37it/s]  0%|█▎                                                                                                                                                                                                                                                                                | 195/40080 [02:26<8:06:48,  1.37it/s]  0%|▏                                    | 196/40080 [02:27<8:06:32,  1.37it/s]                                                                                                                                                                                                                                               0%|▏                                    | 197/40080 [02:28<8:05:56,  1.37it/s]  0%|▏                                     | 198/40080 [02:28<8:05:50,  1.37it/s]  0%|▍                                                                                           | 199/40080 [02:29<8:06:44,  1.37it/s]  0%|▌                                                                                                                       | 200/40080 [02:30<8:06:10,  1.37it/s]                                                                                                                                                                   {'loss': 0.6962, 'grad_norm': 4.25, 'learning_rate': 2.4999027297031743e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2651.86, 'epoch': 0.02}
+  0%|▌                                                                                                                       | 200/40080 [02:30<8:06:10,  1.37it/s]  1%|▌                                                                                                                      | 201/40080 [02:31<8:07:08,  1.36it/s]   1%|▌                                                                                                                      | 202/40080 [02:31<8:07:02,  1.36it/s]  1%|▌                                                                                                                      | 203/40080 [02:32<8:06:47,  1.37it/s]  1%|▌                                                                                                                      | 204/40080 [02:33<8:06:20,  1.37it/s]  1%|▌                                                                                                                      | 205/40080 [02:33<8:06:04,  1.37it/s]  1%|▌                                                                                                                      | 206/40080 [02:34<8:06:09,  1.37it/s]  1%|▌                                                                                                                      | 207/40080 [02:35<8:05:50,  1.37it/s]  1%|▌                                                                                                                      | 208/40080 [02:36<8:05:55,  1.37it/s]  1%|▊                                                                                                                                                    | 209/40080 [02:36<8:05:52,  1.37it/s]  1%|▉                                                                                                                                                                          | 210/40080 [02:37<8:05:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6851, 'grad_norm': 3.5, 'learning_rate': 2.4998901098740997e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.71, 'epoch': 0.02}
+  1%|▉                                                                                                                                                                          | 210/40080 [02:37<8:05:48,  1.37it/s]  1%|▉                                                                                                                                                                          | 211/40080 [02:38<8:06:11,  1.37it/s]  1%|▉                                                                                                                                                                          | 212/40080 [02:39<8:05:09,  1.37it/s]  1%|▉                                                                                                                                                                          | 213/40080 [02:39<8:05:23,  1.37it/s]  1%|▉                                                                                                                                                                          | 214/40080 [02:40<8:05:01,  1.37it/s]  1%|▉                                                                                                                                                                          | 215/40080 [02:41<8:05:18,  1.37it/s]  1%|▉                                                                                                                                                                          | 216/40080 [02:41<8:04:52,  1.37it/s]  1%|▉                                                                                                                                                                          | 217/40080 [02:42<8:05:31,  1.37it/s]  1%|▉                                                                                                                                                                          | 218/40080 [02:43<8:05:43,  1.37it/s]  1%|▉                                                                                                                                                                          | 219/40080 [02:44<8:06:07,  1.37it/s]  1%|▉                                                                                                                                                                          | 220/40080 [02:44<8:06:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6518, 'grad_norm': 3.734375, 'learning_rate': 2.4998767205896865e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.45, 'epoch': 0.02}
+  1%|▉                                                                                                                                                                          | 220/40080 [02:44<8:06:07,  1.37it/s]  1%|▉                                                                                                                                                                          | 221/40080 [02:45<8:07:06,  1.36it/s]  1%|▉                                                                                                                                                                          | 222/40080 [02:46<8:07:06,  1.36it/s]  1%|▉                                                                                                                                                                          | 223/40080 [02:47<8:07:09,  1.36it/s]  1%|▉                                                                                                                                                                          | 224/40080 [02:47<8:06:34,  1.37it/s]  1%|▉                                                                                                                                                                          | 225/40080 [02:48<8:06:48,  1.36it/s]  1%|▉                                                                                                                                                                          | 226/40080 [02:49<8:06:47,  1.36it/s]  1%|▉                                                                                                                                                                          | 227/40080 [02:50<8:06:28,  1.37it/s]  1%|▉                                                                                                                                                                          | 228/40080 [02:50<8:05:49,  1.37it/s]  1%|▉                                                                                                                                                                          | 229/40080 [02:51<8:05:35,  1.37it/s]  1%|▉                                                                                                                                                                          | 230/40080 [02:52<8:05:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6525, 'grad_norm': 3.53125, 'learning_rate': 2.499862561858178e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2649.66, 'epoch': 0.02}
+  1%|▉                                                                                                                                                                          | 230/40080 [02:52<8:05:51,  1.37it/s]  1%|▉                                                                                                                                                                          | 231/40080 [02:52<8:06:24,  1.37it/s]  1%|▉                                                                                                                                                                          | 232/40080 [02:53<8:06:21,  1.37it/s]  1%|▉                                                                                                                                                                          | 233/40080 [02:54<8:06:31,  1.37it/s]  1%|▉                                                                                                                                                                          | 234/40080 [02:55<8:06:39,  1.36it/s]  1%|█                                                                                                                                                                          | 235/40080 [02:55<8:06:05,  1.37it/s]  1%|█                                                                                                                                                                          | 236/40080 [02:56<8:06:23,  1.37it/s]  1%|█                                                                                                                                                                          | 237/40080 [02:57<8:06:59,  1.36it/s]  1%|█                                                                                                                                                                          | 238/40080 [02:58<8:07:15,  1.36it/s]  1%|█                                                                                                                                                                          | 239/40080 [02:58<8:07:03,  1.36it/s]  1%|█                                                                                                                                                                          | 240/40080 [02:59<8:07:41,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5986, 'grad_norm': 5.21875, 'learning_rate': 2.49984763368829e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.23, 'epoch': 0.02}
+  1%|█                                                                                                                                                                          | 240/40080 [02:59<8:07:41,  1.36it/s]  1%|█                                                                                                                                                                          | 241/40080 [03:00<8:08:08,  1.36it/s]  1%|█                                                                                                                                                                          | 242/40080 [03:01<8:07:13,  1.36it/s]  1%|█                                                                                                                                                                          | 243/40080 [03:01<8:06:38,  1.36it/s]  1%|█                                                                                                                                                                          | 244/40080 [03:02<8:05:58,  1.37it/s]  1%|█                                                                                                                                                                          | 245/40080 [03:03<8:06:32,  1.36it/s]  1%|█                                                                                                                                                                          | 246/40080 [03:03<8:05:54,  1.37it/s]  1%|█                                                                                                                                                                          | 247/40080 [03:04<8:05:57,  1.37it/s]  1%|█                                                                                                                                                                          | 248/40080 [03:05<8:05:23,  1.37it/s]  1%|█                                                                                                                                                                          | 249/40080 [03:06<8:05:21,  1.37it/s]  1%|█                                                                                                                                                                          | 250/40080 [03:06<8:05:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6158, 'grad_norm': 3.359375, 'learning_rate': 2.499831936089213e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2570.46, 'epoch': 0.02}
+  1%|█                                                                                                                                                                          | 250/40080 [03:06<8:05:21,  1.37it/s]  1%|█                                                                                                                                                                          | 251/40080 [03:07<8:06:14,  1.37it/s]  1%|█                                                                                                                                                                          | 252/40080 [03:08<8:06:04,  1.37it/s]  1%|█                                                                                                                                                                          | 253/40080 [03:09<8:05:52,  1.37it/s]  1%|█                                                                                                                                                                          | 254/40080 [03:09<8:06:04,  1.37it/s]  1%|█                                                                                                                                                                          | 255/40080 [03:10<8:06:02,  1.37it/s]  1%|█                                                                                                                                                                          | 256/40080 [03:11<8:05:56,  1.37it/s]  1%|█                                                                                                                                                                          | 257/40080 [03:12<8:05:46,  1.37it/s]  1%|█                                                                                                                                                                          | 258/40080 [03:12<8:06:02,  1.37it/s]  1%|█                                                                                                                                                                          | 259/40080 [03:13<8:06:00,  1.37it/s]  1%|█                                                                                                                                                                          | 260/40080 [03:14<8:05:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6437, 'grad_norm': 4.65625, 'learning_rate': 2.49981546907061e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.01, 'epoch': 0.03}
+  1%|█                                                                                                                                                                          | 260/40080 [03:14<8:05:36,  1.37it/s]  1%|█                                                                                                                                                                          | 261/40080 [03:14<8:06:11,  1.36it/s]  1%|█                                                                                                                                                                          | 262/40080 [03:15<8:06:12,  1.36it/s]  1%|█                                                                                                                                                                          | 263/40080 [03:16<8:05:44,  1.37it/s]  1%|█▏                                                                                                                                                                         | 264/40080 [03:17<8:05:33,  1.37it/s]  1%|█▏                                                                                                                                                                         | 265/40080 [03:17<8:05:23,  1.37it/s]  1%|█▏                                                                                                                                                                         | 266/40080 [03:18<8:05:17,  1.37it/s]  1%|█▏                                                                                                                                                                         | 267/40080 [03:19<8:05:24,  1.37it/s]  1%|█▏                                                                                                                                                                         | 268/40080 [03:20<8:04:44,  1.37it/s]  1%|█▏                                                                                                                                                                         | 269/40080 [03:20<8:05:22,  1.37it/s]  1%|█▏                                                                                                                                                                         | 270/40080 [03:21<8:05:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6132, 'grad_norm': 3.5, 'learning_rate': 2.499798232642619e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2626.8, 'epoch': 0.03}
+  1%|█▏                                                                                                                                                                         | 270/40080 [03:21<8:05:08,  1.37it/s]  1%|█▏                                                                                                                                                                         | 271/40080 [03:22<8:05:42,  1.37it/s]  1%|█▏                                                                                                                                                                         | 272/40080 [03:22<8:05:21,  1.37it/s]  1%|█▏                                                                                                                                                                         | 273/40080 [03:23<8:05:04,  1.37it/s]  1%|█▏                                                                                                                                                                         | 274/40080 [03:24<8:05:09,  1.37it/s]  1%|█▏                                                                                                                                                                         | 275/40080 [03:25<8:05:17,  1.37it/s]  1%|█▏                                                                                                                                                                         | 276/40080 [03:25<8:05:29,  1.37it/s]  1%|█▏                                                                                                                                                                         | 277/40080 [03:26<8:05:40,  1.37it/s]  1%|█▏                                                                                                                                                                         | 278/40080 [03:27<8:05:34,  1.37it/s]  1%|█▏                                                                                                                                                                         | 279/40080 [03:28<8:05:52,  1.37it/s]  1%|█▏                                                                                                                                                                         | 280/40080 [03:28<8:05:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6843, 'grad_norm': 4.8125, 'learning_rate': 2.499780226815851e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2601.43, 'epoch': 0.03}
+  1%|█▏                                                                                                                                                                         | 280/40080 [03:28<8:05:38,  1.37it/s]  1%|█▏                                                                                                                                                                         | 281/40080 [03:29<8:06:13,  1.36it/s]  1%|█▏                                                                                                                                                                         | 282/40080 [03:30<8:06:02,  1.36it/s]  1%|█▏                                                                                                                                                                         | 283/40080 [03:31<8:05:48,  1.37it/s]  1%|█▏                                                                                                                                                                         | 284/40080 [03:31<8:06:17,  1.36it/s]  1%|█▏                                                                                                                                                                         | 285/40080 [03:32<8:06:42,  1.36it/s]  1%|█▏                                                                                                                                                                         | 286/40080 [03:33<8:07:00,  1.36it/s]  1%|█▏                                                                                                                                                                         | 287/40080 [03:33<8:06:14,  1.36it/s]  1%|█▏                                                                                                                                                                         | 288/40080 [03:34<8:05:34,  1.37it/s]  1%|█▏                                                                                                                                                                         | 289/40080 [03:35<8:04:52,  1.37it/s]  1%|█▏                                                                                                                                                                         | 290/40080 [03:36<8:05:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5671, 'grad_norm': 3.484375, 'learning_rate': 2.4997614516013902e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.89, 'epoch': 0.03}
+  1%|█▏                                                                                                                                                                         | 290/40080 [03:36<8:05:01,  1.37it/s]  1%|█▏                                                                                                                                                                         | 291/40080 [03:36<8:06:02,  1.36it/s]  1%|█▏                                                                                                                                                                         | 292/40080 [03:37<8:05:54,  1.36it/s]  1%|█▎                                                                                                                                                                         | 293/40080 [03:38<8:06:17,  1.36it/s]  1%|█▎                                                                                                                                                                         | 294/40080 [03:39<8:06:01,  1.36it/s]  1%|█▎                                                                                                                                                                         | 295/40080 [03:39<8:06:39,  1.36it/s]  1%|█▎                                                                                                                                                                         | 296/40080 [03:40<8:06:40,  1.36it/s]  1%|█▎                                                                                                                                                                         | 297/40080 [03:41<8:06:28,  1.36it/s]  1%|█▎                                                                                                                                                                         | 298/40080 [03:42<8:06:31,  1.36it/s]  1%|█▎                                                                                                                                                                         | 299/40080 [03:42<8:05:29,  1.37it/s]  1%|█▎                                                                                                                                                                         | 300/40080 [03:43<8:05:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6735, 'grad_norm': 3.46875, 'learning_rate': 2.499741907010796e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2372.26, 'epoch': 0.03}
+  1%|█▎                                                                                                                                                                         | 300/40080 [03:43<8:05:10,  1.37it/s]  1%|█▎                                                                                                                                                                         | 301/40080 [03:44<8:06:00,  1.36it/s]  1%|█▎                                                                                                                                                                         | 302/40080 [03:44<8:05:44,  1.36it/s]  1%|█▎                                                                                                                                                                         | 303/40080 [03:45<8:05:07,  1.37it/s]  1%|█▎                                                                                                                                                                         | 304/40080 [03:46<8:06:05,  1.36it/s]  1%|█▎                                                                                                                                                                         | 305/40080 [03:47<8:05:04,  1.37it/s]  1%|█▎                                                                                                                                                                         | 306/40080 [03:47<8:05:19,  1.37it/s]  1%|█▎                                                                                                                                                                         | 307/40080 [03:48<8:05:26,  1.37it/s]  1%|█▎                                                                                                                                                                         | 308/40080 [03:49<8:05:22,  1.37it/s]  1%|█▎                                                                                                                                                                         | 309/40080 [03:50<8:05:13,  1.37it/s]  1%|█▎                                                                                                                                                                         | 310/40080 [03:50<8:05:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6259, 'grad_norm': 4.0, 'learning_rate': 2.4997215930560997e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2587.61, 'epoch': 0.03}
+  1%|█▎                                                                                                                                                                         | 310/40080 [03:50<8:05:17,  1.37it/s]  1%|█▎                                                                                                                                                                         | 311/40080 [03:51<8:05:27,  1.37it/s]  1%|█▎                                                                                                                                                                         | 312/40080 [03:52<8:04:43,  1.37it/s]  1%|█▎                                                                                                                                                                         | 313/40080 [03:53<8:05:06,  1.37it/s]  1%|█▎                                                                                                                                                                         | 314/40080 [03:53<8:05:07,  1.37it/s]  1%|█▎                                                                                                                                                                         | 315/40080 [03:54<8:05:01,  1.37it/s]  1%|█▎                                                                                                                                                                         | 316/40080 [03:55<8:06:07,  1.36it/s]  1%|█▎                                                                                                                                                                         | 317/40080 [03:55<8:06:27,  1.36it/s]  1%|█▎                                                                                                                                                                         | 318/40080 [03:56<8:06:43,  1.36it/s]  1%|█▎                                                                                                                                                                         | 319/40080 [03:57<8:05:49,  1.36it/s]  1%|█▎                                                                                                                                                                         | 320/40080 [03:58<8:05:34,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6604, 'grad_norm': 3.625, 'learning_rate': 2.4997005097498068e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.99, 'epoch': 0.03}
+  1%|█▎                                                                                                                                                                         | 320/40080 [03:58<8:05:34,  1.36it/s]  1%|█▎                                                                                                                                                                         | 321/40080 [03:58<8:06:15,  1.36it/s]  1%|█▎                                                                                                                                                                         | 322/40080 [03:59<8:06:35,  1.36it/s]  1%|█▍                                                                                                                                                                         | 323/40080 [04:00<8:06:15,  1.36it/s]  1%|█▍                                                                                                                                                                         | 324/40080 [04:01<8:05:46,  1.36it/s]  1%|█▍                                                                                                                                                                         | 325/40080 [04:01<8:05:19,  1.37it/s]  1%|█▍                                                                                                                                                                         | 326/40080 [04:02<8:05:25,  1.36it/s]  1%|█▍                                                                                                                                                                         | 327/40080 [04:03<8:04:19,  1.37it/s]  1%|█▍                                                                                                                                                                         | 328/40080 [04:04<8:04:33,  1.37it/s]  1%|█▍                                                                                                                                                                         | 329/40080 [04:04<8:04:42,  1.37it/s]  1%|█▍                                                                                                                                                                         | 330/40080 [04:05<8:04:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.613, 'grad_norm': 3.984375, 'learning_rate': 2.499678657104897e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.74, 'epoch': 0.03}
+  1%|█▍                                                                                                                                                                         | 330/40080 [04:05<8:04:16,  1.37it/s]  1%|█▍                                                                                                                                                                         | 331/40080 [04:06<8:05:08,  1.37it/s]  1%|█▍                                                                                                                                                                         | 332/40080 [04:06<8:04:52,  1.37it/s]  1%|█▍                                                                                                                                                                         | 333/40080 [04:07<8:04:37,  1.37it/s]  1%|█▍                                                                                                                                                                         | 334/40080 [04:08<8:04:12,  1.37it/s]  1%|█▍                                                                                                                                                                         | 335/40080 [04:09<8:04:17,  1.37it/s]  1%|█▍                                                                                                                                                                         | 336/40080 [04:09<8:04:06,  1.37it/s]  1%|█▍                                                                                                                                                                         | 337/40080 [04:10<8:03:56,  1.37it/s]  1%|█▍                                                                                                                                                                         | 338/40080 [04:11<8:03:53,  1.37it/s]  1%|█▍                                                                                                                                                                         | 339/40080 [04:12<8:04:06,  1.37it/s]  1%|█▍                                                                                                                                                                         | 340/40080 [04:12<8:03:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6758, 'grad_norm': 3.375, 'learning_rate': 2.499656035134823e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.37, 'epoch': 0.03}
+  1%|█▍                                                                                                                                                                         | 340/40080 [04:12<8:03:40,  1.37it/s]  1%|█▍                                                                                                                                                                         | 341/40080 [04:13<8:04:30,  1.37it/s]  1%|█▍                                                                                                                                                                         | 342/40080 [04:14<8:04:59,  1.37it/s]  1%|█▍                                                                                                                                                                         | 343/40080 [04:14<8:04:55,  1.37it/s]  1%|█▍                                                                                                                                                                         | 344/40080 [04:15<8:04:51,  1.37it/s]  1%|█▍                                                                                                                                                                         | 345/40080 [04:16<8:05:11,  1.36it/s]  1%|█▍                                                                                                                                                                         | 346/40080 [04:17<8:04:42,  1.37it/s]  1%|█▍                                                                                                                                                                         | 347/40080 [04:17<8:04:37,  1.37it/s]  1%|█▍                                                                                                                                                                         | 348/40080 [04:18<8:04:15,  1.37it/s]  1%|█▍                                                                                                                                                                         | 349/40080 [04:19<8:04:19,  1.37it/s]  1%|█▍                                                                                                                                                                         | 350/40080 [04:20<8:04:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5786, 'grad_norm': 3.484375, 'learning_rate': 2.499632643853511e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.29, 'epoch': 0.03}
+  1%|█▍                                                                                                                                                                         | 350/40080 [04:20<8:04:58,  1.37it/s]  1%|█▍                                                                                                                                                                         | 351/40080 [04:20<8:05:36,  1.36it/s]  1%|█▌                                                                                                                                                                         | 352/40080 [04:21<8:05:06,  1.36it/s]  1%|█▌                                                                                                                                                                         | 353/40080 [04:22<8:04:13,  1.37it/s]  1%|█▌                                                                                                                                                                         | 354/40080 [04:23<8:04:11,  1.37it/s]  1%|█▌                                                                                                                                                                         | 355/40080 [04:23<8:04:02,  1.37it/s]  1%|█▌                                                                                                                                                                         | 356/40080 [04:24<8:04:15,  1.37it/s]  1%|█▌                                                                                                                                                                         | 357/40080 [04:25<8:04:12,  1.37it/s]  1%|█▌                                                                                                                                                                         | 358/40080 [04:25<8:04:01,  1.37it/s]  1%|█▌                                                                                                                                                                         | 359/40080 [04:26<8:03:34,  1.37it/s]  1%|█▌                                                                                                                                                                         | 360/40080 [04:27<8:04:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.7036, 'grad_norm': 3.671875, 'learning_rate': 2.4996084832753617e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2411.29, 'epoch': 0.04}
+  1%|█▌                                                                                                                                                                         | 360/40080 [04:27<8:04:01,  1.37it/s]  1%|█▌                                                                                                                                                                         | 361/40080 [04:28<8:04:36,  1.37it/s]  1%|█▌                                                                                                                                                                         | 362/40080 [04:28<8:04:27,  1.37it/s]  1%|█▌                                                                                                                                                                         | 363/40080 [04:29<8:04:36,  1.37it/s]  1%|█▌                                                                                                                                                                         | 364/40080 [04:30<8:05:05,  1.36it/s]  1%|█▌                                                                                                                                                                         | 365/40080 [04:31<8:04:30,  1.37it/s]  1%|█▌                                                                                                                                                                         | 366/40080 [04:31<8:04:45,  1.37it/s]  1%|█▌                                                                                                                                                                         | 367/40080 [04:32<8:04:20,  1.37it/s]  1%|█▌                                                                                                                                                                         | 368/40080 [04:33<8:04:31,  1.37it/s]  1%|█▌                                                                                                                                                                         | 369/40080 [04:34<8:04:46,  1.37it/s]  1%|█▌                                                                                                                                                                         | 370/40080 [04:34<8:05:16,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5763, 'grad_norm': 4.0625, 'learning_rate': 2.4995835534152486e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2577.58, 'epoch': 0.04}
+  1%|█▌                                                                                                                                                                         | 370/40080 [04:34<8:05:16,  1.36it/s]  1%|█▌                                                                                                                                                                         | 371/40080 [04:35<8:05:53,  1.36it/s]  1%|█▌                                                                                                                                                                         | 372/40080 [04:36<8:05:39,  1.36it/s]  1%|█▌                                                                                                                                                                         | 373/40080 [04:36<8:04:58,  1.36it/s]  1%|█▌                                                                                                                                                                         | 374/40080 [04:37<8:04:45,  1.37it/s]  1%|█▌                                                                                                                                                                         | 375/40080 [04:38<8:04:35,  1.37it/s]  1%|█▌                                                                                                                                                                         | 376/40080 [04:39<8:05:13,  1.36it/s]  1%|█▌                                                                                                                                                                         | 377/40080 [04:39<8:05:06,  1.36it/s]  1%|█▌                                                                                                                                                                         | 378/40080 [04:40<8:05:02,  1.36it/s]  1%|█▌                                                                                                                                                                         | 379/40080 [04:41<8:04:25,  1.37it/s]  1%|█▌                                                                                                                                                                         | 380/40080 [04:42<8:05:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6163, 'grad_norm': 3.75, 'learning_rate': 2.499557854288519e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2664.57, 'epoch': 0.04}
+  1%|█▌                                                                                                                                                                         | 380/40080 [04:42<8:05:20,  1.36it/s]  1%|█▋                                                                                                                                                                         | 381/40080 [04:42<8:06:16,  1.36it/s]  1%|█▋                                                                                                                                                                         | 382/40080 [04:43<8:06:17,  1.36it/s]  1%|█▋                                                                                                                                                                         | 383/40080 [04:44<8:06:26,  1.36it/s]  1%|█▋                                                                                                                                                                         | 384/40080 [04:45<8:05:43,  1.36it/s]  1%|█▋                                                                                                                                                                         | 385/40080 [04:45<8:05:14,  1.36it/s]  1%|█▋                                                                                                                                                                         | 386/40080 [04:46<8:04:55,  1.36it/s]  1%|█▋                                                                                                                                                                         | 387/40080 [04:47<8:06:55,  1.36it/s]  1%|█▋                                                                                                                                                                         | 388/40080 [04:47<8:06:22,  1.36it/s]  1%|█▋                                                                                                                                                                         | 389/40080 [04:48<8:05:58,  1.36it/s]  1%|█▋                                                                                                                                                                         | 390/40080 [04:49<8:05:59,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6304, 'grad_norm': 3.09375, 'learning_rate': 2.4995313859109933e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2496.57, 'epoch': 0.04}
+  1%|█▋                                                                                                                                                                         | 390/40080 [04:49<8:05:59,  1.36it/s]  1%|█▋                                                                                                                                                                         | 391/40080 [04:50<8:05:29,  1.36it/s]  1%|█▋                                                                                                                                                                         | 392/40080 [04:50<8:04:47,  1.36it/s]  1%|█▋                                                                                                                                                                         | 393/40080 [04:51<8:04:27,  1.37it/s]  1%|█▋                                                                                                                                                                         | 394/40080 [04:52<8:04:13,  1.37it/s]  1%|█▋                                                                                                                                                                         | 395/40080 [04:53<8:03:43,  1.37it/s]  1%|█▋                                                                                                                                                                         | 396/40080 [04:53<8:03:53,  1.37it/s]  1%|█▋                                                                                                                                                                         | 397/40080 [04:54<8:04:02,  1.37it/s]  1%|█▋                                                                                                                                                                         | 398/40080 [04:55<8:04:13,  1.37it/s]  1%|█▋                                                                                                                                                                         | 399/40080 [04:56<8:04:16,  1.37it/s]  1%|█▋                                                                                                                                                                         | 400/40080 [04:56<8:03:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6398, 'grad_norm': 3.796875, 'learning_rate': 2.4995041482989668e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.44, 'epoch': 0.04}
+  1%|█▋                                                                                                                                                                         | 400/40080 [04:56<8:03:51,  1.37it/s]  1%|█▋                                                                                                                                                                         | 401/40080 [04:57<8:03:56,  1.37it/s]  1%|█▋                                                                                                                                                                         | 402/40080 [04:58<8:03:45,  1.37it/s]  1%|█▋                                                                                                                                                                         | 403/40080 [04:58<8:03:40,  1.37it/s]  1%|█▋                                                                                                                                                                         | 404/40080 [04:59<8:04:30,  1.36it/s]  1%|█▋                                                                                                                                                                         | 405/40080 [05:00<8:03:45,  1.37it/s]  1%|█▋                                                                                                                                                                         | 406/40080 [05:01<8:03:55,  1.37it/s]  1%|█▋                                                                                                                                                                         | 407/40080 [05:01<8:03:48,  1.37it/s]  1%|█▋                                                                                                                                                                         | 408/40080 [05:02<8:03:54,  1.37it/s]  1%|█▋                                                                                                                                                                         | 409/40080 [05:03<8:04:15,  1.37it/s]  1%|█▋                                                                                                                                                                         | 410/40080 [05:04<8:03:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6036, 'grad_norm': 3.78125, 'learning_rate': 2.4994761414692064e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2590.92, 'epoch': 0.04}
+  1%|█▋                                                                                                                                                                         | 410/40080 [05:04<8:03:48,  1.37it/s]  1%|█▊                                                                                                                                                                         | 411/40080 [05:04<8:04:26,  1.36it/s]  1%|█▊                                                                                                                                                                         | 412/40080 [05:05<8:04:07,  1.37it/s]  1%|█▊                                                                                                                                                                         | 413/40080 [05:06<8:04:03,  1.37it/s]  1%|█▊                                                                                                                                                                         | 414/40080 [05:06<8:04:15,  1.37it/s]  1%|█▊                                                                                                                                                                         | 415/40080 [05:07<8:03:46,  1.37it/s]  1%|█▊                                                                                                                                                                         | 416/40080 [05:08<8:04:01,  1.37it/s]  1%|█▊                                                                                                                                                                         | 417/40080 [05:09<8:04:22,  1.36it/s]  1%|█▊                                                                                                                                                                         | 418/40080 [05:09<8:04:08,  1.37it/s]  1%|█▊                                                                                                                                                                         | 419/40080 [05:10<8:03:59,  1.37it/s]  1%|█▊                                                                                                                                                                         | 420/40080 [05:11<8:04:30,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5739, 'grad_norm': 3.234375, 'learning_rate': 2.4994473654389542e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2513.79, 'epoch': 0.04}
+  1%|█▊                                                                                                                                                                         | 420/40080 [05:11<8:04:30,  1.36it/s]  1%|█▊                                                                                                                                                                         | 421/40080 [05:12<8:04:34,  1.36it/s]  1%|█▊                                                                                                                                                                         | 422/40080 [05:12<8:04:19,  1.36it/s]  1%|█▊                                                                                                                                                                         | 423/40080 [05:13<8:03:36,  1.37it/s]  1%|█▊                                                                                                                                                                         | 424/40080 [05:14<8:03:47,  1.37it/s]  1%|█▊                                                                                                                                                                         | 425/40080 [05:15<8:03:58,  1.37it/s]  1%|█▊                                                                                                                                                                         | 426/40080 [05:15<8:03:40,  1.37it/s]  1%|█▊                                                                                                                                                                         | 427/40080 [05:16<8:03:58,  1.37it/s]  1%|█▊                                                                                                                                                                         | 428/40080 [05:17<8:03:44,  1.37it/s]  1%|█▊                                                                                                                                                                         | 429/40080 [05:17<8:03:54,  1.37it/s]  1%|█▊                                                                                                                                                                         | 430/40080 [05:18<8:04:18,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6383, 'grad_norm': 3.796875, 'learning_rate': 2.4994178202259255e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2555.06, 'epoch': 0.04}
+  1%|█▊                                                                                                                                                                         | 430/40080 [05:18<8:04:18,  1.36it/s]  1%|█▊                                                                                                                                                                         | 431/40080 [05:19<8:05:01,  1.36it/s]  1%|█▊                                                                                                                                                                         | 432/40080 [05:20<8:04:31,  1.36it/s]  1%|█▊                                                                                                                                                                         | 433/40080 [05:20<8:04:35,  1.36it/s]  1%|█▊                                                                                                                                                                         | 434/40080 [05:21<8:03:53,  1.37it/s]  1%|█▊                                                                                                                                                                         | 435/40080 [05:22<8:03:34,  1.37it/s]  1%|█▊                                                                                                                                                                         | 436/40080 [05:23<8:03:26,  1.37it/s]  1%|█▊                                                                                                                                                                         | 437/40080 [05:23<8:03:43,  1.37it/s]  1%|█▊                                                                                                                                                                         | 438/40080 [05:24<8:03:29,  1.37it/s]  1%|█▊                                                                                                                                                                         | 439/40080 [05:25<8:02:56,  1.37it/s]  1%|█▉                                                                                                                                                                         | 440/40080 [05:26<8:03:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5553, 'grad_norm': 2.625, 'learning_rate': 2.4993875058483085e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.61, 'epoch': 0.04}
+  1%|█▉                                                                                                                                                                         | 440/40080 [05:26<8:03:31,  1.37it/s]  1%|█▉                                                                                                                                                                         | 441/40080 [05:26<8:04:10,  1.36it/s]  1%|█▉                                                                                                                                                                         | 442/40080 [05:27<8:03:50,  1.37it/s]  1%|█▉                                                                                                                                                                         | 443/40080 [05:28<8:03:30,  1.37it/s]  1%|█▉                                                                                                                                                                         | 444/40080 [05:28<8:03:16,  1.37it/s]  1%|█▉                                                                                                                                                                         | 445/40080 [05:29<8:03:52,  1.37it/s]  1%|█▉                                                                                                                                                                         | 446/40080 [05:30<8:03:30,  1.37it/s]  1%|█▉                                                                                                                                                                         | 447/40080 [05:31<8:03:24,  1.37it/s]  1%|█▉                                                                                                                                                                         | 448/40080 [05:31<8:03:15,  1.37it/s]  1%|█▉                                                                                                                                                                         | 449/40080 [05:32<8:03:30,  1.37it/s]  1%|█▉                                                                                                                                                                         | 450/40080 [05:33<8:03:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5436, 'grad_norm': 3.28125, 'learning_rate': 2.4993564223247655e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.31, 'epoch': 0.04}
+  1%|█▉                                                                                                                                                                         | 450/40080 [05:33<8:03:36,  1.37it/s]  1%|█▉                                                                                                                                                                         | 451/40080 [05:34<8:04:07,  1.36it/s]  1%|█▉                                                                                                                                                                         | 452/40080 [05:34<8:03:46,  1.37it/s]  1%|█▉                                                                                                                                                                         | 453/40080 [05:35<8:03:45,  1.37it/s]  1%|█▉                                                                                                                                                                         | 454/40080 [05:36<8:03:18,  1.37it/s]  1%|█▉                                                                                                                                                                         | 455/40080 [05:37<8:03:58,  1.36it/s]  1%|█▉                                                                                                                                                                         | 456/40080 [05:37<8:04:57,  1.36it/s]  1%|█▉                                                                                                                                                                         | 457/40080 [05:38<8:05:08,  1.36it/s]  1%|█▉                                                                                                                                                                         | 458/40080 [05:39<8:05:20,  1.36it/s]  1%|█▉                                                                                                                                                                         | 459/40080 [05:39<8:04:41,  1.36it/s]  1%|█▉                                                                                                                                                                         | 460/40080 [05:40<8:04:07,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5881, 'grad_norm': 4.875, 'learning_rate': 2.4993245696744318e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.27, 'epoch': 0.05}
+  1%|█▉                                                                                                                                                                         | 460/40080 [05:40<8:04:07,  1.36it/s]  1%|█▉                                                                                                                                                                         | 461/40080 [05:41<8:04:21,  1.36it/s]  1%|█▉                                                                                                                                                                         | 462/40080 [05:42<8:04:11,  1.36it/s]  1%|█▉                                                                                                                                                                         | 463/40080 [05:42<8:03:49,  1.36it/s]  1%|█▉                                                                                                                                                                         | 464/40080 [05:43<8:03:27,  1.37it/s]  1%|█▉                                                                                                                                                                         | 465/40080 [05:44<8:03:30,  1.37it/s]  1%|█▉                                                                                                                                                                         | 466/40080 [05:45<8:04:04,  1.36it/s]  1%|█▉                                                                                                                                                                         | 467/40080 [05:45<8:03:46,  1.36it/s]  1%|█▉                                                                                                                                                                         | 468/40080 [05:46<8:03:57,  1.36it/s]  1%|██                                                                                                                                                                         | 469/40080 [05:47<8:03:37,  1.37it/s]  1%|██                                                                                                                                                                         | 470/40080 [05:48<8:04:15,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6493, 'grad_norm': 3.109375, 'learning_rate': 2.499291947916917e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2348.09, 'epoch': 0.05}
+  1%|██                                                                                                                                                                         | 470/40080 [05:48<8:04:15,  1.36it/s]  1%|██                                                                                                                                                                         | 471/40080 [05:48<8:05:06,  1.36it/s]  1%|██                                                                                                                                                                         | 472/40080 [05:49<8:04:57,  1.36it/s]  1%|██                                                                                                                                                                         | 473/40080 [05:50<8:04:17,  1.36it/s]  1%|██                                                                                                                                                                         | 474/40080 [05:50<8:04:25,  1.36it/s]  1%|██                                                                                                                                                                         | 475/40080 [05:51<8:04:54,  1.36it/s]  1%|██                                                                                                                                                                         | 476/40080 [05:52<8:11:09,  1.34it/s]  1%|██                                                                                                                                                                         | 477/40080 [05:53<8:08:50,  1.35it/s]  1%|██                                                                                                                                                                         | 478/40080 [05:53<8:07:27,  1.35it/s]  1%|██                                                                                                                                                                         | 479/40080 [05:54<8:06:06,  1.36it/s]  1%|██                                                                                                                                                                         | 480/40080 [05:55<8:05:03,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5154, 'grad_norm': 4.03125, 'learning_rate': 2.4992585570723025e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.61, 'epoch': 0.05}
+  1%|██                                                                                                                                                                         | 480/40080 [05:55<8:05:03,  1.36it/s]  1%|██                                                                                                                                                                         | 481/40080 [05:56<8:08:52,  1.35it/s]  1%|██                                                                                                                                                                         | 482/40080 [05:56<8:11:50,  1.34it/s]  1%|██                                                                                                                                                                         | 483/40080 [05:57<8:09:19,  1.35it/s]  1%|██                                                                                                                                                                         | 484/40080 [05:58<8:07:20,  1.35it/s]  1%|██                                                                                                                                                                         | 485/40080 [05:59<8:06:07,  1.36it/s]  1%|██                                                                                                                                                                         | 486/40080 [05:59<8:06:00,  1.36it/s]  1%|██                                                                                                                                                                         | 487/40080 [06:00<8:04:59,  1.36it/s]  1%|██                                                                                                                                                                         | 488/40080 [06:01<8:04:04,  1.36it/s]  1%|██                                                                                                                                                                         | 489/40080 [06:02<8:03:20,  1.37it/s]  1%|██                                                                                                                                                                         | 490/40080 [06:02<8:04:13,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.577, 'grad_norm': 3.015625, 'learning_rate': 2.499224397161146e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2723.84, 'epoch': 0.05}
+  1%|██                                                                                                                                                                         | 490/40080 [06:02<8:04:13,  1.36it/s]  1%|██                                                                                                                                                                         | 491/40080 [06:03<8:07:36,  1.35it/s]  1%|██                                                                                                                                                                         | 492/40080 [06:04<8:10:22,  1.35it/s]  1%|██                                                                                                                                                                         | 493/40080 [06:05<8:12:17,  1.34it/s]  1%|██                                                                                                                                                                         | 494/40080 [06:05<8:09:50,  1.35it/s]  1%|██                                                                                                                                                                         | 495/40080 [06:06<8:08:22,  1.35it/s]  1%|██                                                                                                                                                                         | 496/40080 [06:07<8:08:43,  1.35it/s]  1%|██                                                                                                                                                                         | 497/40080 [06:07<8:11:29,  1.34it/s]  1%|██                                                                                                                                                                         | 498/40080 [06:08<8:13:34,  1.34it/s]  1%|██▏                                                                                                                                                                        | 499/40080 [06:09<8:15:25,  1.33it/s]  1%|██▏                                                                                                                                                                        | 500/40080 [06:10<8:15:22,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.608, 'grad_norm': 2.828125, 'learning_rate': 2.4991894682044757e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2604.08, 'epoch': 0.05}
+  1%|██▏                                                                                                                                                                        | 500/40080 [06:10<8:15:22,  1.33it/s]  1%|██▏                                                                                                                                                                        | 501/40080 [06:10<8:11:43,  1.34it/s]  1%|██▏                                                                                                                                                                        | 502/40080 [06:11<8:09:03,  1.35it/s]  1%|██▏                                                                                                                                                                        | 503/40080 [06:12<8:07:13,  1.35it/s]  1%|██▏                                                                                                                                                                        | 504/40080 [06:13<8:05:45,  1.36it/s]  1%|██▏                                                                                                                                                                        | 505/40080 [06:13<8:06:02,  1.36it/s]  1%|██▏                                                                                                                                                                        | 506/40080 [06:14<8:05:03,  1.36it/s]  1%|██▏                                                                                                                                                                        | 507/40080 [06:15<8:04:21,  1.36it/s]  1%|██▏                                                                                                                                                                        | 508/40080 [06:16<8:04:31,  1.36it/s]  1%|██▏                                                                                                                                                                        | 509/40080 [06:16<8:03:31,  1.36it/s]  1%|██▏                                                                                                                                                                        | 510/40080 [06:17<8:03:09,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5497, 'grad_norm': 3.171875, 'learning_rate': 2.4991537702237948e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2482.06, 'epoch': 0.05}
+  1%|██▏                                                                                                                                                                        | 510/40080 [06:17<8:03:09,  1.36it/s]  1%|██▏                                                                                                                                                                        | 511/40080 [06:18<8:04:02,  1.36it/s]  1%|██▏                                                                                                                                                                        | 512/40080 [06:19<8:02:54,  1.37it/s]  1%|██▏                                                                                                                                                                        | 513/40080 [06:19<8:04:37,  1.36it/s]  1%|██▏                                                                                                                                                                        | 514/40080 [06:20<8:03:52,  1.36it/s]  1%|██▏                                                                                                                                                                        | 515/40080 [06:21<8:07:55,  1.35it/s]  1%|██▏                                                                                                                                                                        | 516/40080 [06:22<8:10:21,  1.34it/s]  1%|██▏                                                                                                                                                                        | 517/40080 [06:22<8:09:16,  1.35it/s]  1%|██▏                                                                                                                                                                        | 518/40080 [06:23<8:07:32,  1.35it/s]  1%|██▏                                                                                                                                                                        | 519/40080 [06:24<8:06:00,  1.36it/s]  1%|██▏                                                                                                                                                                        | 520/40080 [06:24<8:05:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5923, 'grad_norm': 3.640625, 'learning_rate': 2.4991173032410796e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.18, 'epoch': 0.05}
+  1%|██▏                                                                                                                                                                        | 520/40080 [06:24<8:05:20,  1.36it/s]  1%|██▏                                                                                                                                                                        | 521/40080 [06:25<8:04:59,  1.36it/s]  1%|██▏                                                                                                                                                                        | 522/40080 [06:26<8:03:40,  1.36it/s]  1%|██▏                                                                                                                                                                        | 523/40080 [06:27<8:03:26,  1.36it/s]  1%|██▏                                                                                                                                                                        | 524/40080 [06:27<8:03:08,  1.36it/s]  1%|██▏                                                                                                                                                                        | 525/40080 [06:28<8:03:22,  1.36it/s]  1%|██▏                                                                                                                                                                        | 526/40080 [06:29<8:02:41,  1.37it/s]  1%|██▏                                                                                                                                                                        | 527/40080 [06:30<8:03:09,  1.36it/s]  1%|██▎                                                                                                                                                                        | 528/40080 [06:30<8:03:08,  1.36it/s]  1%|██▎                                                                                                                                                                        | 529/40080 [06:31<8:03:03,  1.36it/s]  1%|██▎                                                                                                                                                                        | 530/40080 [06:32<8:02:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6137, 'grad_norm': 3.34375, 'learning_rate': 2.4990800672787805e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2533.46, 'epoch': 0.05}
+  1%|██▎                                                                                                                                                                        | 530/40080 [06:32<8:02:32,  1.37it/s]  1%|██▎                                                                                                                                                                        | 531/40080 [06:33<8:02:59,  1.36it/s]  1%|██▎                                                                                                                                                                        | 532/40080 [06:33<8:02:15,  1.37it/s]  1%|██▎                                                                                                                                                                        | 533/40080 [06:34<8:02:05,  1.37it/s]  1%|██▎                                                                                                                                                                        | 534/40080 [06:35<8:01:46,  1.37it/s]  1%|██▎                                                                                                                                                                        | 535/40080 [06:35<8:02:00,  1.37it/s]  1%|██▎                                                                                                                                                                        | 536/40080 [06:36<8:02:17,  1.37it/s]  1%|██▎                                                                                                                                                                        | 537/40080 [06:37<8:02:18,  1.37it/s]  1%|██▎                                                                                                                                                                        | 538/40080 [06:38<8:01:54,  1.37it/s]  1%|██▎                                                                                                                                                                        | 539/40080 [06:38<8:01:57,  1.37it/s]  1%|██▎                                                                                                                                                                        | 540/40080 [06:39<8:02:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5488, 'grad_norm': 2.734375, 'learning_rate': 2.4990420623598197e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.38, 'epoch': 0.05}
+  1%|██▎                                                                                                                                                                        | 540/40080 [06:39<8:02:03,  1.37it/s]  1%|██▎                                                                                                                                                                        | 541/40080 [06:40<8:02:34,  1.37it/s]  1%|██▎                                                                                                                                                                        | 542/40080 [06:41<8:02:27,  1.37it/s]  1%|██▎                                                                                                                                                                        | 543/40080 [06:41<8:01:17,  1.37it/s]  1%|██▎                                                                                                                                                                        | 544/40080 [06:42<8:01:23,  1.37it/s]  1%|██▎                                                                                                                                                                        | 545/40080 [06:43<8:01:16,  1.37it/s]  1%|██▎                                                                                                                                                                        | 546/40080 [06:43<8:01:42,  1.37it/s]  1%|██▎                                                                                                                                                                        | 547/40080 [06:44<8:02:18,  1.37it/s]  1%|██▎                                                                                                                                                                        | 548/40080 [06:45<8:01:53,  1.37it/s]  1%|██▎                                                                                                                                                                        | 549/40080 [06:46<8:02:06,  1.37it/s]  1%|██▎                                                                                                                                                                        | 550/40080 [06:46<8:02:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5871, 'grad_norm': 3.109375, 'learning_rate': 2.4990032885075945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2593.13, 'epoch': 0.05}
+  1%|██▎                                                                                                                                                                        | 550/40080 [06:46<8:02:02,  1.37it/s]  1%|██▎                                                                                                                                                                        | 551/40080 [06:47<8:02:32,  1.37it/s]  1%|██▎                                                                                                                                                                        | 552/40080 [06:48<8:02:32,  1.37it/s]  1%|██▎                                                                                                                                                                        | 553/40080 [06:49<8:01:59,  1.37it/s]  1%|██▎                                                                                                                                                                        | 554/40080 [06:49<8:02:41,  1.36it/s]  1%|██▎                                                                                                                                                                        | 555/40080 [06:50<8:02:47,  1.36it/s]  1%|██▎                                                                                                                                                                        | 556/40080 [06:51<8:02:46,  1.36it/s]  1%|██▍                                                                                                                                                                        | 557/40080 [06:52<8:02:28,  1.37it/s]  1%|██▍                                                                                                                                                                        | 558/40080 [06:52<8:02:27,  1.37it/s]  1%|██▍                                                                                                                                                                        | 559/40080 [06:53<8:03:05,  1.36it/s]  1%|██▍                                                                                                                                                                        | 560/40080 [06:54<8:03:19,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6611, 'grad_norm': 3.34375, 'learning_rate': 2.498963745745974e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2345.76, 'epoch': 0.06}
+  1%|██▍                                                                                                                                                                        | 560/40080 [06:54<8:03:19,  1.36it/s]  1%|██▍                                                                                                                                                                        | 561/40080 [06:54<8:04:16,  1.36it/s]  1%|██▍                                                                                                                                                                        | 562/40080 [06:55<8:03:45,  1.36it/s]  1%|██▍                                                                                                                                                                        | 563/40080 [06:56<8:02:55,  1.36it/s]  1%|██▍                                                                                                                                                                        | 564/40080 [06:57<8:02:57,  1.36it/s]  1%|██▍                                                                                                                                                                        | 565/40080 [06:57<8:01:56,  1.37it/s]  1%|██▍                                                                                                                                                                        | 566/40080 [06:58<8:01:49,  1.37it/s]  1%|██▍                                                                                                                                                                        | 567/40080 [06:59<8:01:39,  1.37it/s]  1%|██▍                                                                                                                                                                        | 568/40080 [07:00<8:02:26,  1.36it/s]  1%|██▍                                                                                                                                                                        | 569/40080 [07:00<8:02:36,  1.36it/s]  1%|██▍                                                                                                                                                                        | 570/40080 [07:01<8:03:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6844, 'grad_norm': 4.875, 'learning_rate': 2.4989234340993026e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.35, 'epoch': 0.06}
+  1%|██▍                                                                                                                                                                        | 570/40080 [07:01<8:03:04,  1.36it/s]  1%|██▍                                                                                                                                                                        | 571/40080 [07:02<8:07:09,  1.35it/s]  1%|██▍                                                                                                                                                                        | 572/40080 [07:03<8:06:57,  1.35it/s]  1%|██▍                                                                                                                                                                        | 573/40080 [07:03<8:11:51,  1.34it/s]  1%|██▍                                                                                                                                                                        | 574/40080 [07:04<8:13:18,  1.33it/s]  1%|██▍                                                                                                                                                                        | 575/40080 [07:05<8:14:05,  1.33it/s]  1%|██▍                                                                                                                                                                        | 576/40080 [07:06<9:51:57,  1.11it/s]  1%|██▍                                                                                                                                                                        | 577/40080 [07:07<9:19:08,  1.18it/s]  1%|██▍                                                                                                                                                                        | 578/40080 [07:08<8:55:34,  1.23it/s]  1%|██▍                                                                                                                                                                        | 579/40080 [07:08<8:39:48,  1.27it/s]  1%|██▍                                                                                                                                                                        | 580/40080 [07:09<8:29:15,  1.29it/s]                                                                                                                                                                                                                      {'loss': 0.6293, 'grad_norm': 3.65625, 'learning_rate': 2.4988823535923956e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2638.89, 'epoch': 0.06}
+  1%|██▍                                                                                                                                                                        | 580/40080 [07:09<8:29:15,  1.29it/s]  1%|██▍                                                                                                                                                                        | 581/40080 [07:10<8:21:57,  1.31it/s]  1%|██▍                                                                                                                                                                        | 582/40080 [07:10<8:16:00,  1.33it/s]  1%|██▍                                                                                                                                                                        | 583/40080 [07:11<8:11:51,  1.34it/s]  1%|██▍                                                                                                                                                                        | 584/40080 [07:12<8:12:08,  1.34it/s]  1%|██▍                                                                                                                                                                        | 585/40080 [07:13<8:13:24,  1.33it/s]  1%|██▌                                                                                                                                                                        | 586/40080 [07:13<8:13:43,  1.33it/s]  1%|██▌                                                                                                                                                                        | 587/40080 [07:14<8:13:55,  1.33it/s]  1%|██▌                                                                                                                                                                        | 588/40080 [07:15<8:10:36,  1.34it/s]  1%|██▌                                                                                                                                                                        | 589/40080 [07:16<8:07:49,  1.35it/s]  1%|██▌                                                                                                                                                                        | 590/40080 [07:16<8:05:58,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.591, 'grad_norm': 3.953125, 'learning_rate': 2.4988405042505434e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2659.59, 'epoch': 0.06}
+  1%|██▌                                                                                                                                                                        | 590/40080 [07:16<8:05:58,  1.35it/s]  1%|██▌                                                                                                                                                                        | 591/40080 [07:17<8:05:27,  1.36it/s]  1%|██▌                                                                                                                                                                        | 592/40080 [07:18<8:03:40,  1.36it/s]  1%|██▌                                                                                                                                                                        | 593/40080 [07:19<8:03:19,  1.36it/s]  1%|██▌                                                                                                                                                                        | 594/40080 [07:19<8:02:29,  1.36it/s]  1%|██▌                                                                                                                                                                        | 595/40080 [07:20<8:02:31,  1.36it/s]  1%|██▌                                                                                                                                                                        | 596/40080 [07:21<8:02:20,  1.36it/s]  1%|██▌                                                                                                                                                                        | 597/40080 [07:22<8:04:43,  1.36it/s]  1%|██▌                                                                                                                                                                        | 598/40080 [07:22<8:02:47,  1.36it/s]  1%|██▌                                                                                                                                                                        | 599/40080 [07:23<8:02:13,  1.36it/s]  1%|██▌                                                                                                                                                                        | 600/40080 [07:24<8:02:33,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.641, 'grad_norm': 4.21875, 'learning_rate': 2.4987978860995098e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2304.14, 'epoch': 0.06}
+  1%|██▌                                                                                                                                                                        | 600/40080 [07:24<8:02:33,  1.36it/s]  1%|██▌                                                                                                                                                                        | 601/40080 [07:24<8:02:39,  1.36it/s]  2%|██▌                                                                                                                                                                        | 602/40080 [07:25<8:02:31,  1.36it/s]  2%|██▌                                                                                                                                                                        | 603/40080 [07:26<8:01:56,  1.37it/s]  2%|██▌                                                                                                                                                                        | 604/40080 [07:27<8:01:10,  1.37it/s]  2%|██▌                                                                                                                                                                        | 605/40080 [07:27<8:01:16,  1.37it/s]  2%|██▌                                                                                                                                                                        | 606/40080 [07:28<8:00:55,  1.37it/s]  2%|██▌                                                                                                                                                                        | 607/40080 [07:29<8:00:02,  1.37it/s]  2%|██▌                                                                                                                                                                        | 608/40080 [07:30<7:59:42,  1.37it/s]  2%|██▌                                                                                                                                                                        | 609/40080 [07:30<8:00:03,  1.37it/s]  2%|██▌                                                                                                                                                                        | 610/40080 [07:31<7:59:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6039, 'grad_norm': 3.9375, 'learning_rate': 2.498754499165531e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2461.25, 'epoch': 0.06}
+  2%|██▌                                                                                                                                                                        | 610/40080 [07:31<7:59:55,  1.37it/s]  2%|██▌                                                                                                                                                                        | 611/40080 [07:32<8:00:15,  1.37it/s]  2%|██▌                                                                                                                                                                        | 612/40080 [07:33<8:00:54,  1.37it/s]  2%|██▌                                                                                                                                                                        | 613/40080 [07:33<8:00:28,  1.37it/s]  2%|██▌                                                                                                                                                                        | 614/40080 [07:34<8:00:22,  1.37it/s]  2%|██▌                                                                                                                                                                        | 615/40080 [07:35<7:59:39,  1.37it/s]  2%|██▋                                                                                                                                                                        | 616/40080 [07:35<8:00:02,  1.37it/s]  2%|██▋                                                                                                                                                                        | 617/40080 [07:36<7:59:39,  1.37it/s]  2%|██▋                                                                                                                                                                        | 618/40080 [07:37<8:00:04,  1.37it/s]  2%|██▋                                                                                                                                                                        | 619/40080 [07:38<7:59:33,  1.37it/s]  2%|██▋                                                                                                                                                                        | 620/40080 [07:38<7:59:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6365, 'grad_norm': 3.9375, 'learning_rate': 2.4987103434753163e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2578.47, 'epoch': 0.06}
+  2%|██▋                                                                                                                                                                        | 620/40080 [07:38<7:59:48,  1.37it/s]  2%|██▋                                                                                                                                                                        | 621/40080 [07:39<8:00:56,  1.37it/s]  2%|██▋                                                                                                                                                                        | 622/40080 [07:40<8:02:50,  1.36it/s]  2%|██▋                                                                                                                                                                        | 623/40080 [07:41<8:02:11,  1.36it/s]  2%|██▋                                                                                                                                                                        | 624/40080 [07:41<8:02:19,  1.36it/s]  2%|██▋                                                                                                                                                                        | 625/40080 [07:42<8:02:07,  1.36it/s]  2%|██▋                                                                                                                                                                        | 626/40080 [07:43<8:02:26,  1.36it/s]  2%|██▋                                                                                                                                                                        | 627/40080 [07:43<8:02:22,  1.36it/s]  2%|██▋                                                                                                                                                                        | 628/40080 [07:44<8:03:24,  1.36it/s]  2%|██▋                                                                                                                                                                        | 629/40080 [07:45<8:02:21,  1.36it/s]  2%|██▋                                                                                                                                                                        | 630/40080 [07:46<8:02:00,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5842, 'grad_norm': 4.03125, 'learning_rate': 2.498665419056049e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2607.5, 'epoch': 0.06}
+  2%|██▋                                                                                                                                                                        | 630/40080 [07:46<8:02:00,  1.36it/s]  2%|██▋                                                                                                                                                                        | 631/40080 [07:46<8:02:29,  1.36it/s]  2%|██▋                                                                                                                                                                        | 632/40080 [07:47<8:02:20,  1.36it/s]  2%|██▋                                                                                                                                                                        | 633/40080 [07:48<8:02:27,  1.36it/s]  2%|██▋                                                                                                                                                                        | 634/40080 [07:49<8:02:56,  1.36it/s]  2%|██▋                                                                                                                                                                        | 635/40080 [07:49<8:02:57,  1.36it/s]  2%|██▋                                                                                                                                                                        | 636/40080 [07:50<8:02:59,  1.36it/s]  2%|██▋                                                                                                                                                                        | 637/40080 [07:51<8:03:03,  1.36it/s]  2%|██▋                                                                                                                                                                        | 638/40080 [07:52<8:02:42,  1.36it/s]  2%|██▋                                                                                                                                                                        | 639/40080 [07:52<8:02:02,  1.36it/s]  2%|██▋                                                                                                                                                                        | 640/40080 [07:53<8:02:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.532, 'grad_norm': 2.859375, 'learning_rate': 2.4986197259353855e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.27, 'epoch': 0.06}
+  2%|██▋                                                                                                                                                                        | 640/40080 [07:53<8:02:02,  1.36it/s]  2%|██▋                                                                                                                                                                        | 641/40080 [07:54<8:02:53,  1.36it/s]  2%|██▋                                                                                                                                                                        | 642/40080 [07:55<8:02:35,  1.36it/s]  2%|██▋                                                                                                                                                                        | 643/40080 [07:55<8:02:22,  1.36it/s]  2%|██▋                                                                                                                                                                        | 644/40080 [07:56<8:01:31,  1.36it/s]  2%|██▊                                                                                                                                                                        | 645/40080 [07:57<8:01:25,  1.37it/s]  2%|██▊                                                                                                                                                                        | 646/40080 [07:57<8:01:33,  1.36it/s]  2%|██▊                                                                                                                                                                        | 647/40080 [07:58<8:00:59,  1.37it/s]  2%|██▊                                                                                                                                                                        | 648/40080 [07:59<8:00:59,  1.37it/s]  2%|██▊                                                                                                                                                                        | 649/40080 [08:00<8:01:23,  1.37it/s]  2%|██▊                                                                                                                                                                        | 650/40080 [08:00<8:00:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5259, 'grad_norm': 2.921875, 'learning_rate': 2.4985732641414555e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2467.38, 'epoch': 0.06}
+  2%|██▊                                                                                                                                                                        | 650/40080 [08:00<8:00:55,  1.37it/s]  2%|██▊                                                                                                                                                                        | 651/40080 [08:01<8:02:02,  1.36it/s]  2%|██▊                                                                                                                                                                        | 652/40080 [08:02<8:01:44,  1.36it/s]  2%|██▊                                                                                                                                                                        | 653/40080 [08:03<8:01:39,  1.36it/s]  2%|██▊                                                                                                                                                                        | 654/40080 [08:03<8:01:39,  1.36it/s]  2%|██▊                                                                                                                                                                        | 655/40080 [08:04<8:01:07,  1.37it/s]  2%|██▊                                                                                                                                                                        | 656/40080 [08:05<8:00:43,  1.37it/s]  2%|██▊                                                                                                                                                                        | 657/40080 [08:05<8:00:56,  1.37it/s]  2%|██▊                                                                                                                                                                        | 658/40080 [08:06<8:00:41,  1.37it/s]  2%|██▊                                                                                                                                                                        | 659/40080 [08:07<7:59:52,  1.37it/s]  2%|██▊                                                                                                                                                                        | 660/40080 [08:08<8:00:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6415, 'grad_norm': 3.578125, 'learning_rate': 2.4985260337028613e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.48, 'epoch': 0.07}
+  2%|██▊                                                                                                                                                                        | 660/40080 [08:08<8:00:27,  1.37it/s]  2%|██▊                                                                                                                                                                        | 661/40080 [08:08<8:01:04,  1.37it/s]  2%|██▊                                                                                                                                                                        | 662/40080 [08:09<8:00:58,  1.37it/s]  2%|██▊                                                                                                                                                                        | 663/40080 [08:10<8:04:04,  1.36it/s]  2%|██▊                                                                                                                                                                        | 664/40080 [08:11<8:07:08,  1.35it/s]  2%|██▊                                                                                                                                                                        | 665/40080 [08:11<8:09:09,  1.34it/s]  2%|██▊                                                                                                                                                                        | 666/40080 [08:12<8:06:17,  1.35it/s]  2%|██▊                                                                                                                                                                        | 667/40080 [08:13<8:04:38,  1.36it/s]  2%|██▊                                                                                                                                                                        | 668/40080 [08:14<8:03:26,  1.36it/s]  2%|██▊                                                                                                                                                                        | 669/40080 [08:14<8:02:18,  1.36it/s]  2%|██▊                                                                                                                                                                        | 670/40080 [08:15<8:01:51,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6262, 'grad_norm': 3.765625, 'learning_rate': 2.4984780346486793e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.05, 'epoch': 0.07}
+  2%|██▊                                                                                                                                                                        | 670/40080 [08:15<8:01:51,  1.36it/s]  2%|██▊                                                                                                                                                                        | 671/40080 [08:16<8:01:28,  1.36it/s]  2%|██▊                                                                                                                                                                        | 672/40080 [08:17<8:01:22,  1.36it/s]  2%|██▊                                                                                                                                                                        | 673/40080 [08:17<8:00:57,  1.37it/s]  2%|██▉                                                                                                                                                                        | 674/40080 [08:18<8:01:10,  1.36it/s]  2%|██▉                                                                                                                                                                        | 675/40080 [08:19<8:01:15,  1.36it/s]  2%|██▉                                                                                                                                                                        | 676/40080 [08:19<8:01:04,  1.37it/s]  2%|██▉                                                                                                                                                                        | 677/40080 [08:20<8:01:15,  1.36it/s]  2%|██▉                                                                                                                                                                        | 678/40080 [08:21<8:01:27,  1.36it/s]  2%|██▉                                                                                                                                                                        | 679/40080 [08:22<8:00:32,  1.37it/s]  2%|██▉                                                                                                                                                                        | 680/40080 [08:22<8:00:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4979, 'grad_norm': 3.734375, 'learning_rate': 2.4984292670084582e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2580.76, 'epoch': 0.07}
+  2%|██▉                                                                                                                                                                        | 680/40080 [08:22<8:00:53,  1.37it/s]  2%|██▉                                                                                                                                                                        | 681/40080 [08:23<8:01:20,  1.36it/s]  2%|██▉                                                                                                                                                                        | 682/40080 [08:24<8:01:21,  1.36it/s]  2%|██▉                                                                                                                                                                        | 683/40080 [08:25<8:01:25,  1.36it/s]  2%|██▉                                                                                                                                                                        | 684/40080 [08:25<8:01:31,  1.36it/s]  2%|██▉                                                                                                                                                                        | 685/40080 [08:26<8:00:39,  1.37it/s]  2%|██▉                                                                                                                                                                        | 686/40080 [08:27<8:00:37,  1.37it/s]  2%|██▉                                                                                                                                                                        | 687/40080 [08:28<8:00:15,  1.37it/s]  2%|██▉                                                                                                                                                                        | 688/40080 [08:28<7:59:58,  1.37it/s]  2%|██▉                                                                                                                                                                        | 689/40080 [08:29<7:59:33,  1.37it/s]  2%|██▉                                                                                                                                                                        | 690/40080 [08:30<8:00:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6399, 'grad_norm': 4.1875, 'learning_rate': 2.4983797308122205e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.58, 'epoch': 0.07}
+  2%|██▉                                                                                                                                                                        | 690/40080 [08:30<8:00:06,  1.37it/s]  2%|██▉                                                                                                                                                                        | 691/40080 [08:30<8:00:57,  1.36it/s]  2%|██▉                                                                                                                                                                        | 692/40080 [08:31<7:59:57,  1.37it/s]  2%|██▉                                                                                                                                                                        | 693/40080 [08:32<8:00:07,  1.37it/s]  2%|██▉                                                                                                                                                                        | 694/40080 [08:33<7:59:26,  1.37it/s]  2%|██▉                                                                                                                                                                        | 695/40080 [08:33<8:00:04,  1.37it/s]  2%|██▉                                                                                                                                                                        | 696/40080 [08:34<7:59:51,  1.37it/s]  2%|██▉                                                                                                                                                                        | 697/40080 [08:35<8:00:00,  1.37it/s]  2%|██▉                                                                                                                                                                        | 698/40080 [08:36<8:00:02,  1.37it/s]  2%|██▉                                                                                                                                                                        | 699/40080 [08:36<8:00:25,  1.37it/s]  2%|██▉                                                                                                                                                                        | 700/40080 [08:37<8:04:54,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.6073, 'grad_norm': 2.734375, 'learning_rate': 2.4983294260904615e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2511.56, 'epoch': 0.07}
+  2%|██▉                                                                                                                                                                        | 700/40080 [08:37<8:04:54,  1.35it/s]  2%|██▉                                                                                                                                                                        | 701/40080 [08:38<8:08:31,  1.34it/s]  2%|██▉                                                                                                                                                                        | 702/40080 [08:39<8:06:01,  1.35it/s]  2%|██▉                                                                                                                                                                        | 703/40080 [08:39<8:07:38,  1.35it/s]  2%|███                                                                                                                                                                        | 704/40080 [08:40<8:09:23,  1.34it/s]  2%|███                                                                                                                                                                        | 705/40080 [08:41<8:07:18,  1.35it/s]  2%|███                                                                                                                                                                        | 706/40080 [08:41<8:05:24,  1.35it/s]  2%|███                                                                                                                                                                        | 707/40080 [08:42<8:04:01,  1.36it/s]  2%|███                                                                                                                                                                        | 708/40080 [08:43<8:02:39,  1.36it/s]  2%|███                                                                                                                                                                        | 709/40080 [08:44<8:01:00,  1.36it/s]  2%|███                                                                                                                                                                        | 710/40080 [08:44<8:01:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5878, 'grad_norm': 3.203125, 'learning_rate': 2.49827835287415e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2516.19, 'epoch': 0.07}
+  2%|███                                                                                                                                                                        | 710/40080 [08:44<8:01:02,  1.36it/s]  2%|███                                                                                                                                                                        | 711/40080 [08:45<8:01:18,  1.36it/s]  2%|███                                                                                                                                                                        | 712/40080 [08:46<8:00:43,  1.36it/s]  2%|███                                                                                                                                                                        | 713/40080 [08:47<8:00:48,  1.36it/s]  2%|███                                                                                                                                                                        | 714/40080 [08:47<8:00:21,  1.37it/s]  2%|███                                                                                                                                                                        | 715/40080 [08:48<8:00:45,  1.36it/s]  2%|███                                                                                                                                                                        | 716/40080 [08:49<8:00:20,  1.37it/s]  2%|███                                                                                                                                                                        | 717/40080 [08:50<7:59:41,  1.37it/s]  2%|███                                                                                                                                                                        | 718/40080 [08:50<7:59:42,  1.37it/s]  2%|███                                                                                                                                                                        | 719/40080 [08:51<7:59:24,  1.37it/s]  2%|███                                                                                                                                                                        | 720/40080 [08:52<8:00:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6766, 'grad_norm': 3.734375, 'learning_rate': 2.4982265111947273e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.0, 'epoch': 0.07}
+  2%|███                                                                                                                                                                        | 720/40080 [08:52<8:00:01,  1.37it/s]  2%|███                                                                                                                                                                        | 721/40080 [08:52<8:00:36,  1.36it/s]  2%|███                                                                                                                                                                        | 722/40080 [08:53<8:00:26,  1.37it/s]  2%|███                                                                                                                                                                        | 723/40080 [08:54<8:00:33,  1.36it/s]  2%|███                                                                                                                                                                        | 724/40080 [08:55<8:00:27,  1.37it/s]  2%|███                                                                                                                                                                        | 725/40080 [08:55<8:00:12,  1.37it/s]  2%|███                                                                                                                                                                        | 726/40080 [08:56<8:00:07,  1.37it/s]  2%|███                                                                                                                                                                        | 727/40080 [08:57<7:59:54,  1.37it/s]  2%|███                                                                                                                                                                        | 728/40080 [08:58<8:00:02,  1.37it/s]  2%|███                                                                                                                                                                        | 729/40080 [08:58<7:59:37,  1.37it/s]  2%|███                                                                                                                                                                        | 730/40080 [08:59<8:00:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5988, 'grad_norm': 3.640625, 'learning_rate': 2.4981739010841078e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2567.94, 'epoch': 0.07}
+  2%|███                                                                                                                                                                        | 730/40080 [08:59<8:00:05,  1.37it/s]  2%|███                                                                                                                                                                        | 731/40080 [09:00<8:00:55,  1.36it/s]  2%|███                                                                                                                                                                        | 732/40080 [09:01<8:00:19,  1.37it/s]  2%|███▏                                                                                                                                                                       | 733/40080 [09:01<8:00:22,  1.37it/s]  2%|███▏                                                                                                                                                                       | 734/40080 [09:02<7:59:51,  1.37it/s]  2%|███▏                                                                                                                                                                       | 735/40080 [09:03<7:59:28,  1.37it/s]  2%|███▏                                                                                                                                                                       | 736/40080 [09:03<7:59:15,  1.37it/s]  2%|███▏                                                                                                                                                                       | 737/40080 [09:04<7:59:07,  1.37it/s]  2%|███▏                                                                                                                                                                       | 738/40080 [09:05<7:59:31,  1.37it/s]  2%|███▏                                                                                                                                                                       | 739/40080 [09:06<7:59:18,  1.37it/s]  2%|███▏                                                                                                                                                                       | 740/40080 [09:06<7:59:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6392, 'grad_norm': 3.328125, 'learning_rate': 2.49812052257468e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2595.01, 'epoch': 0.07}
+  2%|███▏                                                                                                                                                                       | 740/40080 [09:06<7:59:49,  1.37it/s]  2%|███▏                                                                                                                                                                       | 741/40080 [09:07<8:00:41,  1.36it/s]  2%|███▏                                                                                                                                                                       | 742/40080 [09:08<8:00:19,  1.36it/s]  2%|███▏                                                                                                                                                                       | 743/40080 [09:09<8:00:36,  1.36it/s]  2%|███▏                                                                                                                                                                       | 744/40080 [09:09<8:00:31,  1.36it/s]  2%|███▏                                                                                                                                                                       | 745/40080 [09:10<8:00:18,  1.36it/s]  2%|███▏                                                                                                                                                                       | 746/40080 [09:11<8:00:01,  1.37it/s]  2%|███▏                                                                                                                                                                       | 747/40080 [09:12<8:00:25,  1.36it/s]  2%|███▏                                                                                                                                                                       | 748/40080 [09:12<8:00:46,  1.36it/s]  2%|███▏                                                                                                                                                                       | 749/40080 [09:13<8:01:17,  1.36it/s]  2%|███▏                                                                                                                                                                       | 750/40080 [09:14<8:01:10,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6307, 'grad_norm': 3.96875, 'learning_rate': 2.4980663756993042e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2628.94, 'epoch': 0.07}
+  2%|███▏                                                                                                                                                                       | 750/40080 [09:14<8:01:10,  1.36it/s]  2%|███▏                                                                                                                                                                       | 751/40080 [09:14<8:01:39,  1.36it/s]  2%|███▏                                                                                                                                                                       | 752/40080 [09:15<8:01:19,  1.36it/s]  2%|███▏                                                                                                                                                                       | 753/40080 [09:16<8:01:06,  1.36it/s]  2%|███▏                                                                                                                                                                       | 754/40080 [09:17<8:00:22,  1.36it/s]  2%|███▏                                                                                                                                                                       | 755/40080 [09:17<8:00:13,  1.36it/s]  2%|███▏                                                                                                                                                                       | 756/40080 [09:18<7:59:42,  1.37it/s]  2%|███▏                                                                                                                                                                       | 757/40080 [09:19<7:59:54,  1.37it/s]  2%|███▏                                                                                                                                                                       | 758/40080 [09:20<7:59:48,  1.37it/s]  2%|███▏                                                                                                                                                                       | 759/40080 [09:20<7:59:43,  1.37it/s]  2%|███▏                                                                                                                                                                       | 760/40080 [09:21<7:59:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5795, 'grad_norm': 3.53125, 'learning_rate': 2.498011460491314e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2616.04, 'epoch': 0.08}
+  2%|███▏                                                                                                                                                                       | 760/40080 [09:21<7:59:58,  1.37it/s]  2%|███▏                                                                                                                                                                       | 761/40080 [09:22<8:00:05,  1.36it/s]  2%|███▎                                                                                                                                                                       | 762/40080 [09:23<8:00:08,  1.36it/s]  2%|███▎                                                                                                                                                                       | 763/40080 [09:23<8:00:29,  1.36it/s]  2%|███▎                                                                                                                                                                       | 764/40080 [09:24<8:00:39,  1.36it/s]  2%|███▎                                                                                                                                                                       | 765/40080 [09:25<8:00:14,  1.36it/s]  2%|███▎                                                                                                                                                                       | 766/40080 [09:25<8:00:11,  1.36it/s]  2%|███▎                                                                                                                                                                       | 767/40080 [09:26<7:59:52,  1.37it/s]  2%|███▎                                                                                                                                                                       | 768/40080 [09:27<7:59:50,  1.37it/s]  2%|███▎                                                                                                                                                                       | 769/40080 [09:28<8:00:04,  1.36it/s]  2%|███▎                                                                                                                                                                       | 770/40080 [09:28<7:59:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5619, 'grad_norm': 4.03125, 'learning_rate': 2.497955776984517e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.7, 'epoch': 0.08}
+  2%|███▎                                                                                                                                                                       | 770/40080 [09:28<7:59:18,  1.37it/s]  2%|███▎                                                                                                                                                                       | 771/40080 [09:29<8:00:31,  1.36it/s]  2%|███▎                                                                                                                                                                       | 772/40080 [09:30<8:00:25,  1.36it/s]  2%|███▎                                                                                                                                                                       | 773/40080 [09:31<8:00:15,  1.36it/s]  2%|███▎                                                                                                                                                                       | 774/40080 [09:31<8:00:21,  1.36it/s]  2%|███▎                                                                                                                                                                       | 775/40080 [09:32<8:00:47,  1.36it/s]  2%|███▎                                                                                                                                                                       | 776/40080 [09:33<8:00:24,  1.36it/s]  2%|███▎                                                                                                                                                                       | 777/40080 [09:33<8:00:27,  1.36it/s]  2%|███▎                                                                                                                                                                       | 778/40080 [09:34<8:00:31,  1.36it/s]  2%|███▎                                                                                                                                                                       | 779/40080 [09:35<8:00:08,  1.36it/s]  2%|███▎                                                                                                                                                                       | 780/40080 [09:36<8:00:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5717, 'grad_norm': 4.28125, 'learning_rate': 2.497899325213192e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.02, 'epoch': 0.08}
+  2%|███▎                                                                                                                                                                       | 780/40080 [09:36<8:00:20,  1.36it/s]  2%|███▎                                                                                                                                                                       | 781/40080 [09:36<8:00:49,  1.36it/s]  2%|███▎                                                                                                                                                                       | 782/40080 [09:37<8:00:16,  1.36it/s]  2%|███▎                                                                                                                                                                       | 783/40080 [09:38<8:00:18,  1.36it/s]  2%|███▎                                                                                                                                                                       | 784/40080 [09:39<8:00:48,  1.36it/s]  2%|███▎                                                                                                                                                                       | 785/40080 [09:39<8:00:03,  1.36it/s]  2%|███▎                                                                                                                                                                       | 786/40080 [09:40<7:59:54,  1.36it/s]  2%|███▎                                                                                                                                                                       | 787/40080 [09:41<7:59:19,  1.37it/s]  2%|███▎                                                                                                                                                                       | 788/40080 [09:42<7:59:29,  1.37it/s]  2%|███▎                                                                                                                                                                       | 789/40080 [09:42<7:59:39,  1.37it/s]  2%|███▎                                                                                                                                                                       | 790/40080 [09:43<7:59:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5271, 'grad_norm': 3.53125, 'learning_rate': 2.4978421052120928e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2416.47, 'epoch': 0.08}
+  2%|███▎                                                                                                                                                                       | 790/40080 [09:43<7:59:30,  1.37it/s]  2%|███▎                                                                                                                                                                       | 791/40080 [09:44<8:00:15,  1.36it/s]  2%|███▍                                                                                                                                                                       | 792/40080 [09:44<8:00:15,  1.36it/s]  2%|███▍                                                                                                                                                                       | 793/40080 [09:45<8:00:05,  1.36it/s]  2%|███▍                                                                                                                                                                       | 794/40080 [09:46<7:59:58,  1.36it/s]  2%|███▍                                                                                                                                                                       | 795/40080 [09:47<8:00:13,  1.36it/s]  2%|███▍                                                                                                                                                                       | 796/40080 [09:47<8:00:02,  1.36it/s]  2%|███▍                                                                                                                                                                       | 797/40080 [09:48<8:00:09,  1.36it/s]  2%|███▍                                                                                                                                                                       | 798/40080 [09:49<8:00:19,  1.36it/s]  2%|███▍                                                                                                                                                                       | 799/40080 [09:50<8:00:00,  1.36it/s]  2%|███▍                                                                                                                                                                       | 800/40080 [09:50<8:00:06,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5435, 'grad_norm': 3.03125, 'learning_rate': 2.497784117016444e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.95, 'epoch': 0.08}
+  2%|███▍                                                                                                                                                                       | 800/40080 [09:50<8:00:06,  1.36it/s]  2%|███▍                                                                                                                                                                       | 801/40080 [09:51<8:01:06,  1.36it/s]  2%|███▍                                                                                                                                                                       | 802/40080 [09:52<8:01:02,  1.36it/s]  2%|███▍                                                                                                                                                                       | 803/40080 [09:53<8:00:23,  1.36it/s]  2%|███▍                                                                                                                                                                       | 804/40080 [09:53<8:00:03,  1.36it/s]  2%|███▍                                                                                                                                                                       | 805/40080 [09:54<8:00:11,  1.36it/s]  2%|███▍                                                                                                                                                                       | 806/40080 [09:55<7:59:54,  1.36it/s]  2%|███▍                                                                                                                                                                       | 807/40080 [09:55<7:59:55,  1.36it/s]  2%|███▍                                                                                                                                                                       | 808/40080 [09:56<7:59:42,  1.36it/s]  2%|███▍                                                                                                                                                                       | 809/40080 [09:57<7:59:30,  1.36it/s]  2%|███▍                                                                                                                                                                       | 810/40080 [09:58<7:59:47,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6304, 'grad_norm': 3.03125, 'learning_rate': 2.497725360661945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2548.34, 'epoch': 0.08}
+  2%|███▍                                                                                                                                                                       | 810/40080 [09:58<7:59:47,  1.36it/s]  2%|███▍                                                                                                                                                                       | 811/40080 [09:58<7:59:58,  1.36it/s]  2%|███▍                                                                                                                                                                       | 812/40080 [09:59<7:59:31,  1.36it/s]  2%|███▍                                                                                                                                                                       | 813/40080 [10:00<7:59:27,  1.36it/s]  2%|███▍                                                                                                                                                                       | 814/40080 [10:01<7:59:22,  1.37it/s]  2%|███▍                                                                                                                                                                       | 815/40080 [10:01<7:59:34,  1.36it/s]  2%|███▍                                                                                                                                                                       | 816/40080 [10:02<7:59:49,  1.36it/s]  2%|███▍                                                                                                                                                                       | 817/40080 [10:03<7:59:11,  1.37it/s]  2%|███▍                                                                                                                                                                       | 818/40080 [10:04<7:59:16,  1.37it/s]  2%|███▍                                                                                                                                                                       | 819/40080 [10:04<7:59:11,  1.37it/s]  2%|███▍                                                                                                                                                                       | 820/40080 [10:05<7:59:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6798, 'grad_norm': 3.671875, 'learning_rate': 2.497665836184767e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.81, 'epoch': 0.08}
+  2%|███▍                                                                                                                                                                       | 820/40080 [10:05<7:59:15,  1.37it/s]  2%|███▌                                                                                                                                                                       | 821/40080 [10:06<7:59:52,  1.36it/s]  2%|███▌                                                                                                                                                                       | 822/40080 [10:06<7:59:09,  1.37it/s]  2%|███▌                                                                                                                                                                       | 823/40080 [10:07<7:59:18,  1.37it/s]  2%|███▌                                                                                                                                                                       | 824/40080 [10:08<7:59:23,  1.36it/s]  2%|███▌                                                                                                                                                                       | 825/40080 [10:09<7:59:06,  1.37it/s]  2%|███▌                                                                                                                                                                       | 826/40080 [10:09<7:59:21,  1.36it/s]  2%|███▌                                                                                                                                                                       | 827/40080 [10:10<7:58:50,  1.37it/s]  2%|███▌                                                                                                                                                                       | 828/40080 [10:11<7:58:40,  1.37it/s]  2%|███▌                                                                                                                                                                       | 829/40080 [10:12<7:58:41,  1.37it/s]  2%|███▌                                                                                                                                                                       | 830/40080 [10:12<7:58:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6166, 'grad_norm': 3.3125, 'learning_rate': 2.4976055436215544e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2564.2, 'epoch': 0.08}
+  2%|███▌                                                                                                                                                                       | 830/40080 [10:12<7:58:38,  1.37it/s]  2%|███▌                                                                                                                                                                       | 831/40080 [10:13<7:59:15,  1.36it/s]  2%|███▌                                                                                                                                                                       | 832/40080 [10:14<7:58:36,  1.37it/s]  2%|███▌                                                                                                                                                                       | 833/40080 [10:15<7:59:09,  1.37it/s]  2%|███▌                                                                                                                                                                       | 834/40080 [10:15<7:58:57,  1.37it/s]  2%|███▌                                                                                                                                                                       | 835/40080 [10:16<7:58:20,  1.37it/s]  2%|███▌                                                                                                                                                                       | 836/40080 [10:17<7:58:28,  1.37it/s]  2%|███▌                                                                                                                                                                       | 837/40080 [10:17<7:58:37,  1.37it/s]  2%|███▌                                                                                                                                                                       | 838/40080 [10:18<7:58:44,  1.37it/s]  2%|███▌                                                                                                                                                                       | 839/40080 [10:19<7:58:45,  1.37it/s]  2%|███▌                                                                                                                                                                       | 840/40080 [10:20<7:58:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6335, 'grad_norm': 3.84375, 'learning_rate': 2.4975444830094245e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2407.54, 'epoch': 0.08}
+  2%|███▌                                                                                                                                                                       | 840/40080 [10:20<7:58:22,  1.37it/s]  2%|███▌                                                                                                                                                                       | 841/40080 [10:20<7:59:00,  1.37it/s]  2%|███▌                                                                                                                                                                       | 842/40080 [10:21<7:59:03,  1.37it/s]  2%|███▌                                                                                                                                                                       | 843/40080 [10:22<7:58:37,  1.37it/s]  2%|███▌                                                                                                                                                                       | 844/40080 [10:23<7:58:04,  1.37it/s]  2%|███▌                                                                                                                                                                       | 845/40080 [10:23<7:58:48,  1.37it/s]  2%|███▌                                                                                                                                                                       | 846/40080 [10:24<7:58:37,  1.37it/s]  2%|███▌                                                                                                                                                                       | 847/40080 [10:25<7:58:07,  1.37it/s]  2%|███▌                                                                                                                                                                       | 848/40080 [10:26<7:58:20,  1.37it/s]  2%|███▌                                                                                                                                                                       | 849/40080 [10:26<7:58:09,  1.37it/s]  2%|███▋                                                                                                                                                                       | 850/40080 [10:27<7:58:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5788, 'grad_norm': 3.28125, 'learning_rate': 2.4974826543859674e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2543.54, 'epoch': 0.08}
+  2%|███▋                                                                                                                                                                       | 850/40080 [10:27<7:58:11,  1.37it/s]  2%|███▋                                                                                                                                                                       | 851/40080 [10:28<7:58:48,  1.37it/s]  2%|███▋                                                                                                                                                                       | 852/40080 [10:28<7:58:40,  1.37it/s]  2%|███▋                                                                                                                                                                       | 853/40080 [10:29<7:58:58,  1.36it/s]  2%|███▋                                                                                                                                                                       | 854/40080 [10:30<7:59:04,  1.36it/s]  2%|███▋                                                                                                                                                                       | 855/40080 [10:31<7:59:03,  1.36it/s]  2%|███▋                                                                                                                                                                       | 856/40080 [10:31<7:59:23,  1.36it/s]  2%|███▋                                                                                                                                                                       | 857/40080 [10:32<7:59:20,  1.36it/s]  2%|███▋                                                                                                                                                                       | 858/40080 [10:33<7:59:11,  1.36it/s]  2%|███▋                                                                                                                                                                       | 859/40080 [10:34<7:59:10,  1.36it/s]  2%|███▋                                                                                                                                                                       | 860/40080 [10:34<7:59:00,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.7068, 'grad_norm': 4.3125, 'learning_rate': 2.4974200577892452e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2471.1, 'epoch': 0.09}
+  2%|███▋                                                                                                                                                                       | 860/40080 [10:34<7:59:00,  1.36it/s]  2%|███▋                                                                                                                                                                       | 861/40080 [10:35<7:59:18,  1.36it/s]  2%|███▋                                                                                                                                                                       | 862/40080 [10:36<7:58:49,  1.37it/s]  2%|███▋                                                                                                                                                                       | 863/40080 [10:37<7:58:00,  1.37it/s]  2%|███▋                                                                                                                                                                       | 864/40080 [10:37<7:58:31,  1.37it/s]  2%|███▋                                                                                                                                                                       | 865/40080 [10:38<7:58:42,  1.37it/s]  2%|███▋                                                                                                                                                                       | 866/40080 [10:39<7:58:54,  1.36it/s]  2%|███▋                                                                                                                                                                       | 867/40080 [10:39<7:58:56,  1.36it/s]  2%|███▋                                                                                                                                                                       | 868/40080 [10:40<7:58:52,  1.36it/s]  2%|███▋                                                                                                                                                                       | 869/40080 [10:41<7:58:18,  1.37it/s]  2%|███▋                                                                                                                                                                       | 870/40080 [10:42<7:58:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6471, 'grad_norm': 3.40625, 'learning_rate': 2.4973566932577947e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2520.86, 'epoch': 0.09}
+  2%|███▋                                                                                                                                                                       | 870/40080 [10:42<7:58:03,  1.37it/s]  2%|███▋                                                                                                                                                                       | 871/40080 [10:42<7:58:21,  1.37it/s]  2%|███▋                                                                                                                                                                       | 872/40080 [10:43<7:58:06,  1.37it/s]  2%|███▋                                                                                                                                                                       | 873/40080 [10:44<7:58:02,  1.37it/s]  2%|███▋                                                                                                                                                                       | 874/40080 [10:45<7:57:58,  1.37it/s]  2%|███▋                                                                                                                                                                       | 875/40080 [10:45<7:57:59,  1.37it/s]  2%|███▋                                                                                                                                                                       | 876/40080 [10:46<7:58:44,  1.36it/s]  2%|███▋                                                                                                                                                                       | 877/40080 [10:47<7:59:06,  1.36it/s]  2%|███▋                                                                                                                                                                       | 878/40080 [10:47<7:58:34,  1.37it/s]  2%|███▊                                                                                                                                                                       | 879/40080 [10:48<7:58:13,  1.37it/s]  2%|███▊                                                                                                                                                                       | 880/40080 [10:49<7:58:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.646, 'grad_norm': 3.734375, 'learning_rate': 2.4972925608306233e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2564.43, 'epoch': 0.09}
+  2%|███▊                                                                                                                                                                       | 880/40080 [10:49<7:58:34,  1.37it/s]  2%|███▊                                                                                                                                                                       | 881/40080 [10:50<7:58:33,  1.37it/s]  2%|███▊                                                                                                                                                                       | 882/40080 [10:50<7:58:39,  1.36it/s]  2%|███▊                                                                                                                                                                       | 883/40080 [10:51<7:58:50,  1.36it/s]  2%|███▊                                                                                                                                                                       | 884/40080 [10:52<7:58:46,  1.36it/s]  2%|███▊                                                                                                                                                                       | 885/40080 [10:53<7:59:05,  1.36it/s]  2%|███▊                                                                                                                                                                       | 886/40080 [10:53<7:59:12,  1.36it/s]  2%|███▊                                                                                                                                                                       | 887/40080 [10:54<7:59:12,  1.36it/s]  2%|███▊                                                                                                                                                                       | 888/40080 [10:55<7:58:50,  1.36it/s]  2%|███▊                                                                                                                                                                       | 889/40080 [10:56<7:58:30,  1.37it/s]  2%|███▊                                                                                                                                                                       | 890/40080 [10:56<7:58:37,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5778, 'grad_norm': 3.203125, 'learning_rate': 2.4972276605472126e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2537.1, 'epoch': 0.09}
+  2%|███▊                                                                                                                                                                       | 890/40080 [10:56<7:58:37,  1.36it/s]  2%|███▊                                                                                                                                                                       | 891/40080 [10:57<7:59:23,  1.36it/s]  2%|███▊                                                                                                                                                                       | 892/40080 [10:58<7:59:10,  1.36it/s]  2%|███▊                                                                                                                                                                       | 893/40080 [10:58<7:58:54,  1.36it/s]  2%|███▊                                                                                                                                                                       | 894/40080 [10:59<7:58:36,  1.36it/s]  2%|███▊                                                                                                                                                                       | 895/40080 [11:00<7:58:13,  1.37it/s]  2%|███▊                                                                                                                                                                       | 896/40080 [11:01<7:58:07,  1.37it/s]  2%|███▊                                                                                                                                                                       | 897/40080 [11:01<7:58:09,  1.37it/s]  2%|███▊                                                                                                                                                                       | 898/40080 [11:02<7:59:36,  1.36it/s]  2%|███▊                                                                                                                                                                       | 899/40080 [11:03<7:59:32,  1.36it/s]  2%|███▊                                                                                                                                                                       | 900/40080 [11:04<7:59:22,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5407, 'grad_norm': 3.078125, 'learning_rate': 2.4971619924475162e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2533.92, 'epoch': 0.09}
+  2%|███▊                                                                                                                                                                       | 900/40080 [11:04<7:59:22,  1.36it/s]  2%|███▊                                                                                                                                                                       | 901/40080 [11:04<7:59:41,  1.36it/s]  2%|███▊                                                                                                                                                                       | 902/40080 [11:05<7:58:27,  1.36it/s]  2%|███▊                                                                                                                                                                       | 903/40080 [11:06<7:58:29,  1.36it/s]  2%|███▊                                                                                                                                                                       | 904/40080 [11:07<7:57:53,  1.37it/s]  2%|███▊                                                                                                                                                                       | 905/40080 [11:07<7:57:53,  1.37it/s]  2%|███▊                                                                                                                                                                       | 906/40080 [11:08<7:57:38,  1.37it/s]  2%|███▊                                                                                                                                                                       | 907/40080 [11:09<7:57:53,  1.37it/s]  2%|███▊                                                                                                                                                                       | 908/40080 [11:09<7:58:01,  1.37it/s]  2%|███▉                                                                                                                                                                       | 909/40080 [11:10<7:57:50,  1.37it/s]  2%|███▉                                                                                                                                                                       | 910/40080 [11:11<7:57:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6092, 'grad_norm': 3.828125, 'learning_rate': 2.4970955565719606e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.55, 'epoch': 0.09}
+  2%|███▉                                                                                                                                                                       | 910/40080 [11:11<7:57:52,  1.37it/s]  2%|███▉                                                                                                                                                                       | 911/40080 [11:12<7:58:30,  1.36it/s]  2%|███▉                                                                                                                                                                       | 912/40080 [11:12<7:57:52,  1.37it/s]  2%|███▉                                                                                                                                                                       | 913/40080 [11:13<7:57:46,  1.37it/s]  2%|███▉                                                                                                                                                                       | 914/40080 [11:14<7:57:30,  1.37it/s]  2%|███▉                                                                                                                                                                       | 915/40080 [11:15<7:57:27,  1.37it/s]  2%|███▉                                                                                                                                                                       | 916/40080 [11:15<7:56:58,  1.37it/s]  2%|███▉                                                                                                                                                                       | 917/40080 [11:16<7:57:39,  1.37it/s]  2%|███▉                                                                                                                                                                       | 918/40080 [11:17<7:58:09,  1.37it/s]  2%|███▉                                                                                                                                                                       | 919/40080 [11:18<7:57:55,  1.37it/s]  2%|███▉                                                                                                                                                                       | 920/40080 [11:18<7:57:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6348, 'grad_norm': 3.375, 'learning_rate': 2.4970283529614452e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.03, 'epoch': 0.09}
+  2%|███▉                                                                                                                                                                       | 920/40080 [11:18<7:57:55,  1.37it/s]  2%|███▉                                                                                                                                                                       | 921/40080 [11:19<7:58:49,  1.36it/s]  2%|███▉                                                                                                                                                                       | 922/40080 [11:20<7:58:27,  1.36it/s]  2%|███▉                                                                                                                                                                       | 923/40080 [11:20<7:58:37,  1.36it/s]  2%|███▉                                                                                                                                                                       | 924/40080 [11:21<7:58:23,  1.36it/s]  2%|███▉                                                                                                                                                                       | 925/40080 [11:22<7:57:42,  1.37it/s]  2%|███▉                                                                                                                                                                       | 926/40080 [11:23<7:58:10,  1.36it/s]  2%|███▉                                                                                                                                                                       | 927/40080 [11:23<7:58:19,  1.36it/s]  2%|███▉                                                                                                                                                                       | 928/40080 [11:24<7:58:03,  1.36it/s]  2%|███▉                                                                                                                                                                       | 929/40080 [11:25<7:58:07,  1.36it/s]  2%|███▉                                                                                                                                                                       | 930/40080 [11:26<7:58:34,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5222, 'grad_norm': 2.546875, 'learning_rate': 2.4969603816573416e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2625.45, 'epoch': 0.09}
+  2%|███▉                                                                                                                                                                       | 930/40080 [11:26<7:58:34,  1.36it/s]  2%|███▉                                                                                                                                                                       | 931/40080 [11:26<7:58:46,  1.36it/s]  2%|███▉                                                                                                                                                                       | 932/40080 [11:27<7:58:56,  1.36it/s]  2%|███▉                                                                                                                                                                       | 933/40080 [11:28<7:58:40,  1.36it/s]  2%|███▉                                                                                                                                                                       | 934/40080 [11:29<7:58:20,  1.36it/s]  2%|███▉                                                                                                                                                                       | 935/40080 [11:29<7:58:32,  1.36it/s]  2%|███▉                                                                                                                                                                       | 936/40080 [11:30<7:58:33,  1.36it/s]  2%|███▉                                                                                                                                                                       | 937/40080 [11:31<7:58:07,  1.36it/s]  2%|████                                                                                                                                                                       | 938/40080 [11:31<7:57:44,  1.37it/s]  2%|████                                                                                                                                                                       | 939/40080 [11:32<7:57:40,  1.37it/s]  2%|████                                                                                                                                                                       | 940/40080 [11:33<7:58:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5492, 'grad_norm': 3.625, 'learning_rate': 2.496891642701494e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2548.76, 'epoch': 0.09}
+  2%|████                                                                                                                                                                       | 940/40080 [11:33<7:58:04,  1.36it/s]  2%|████                                                                                                                                                                       | 941/40080 [11:34<7:58:40,  1.36it/s]  2%|████                                                                                                                                                                       | 942/40080 [11:34<7:58:06,  1.36it/s]  2%|████                                                                                                                                                                       | 943/40080 [11:35<7:58:37,  1.36it/s]  2%|████                                                                                                                                                                       | 944/40080 [11:36<7:59:05,  1.36it/s]  2%|████                                                                                                                                                                       | 945/40080 [11:37<7:59:26,  1.36it/s]  2%|████                                                                                                                                                                       | 946/40080 [11:37<7:58:12,  1.36it/s]  2%|████                                                                                                                                                                       | 947/40080 [11:38<7:58:07,  1.36it/s]  2%|████                                                                                                                                                                       | 948/40080 [11:39<7:57:45,  1.37it/s]  2%|████                                                                                                                                                                       | 949/40080 [11:40<7:57:28,  1.37it/s]  2%|████                                                                                                                                                                       | 950/40080 [11:40<7:57:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5474, 'grad_norm': 4.40625, 'learning_rate': 2.49682213613622e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2533.71, 'epoch': 0.09}
+  2%|████                                                                                                                                                                       | 950/40080 [11:40<7:57:38,  1.37it/s]  2%|████                                                                                                                                                                       | 951/40080 [11:41<7:57:25,  1.37it/s]  2%|████                                                                                                                                                                       | 952/40080 [11:42<7:57:50,  1.36it/s]  2%|████                                                                                                                                                                       | 953/40080 [11:42<7:57:42,  1.37it/s]  2%|████                                                                                                                                                                       | 954/40080 [11:43<7:57:31,  1.37it/s]  2%|████                                                                                                                                                                       | 955/40080 [11:44<7:57:41,  1.37it/s]  2%|████                                                                                                                                                                       | 956/40080 [11:45<7:57:29,  1.37it/s]  2%|████                                                                                                                                                                       | 957/40080 [11:45<7:57:46,  1.36it/s]  2%|████                                                                                                                                                                       | 958/40080 [11:46<7:58:02,  1.36it/s]  2%|████                                                                                                                                                                       | 959/40080 [11:47<7:57:38,  1.37it/s]  2%|████                                                                                                                                                                       | 960/40080 [11:48<7:57:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6221, 'grad_norm': 3.203125, 'learning_rate': 2.496751862004308e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.55, 'epoch': 0.1}
+  2%|████                                                                                                                                                                       | 960/40080 [11:48<7:57:17,  1.37it/s]  2%|████                                                                                                                                                                       | 961/40080 [11:48<7:58:26,  1.36it/s]  2%|████                                                                                                                                                                       | 962/40080 [11:49<7:58:37,  1.36it/s]  2%|████                                                                                                                                                                       | 963/40080 [11:50<7:58:09,  1.36it/s]  2%|████                                                                                                                                                                       | 964/40080 [11:51<7:58:44,  1.36it/s]  2%|████                                                                                                                                                                       | 965/40080 [11:51<7:57:55,  1.36it/s]  2%|████                                                                                                                                                                       | 966/40080 [11:52<7:57:52,  1.36it/s]  2%|████▏                                                                                                                                                                      | 967/40080 [11:53<7:57:48,  1.36it/s]  2%|████▏                                                                                                                                                                      | 968/40080 [11:53<7:57:42,  1.36it/s]  2%|████▏                                                                                                                                                                      | 969/40080 [11:54<7:57:40,  1.36it/s]  2%|████▏                                                                                                                                                                      | 970/40080 [11:55<7:57:45,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5566, 'grad_norm': 3.265625, 'learning_rate': 2.496680820349021e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2739.19, 'epoch': 0.1}
+  2%|████▏                                                                                                                                                                      | 970/40080 [11:55<7:57:45,  1.36it/s]  2%|████▏                                                                                                                                                                      | 971/40080 [11:56<7:58:09,  1.36it/s]  2%|████▏                                                                                                                                                                      | 972/40080 [11:56<7:57:40,  1.36it/s]  2%|████▏                                                                                                                                                                      | 973/40080 [11:57<7:57:19,  1.37it/s]  2%|████▏                                                                                                                                                                      | 974/40080 [11:58<7:57:31,  1.36it/s]  2%|████▏                                                                                                                                                                      | 975/40080 [11:59<7:57:11,  1.37it/s]  2%|████▏                                                                                                                                                                      | 976/40080 [11:59<7:58:02,  1.36it/s]  2%|████▏                                                                                                                                                                      | 977/40080 [12:00<7:57:38,  1.36it/s]  2%|████▏                                                                                                                                                                      | 978/40080 [12:01<7:58:02,  1.36it/s]  2%|████▏                                                                                                                                                                      | 979/40080 [12:02<7:58:33,  1.36it/s]  2%|████▏                                                                                                                                                                      | 980/40080 [12:02<7:58:03,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5967, 'grad_norm': 4.25, 'learning_rate': 2.4966090112140932e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2651.78, 'epoch': 0.1}
+  2%|████▏                                                                                                                                                                      | 980/40080 [12:02<7:58:03,  1.36it/s]  2%|████▏                                                                                                                                                                      | 981/40080 [12:03<7:58:42,  1.36it/s]  2%|████▏                                                                                                                                                                      | 982/40080 [12:04<7:58:24,  1.36it/s]  2%|████▏                                                                                                                                                                      | 983/40080 [12:04<7:57:58,  1.36it/s]  2%|████▏                                                                                                                                                                      | 984/40080 [12:05<7:58:07,  1.36it/s]  2%|████▏                                                                                                                                                                      | 985/40080 [12:06<7:58:14,  1.36it/s]  2%|████▏                                                                                                                                                                      | 986/40080 [12:07<7:57:50,  1.36it/s]  2%|████▏                                                                                                                                                                      | 987/40080 [12:07<7:57:41,  1.36it/s]  2%|████▏                                                                                                                                                                      | 988/40080 [12:08<7:57:58,  1.36it/s]  2%|████▏                                                                                                                                                                      | 989/40080 [12:09<7:58:40,  1.36it/s]  2%|████▏                                                                                                                                                                      | 990/40080 [12:10<7:58:03,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5078, 'grad_norm': 2.828125, 'learning_rate': 2.4965364346437317e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2628.16, 'epoch': 0.1}
+  2%|████▏                                                                                                                                                                      | 990/40080 [12:10<7:58:03,  1.36it/s]  2%|████▏                                                                                                                                                                      | 991/40080 [12:10<7:58:42,  1.36it/s]  2%|████▏                                                                                                                                                                      | 992/40080 [12:11<7:58:30,  1.36it/s]  2%|████▏                                                                                                                                                                      | 993/40080 [12:12<7:58:07,  1.36it/s]  2%|████▏                                                                                                                                                                      | 994/40080 [12:13<7:58:04,  1.36it/s]  2%|████▏                                                                                                                                                                      | 995/40080 [12:13<7:58:09,  1.36it/s]  2%|████▏                                                                                                                                                                      | 996/40080 [12:14<7:57:39,  1.36it/s]  2%|████▎                                                                                                                                                                      | 997/40080 [12:15<7:57:29,  1.36it/s]  2%|████▎                                                                                                                                                                      | 998/40080 [12:15<7:58:17,  1.36it/s]  2%|████▎                                                                                                                                                                      | 999/40080 [12:16<7:58:12,  1.36it/s]  2%|████▏                                                                                                                                                                     | 1000/40080 [12:17<7:57:37,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5847, 'grad_norm': 3.6875, 'learning_rate': 2.496463090682616e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2624.44, 'epoch': 0.1}
+  2%|████▏                                                                                                                                                                     | 1000/40080 [12:17<7:57:37,  1.36it/s]  2%|████▏                                                                                                                                                                     | 1001/40080 [12:18<7:58:18,  1.36it/s]  2%|████▎                                                                                                                                                                     | 1002/40080 [12:18<7:58:03,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1003/40080 [12:19<7:57:20,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1004/40080 [12:20<7:57:22,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1005/40080 [12:21<7:56:55,  1.37it/s]  3%|████▎                                                                                                                                                                     | 1006/40080 [12:21<7:56:51,  1.37it/s]  3%|████▎                                                                                                                                                                     | 1007/40080 [12:22<7:57:22,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1008/40080 [12:23<7:57:12,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1009/40080 [12:24<7:57:05,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1010/40080 [12:24<7:57:10,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6145, 'grad_norm': 4.03125, 'learning_rate': 2.496388979375898e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2494.73, 'epoch': 0.1}
+  3%|████▎                                                                                                                                                                     | 1010/40080 [12:24<7:57:10,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1011/40080 [12:25<7:57:41,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1012/40080 [12:26<7:57:55,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1013/40080 [12:26<7:58:20,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1014/40080 [12:27<7:58:19,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1015/40080 [12:28<7:58:03,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1016/40080 [12:29<7:58:16,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1017/40080 [12:29<7:57:49,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1018/40080 [12:30<7:57:19,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1019/40080 [12:31<7:56:44,  1.37it/s]  3%|████▎                                                                                                                                                                     | 1020/40080 [12:32<7:56:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6686, 'grad_norm': 3.734375, 'learning_rate': 2.4963141007692022e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2569.75, 'epoch': 0.1}
+  3%|████▎                                                                                                                                                                     | 1020/40080 [12:32<7:56:27,  1.37it/s]  3%|████▎                                                                                                                                                                     | 1021/40080 [12:32<7:57:38,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1022/40080 [12:33<7:57:53,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1023/40080 [12:34<7:58:22,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1024/40080 [12:35<7:57:56,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1025/40080 [12:35<7:57:22,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1026/40080 [12:36<7:57:24,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1027/40080 [12:37<7:56:53,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1028/40080 [12:37<7:57:07,  1.36it/s]  3%|████▎                                                                                                                                                                     | 1029/40080 [12:38<7:55:58,  1.37it/s]  3%|████▎                                                                                                                                                                     | 1030/40080 [12:39<7:55:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.534, 'grad_norm': 2.828125, 'learning_rate': 2.496238454908624e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.62, 'epoch': 0.1}
+  3%|████▎                                                                                                                                                                     | 1030/40080 [12:39<7:55:57,  1.37it/s]  3%|████▎                                                                                                                                                                     | 1031/40080 [12:40<7:56:54,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1032/40080 [12:40<7:56:32,  1.37it/s]  3%|████▍                                                                                                                                                                     | 1033/40080 [12:41<7:56:55,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1034/40080 [12:42<7:58:43,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1035/40080 [12:43<7:58:14,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1036/40080 [12:43<7:57:22,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1037/40080 [12:44<7:57:07,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1038/40080 [12:45<7:57:26,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1039/40080 [12:46<7:57:17,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1040/40080 [12:46<7:57:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6204, 'grad_norm': 4.09375, 'learning_rate': 2.4961620418407343e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2576.86, 'epoch': 0.1}
+  3%|████▍                                                                                                                                                                     | 1040/40080 [12:46<7:57:20,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1041/40080 [12:47<7:57:58,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1042/40080 [12:48<7:57:25,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1043/40080 [12:48<7:56:51,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1044/40080 [12:49<7:56:40,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1045/40080 [12:50<7:56:57,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1046/40080 [12:51<7:56:43,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1047/40080 [12:51<7:56:41,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1048/40080 [12:52<7:56:46,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1049/40080 [12:53<7:57:22,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1050/40080 [12:54<7:57:53,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.622, 'grad_norm': 3.984375, 'learning_rate': 2.4960848616125733e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2616.67, 'epoch': 0.1}
+  3%|████▍                                                                                                                                                                     | 1050/40080 [12:54<7:57:53,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1051/40080 [12:54<7:58:40,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1052/40080 [12:55<7:57:56,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1053/40080 [12:56<7:57:40,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1054/40080 [12:57<7:57:24,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1055/40080 [12:57<7:57:23,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1056/40080 [12:58<7:57:09,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1057/40080 [12:59<7:58:04,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1058/40080 [12:59<7:58:10,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1059/40080 [13:00<7:57:42,  1.36it/s]  3%|████▍                                                                                                                                                                     | 1060/40080 [13:01<7:57:11,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5688, 'grad_norm': 3.0, 'learning_rate': 2.4960069142716544e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.4, 'epoch': 0.11}
+  3%|████▍                                                                                                                                                                     | 1060/40080 [13:01<7:57:11,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1061/40080 [13:02<7:57:42,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1062/40080 [13:02<7:57:29,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1063/40080 [13:03<7:56:44,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1064/40080 [13:04<7:56:30,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1065/40080 [13:05<7:56:20,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1066/40080 [13:05<7:56:28,  1.36it/s]  3%|███���▌                                                                                                                                                                     | 1067/40080 [13:06<7:56:19,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1068/40080 [13:07<7:56:14,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1069/40080 [13:08<7:56:18,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1070/40080 [13:08<7:55:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5633, 'grad_norm': 2.984375, 'learning_rate': 2.495928199865964e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2546.41, 'epoch': 0.11}
+  3%|████▌                                                                                                                                                                     | 1070/40080 [13:08<7:55:40,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1071/40080 [13:09<7:57:01,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1072/40080 [13:10<7:57:08,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1073/40080 [13:10<7:56:36,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1074/40080 [13:11<7:56:04,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1075/40080 [13:12<7:57:57,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1076/40080 [13:13<7:57:58,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1077/40080 [13:13<7:57:07,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1078/40080 [13:14<7:56:31,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1079/40080 [13:15<7:55:39,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1080/40080 [13:16<7:55:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4996, 'grad_norm': 3.9375, 'learning_rate': 2.4958487184439597e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2592.55, 'epoch': 0.11}
+  3%|████▌                                                                                                                                                                     | 1080/40080 [13:16<7:55:28,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1081/40080 [13:16<7:56:22,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1082/40080 [13:17<7:55:50,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1083/40080 [13:18<7:56:09,  1.36it/s]  3%|████▌                                                                                                                                                                     | 1084/40080 [13:19<7:56:02,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1085/40080 [13:19<7:55:47,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1086/40080 [13:20<7:56:04,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1087/40080 [13:21<7:55:48,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1088/40080 [13:21<7:55:49,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1089/40080 [13:22<7:55:39,  1.37it/s]  3%|████▌                                                                                                                                                                     | 1090/40080 [13:23<7:55:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6219, 'grad_norm': 4.28125, 'learning_rate': 2.495768470054572e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2584.93, 'epoch': 0.11}
+  3%|████▌                                                                                                                                                                     | 1090/40080 [13:23<7:55:17,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1091/40080 [13:24<7:56:22,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1092/40080 [13:24<7:56:09,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1093/40080 [13:25<7:56:19,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1094/40080 [13:26<7:56:47,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1095/40080 [13:27<7:56:29,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1096/40080 [13:27<7:56:18,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1097/40080 [13:28<7:56:06,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1098/40080 [13:29<7:56:01,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1099/40080 [13:30<7:56:03,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1100/40080 [13:30<7:55:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5217, 'grad_norm': 2.921875, 'learning_rate': 2.495687454747203e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2649.48, 'epoch': 0.11}
+  3%|████▋                                                                                                                                                                     | 1100/40080 [13:30<7:55:39,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1101/40080 [13:31<7:56:07,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1102/40080 [13:32<7:56:28,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1103/40080 [13:32<7:56:56,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1104/40080 [13:33<7:56:42,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1105/40080 [13:34<7:57:00,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1106/40080 [13:35<7:56:38,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1107/40080 [13:35<7:56:06,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1108/40080 [13:36<7:55:39,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1109/40080 [13:37<7:55:17,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1110/40080 [13:38<7:55:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5152, 'grad_norm': 2.8125, 'learning_rate': 2.4956056725717276e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2571.54, 'epoch': 0.11}
+  3%|████▋                                                                                                                                                                     | 1110/40080 [13:38<7:55:23,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1111/40080 [13:38<7:56:10,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1112/40080 [13:39<7:57:02,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1113/40080 [13:40<7:56:49,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1114/40080 [13:41<7:56:28,  1.36it/s]  3%|████▋                                                                                                                                                                     | 1115/40080 [13:41<7:55:17,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1116/40080 [13:42<7:55:25,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1117/40080 [13:43<7:55:43,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1118/40080 [13:43<7:54:51,  1.37it/s]  3%|████▋                                                                                                                                                                     | 1119/40080 [13:44<7:54:59,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1120/40080 [13:45<7:55:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5394, 'grad_norm': 3.453125, 'learning_rate': 2.4955231235784922e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2618.3, 'epoch': 0.11}
+  3%|████▊                                                                                                                                                                     | 1120/40080 [13:45<7:55:03,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1121/40080 [13:46<7:55:54,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1122/40080 [13:46<7:55:42,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1123/40080 [13:47<7:55:46,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1124/40080 [13:48<7:56:17,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1125/40080 [13:49<7:55:46,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1126/40080 [13:49<7:55:34,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1127/40080 [13:50<7:55:22,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1128/40080 [13:51<7:55:24,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1129/40080 [13:52<7:55:08,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1130/40080 [13:52<7:54:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5768, 'grad_norm': 2.5, 'learning_rate': 2.4954398078183154e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2456.04, 'epoch': 0.11}
+  3%|████▊                                                                                                                                                                     | 1130/40080 [13:52<7:54:37,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1131/40080 [13:53<7:55:28,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1132/40080 [13:54<7:55:30,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1133/40080 [13:54<7:55:36,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1134/40080 [13:55<7:55:21,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1135/40080 [13:56<7:55:26,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1136/40080 [13:57<7:54:56,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1137/40080 [13:57<7:55:05,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1138/40080 [13:58<7:55:02,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1139/40080 [13:59<7:55:05,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1140/40080 [14:00<7:55:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5728, 'grad_norm': 3.71875, 'learning_rate': 2.4953557253424882e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.75, 'epoch': 0.11}
+  3%|████▊                                                                                                                                                                     | 1140/40080 [14:00<7:55:25,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1141/40080 [14:00<7:56:09,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1142/40080 [14:01<7:55:49,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1143/40080 [14:02<7:55:35,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1144/40080 [14:02<7:55:12,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1145/40080 [14:03<7:55:27,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1146/40080 [14:04<7:55:45,  1.36it/s]  3%|████▊                                                                                                                                                                     | 1147/40080 [14:05<7:55:19,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1148/40080 [14:05<7:55:13,  1.37it/s]  3%|████▊                                                                                                                                                                     | 1149/40080 [14:06<7:54:39,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1150/40080 [14:07<7:54:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5992, 'grad_norm': 3.546875, 'learning_rate': 2.4952708762027727e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2646.76, 'epoch': 0.11}
+  3%|████▉                                                                                                                                                                     | 1150/40080 [14:07<7:54:29,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1151/40080 [14:08<7:55:42,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1152/40080 [14:08<7:55:11,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1153/40080 [14:09<7:55:30,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1154/40080 [14:10<7:55:26,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1155/40080 [14:11<7:54:56,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1156/40080 [14:11<7:55:01,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1157/40080 [14:12<7:54:43,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1158/40080 [14:13<7:54:34,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1159/40080 [14:13<7:55:18,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1160/40080 [14:14<7:54:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6201, 'grad_norm': 3.453125, 'learning_rate': 2.495185260451404e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2543.13, 'epoch': 0.12}
+  3%|████▉                                                                                                                                                                     | 1160/40080 [14:14<7:54:41,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1161/40080 [14:15<7:55:16,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1162/40080 [14:16<9:08:07,  1.18it/s]  3%|████▉                                                                                                                                                                     | 1163/40080 [14:17<8:46:02,  1.23it/s]  3%|████▉                                                                                                                                                                     | 1164/40080 [14:18<8:30:32,  1.27it/s]  3%|████▉                                                                                                                                                                     | 1165/40080 [14:18<8:19:48,  1.30it/s]  3%|████▉                                                                                                                                                                     | 1166/40080 [14:19<8:12:15,  1.32it/s]  3%|████▉                                                                                                                                                                     | 1167/40080 [14:20<8:06:42,  1.33it/s]  3%|████▉                                                                                                                                                                     | 1168/40080 [14:20<8:02:43,  1.34it/s]  3%|████▉                                                                                                                                                                     | 1169/40080 [14:21<7:59:53,  1.35it/s]  3%|████▉                                                                                                                                                                     | 1170/40080 [14:22<7:58:09,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6482, 'grad_norm': 2.828125, 'learning_rate': 2.4950988781410892e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2634.88, 'epoch': 0.12}
+  3%|████▉                                                                                                                                                                     | 1170/40080 [14:22<7:58:09,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1171/40080 [14:23<7:57:34,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1172/40080 [14:23<7:56:09,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1173/40080 [14:24<7:55:15,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1174/40080 [14:25<7:55:08,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1175/40080 [14:26<7:54:38,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1176/40080 [14:26<7:54:57,  1.37it/s]  3%|████▉                                                                                                                                                                     | 1177/40080 [14:27<7:55:14,  1.36it/s]  3%|████▉                                                                                                                                                                     | 1178/40080 [14:28<7:55:11,  1.36it/s]  3%|█████                                                                                                                                                                     | 1179/40080 [14:28<7:55:17,  1.36it/s]  3%|█████                                                                                                                                                                     | 1180/40080 [14:29<7:55:48,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5553, 'grad_norm': 2.796875, 'learning_rate': 2.495011729325006e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2636.98, 'epoch': 0.12}
+  3%|█████                                                                                                                                                                     | 1180/40080 [14:29<7:55:48,  1.36it/s]  3%|█████                                                                                                                                                                     | 1181/40080 [14:30<7:56:34,  1.36it/s]  3%|█████                                                                                                                                                                     | 1182/40080 [14:31<7:56:41,  1.36it/s]  3%|█████                                                                                                                                                                     | 1183/40080 [14:31<7:56:19,  1.36it/s]  3%|█████                                                                                                                                                                     | 1184/40080 [14:32<7:55:43,  1.36it/s]  3%|█████                                                                                                                                                                     | 1185/40080 [14:33<7:55:39,  1.36it/s]  3%|█████                                                                                                                                                                     | 1186/40080 [14:34<7:55:04,  1.36it/s]  3%|█████                                                                                                                                                                     | 1187/40080 [14:34<7:54:33,  1.37it/s]  3%|█████                                                                                                                                                                     | 1188/40080 [14:35<7:54:53,  1.36it/s]  3%|█████                                                                                                                                                                     | 1189/40080 [14:36<7:54:48,  1.37it/s]  3%|█████                                                                                                                                                                     | 1190/40080 [14:37<7:54:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5984, 'grad_norm': 3.125, 'learning_rate': 2.4949238140568054e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.71, 'epoch': 0.12}
+  3%|█████                                                                                                                                                                     | 1190/40080 [14:37<7:54:25,  1.37it/s]  3%|█████                                                                                                                                                                     | 1191/40080 [14:37<7:54:30,  1.37it/s]  3%|█████                                                                                                                                                                     | 1192/40080 [14:38<7:54:58,  1.36it/s]  3%|█████                                                                                                                                                                     | 1193/40080 [14:39<7:54:46,  1.37it/s]  3%|█████                                                                                                                                                                     | 1194/40080 [14:39<7:54:24,  1.37it/s]  3%|█████                                                                                                                                                                     | 1195/40080 [14:40<7:54:09,  1.37it/s]  3%|█████                                                                                                                                                                     | 1196/40080 [14:41<7:53:55,  1.37it/s]  3%|█████                                                                                                                                                                     | 1197/40080 [14:42<7:54:22,  1.37it/s]  3%|█████                                                                                                                                                                     | 1198/40080 [14:42<7:54:19,  1.37it/s]  3%|█████                                                                                                                                                                     | 1199/40080 [14:43<7:54:14,  1.37it/s]  3%|█████                                                                                                                                                                     | 1200/40080 [14:44<7:56:57,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5565, 'grad_norm': 3.03125, 'learning_rate': 2.4948351323906093e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2425.42, 'epoch': 0.12}
+  3%|█████                                                                                                                                                                     | 1200/40080 [14:44<7:56:57,  1.36it/s]  3%|█████                                                                                                                                                                     | 1201/40080 [14:45<7:56:54,  1.36it/s]  3%|█████                                                                                                                                                                     | 1202/40080 [14:45<7:56:48,  1.36it/s]  3%|█████                                                                                                                                                                     | 1203/40080 [14:46<7:56:08,  1.36it/s]  3%|█████                                                                                                                                                                     | 1204/40080 [14:47<7:55:37,  1.36it/s]  3%|█████                                                                                                                                                                     | 1205/40080 [14:48<7:55:08,  1.36it/s]  3%|█████                                                                                                                                                                     | 1206/40080 [14:48<7:54:57,  1.36it/s]  3%|█████                                                                                                                                                                     | 1207/40080 [14:49<7:55:08,  1.36it/s]  3%|█████                                                                                                                                                                     | 1208/40080 [14:50<7:54:09,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1209/40080 [14:50<7:54:29,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1210/40080 [14:51<7:54:48,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6125, 'grad_norm': 3.875, 'learning_rate': 2.494745684381012e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2579.97, 'epoch': 0.12}
+  3%|█████▏                                                                                                                                                                    | 1210/40080 [14:51<7:54:48,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1211/40080 [14:52<7:55:54,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1212/40080 [14:53<7:55:02,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1213/40080 [14:53<7:55:08,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1214/40080 [14:54<7:54:50,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1215/40080 [14:55<7:54:15,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1216/40080 [14:56<7:54:16,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1217/40080 [14:56<7:54:03,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1218/40080 [14:57<7:54:42,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1219/40080 [14:58<7:54:12,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1220/40080 [14:59<7:54:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5549, 'grad_norm': 3.8125, 'learning_rate': 2.494655470083079e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2587.4, 'epoch': 0.12}
+  3%|█████▏                                                                                                                                                                    | 1220/40080 [14:59<7:54:14,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1221/40080 [14:59<7:55:44,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1222/40080 [15:00<7:55:57,  1.36it/s]  3%|███��█▏                                                                                                                                                                    | 1223/40080 [15:01<7:55:09,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1224/40080 [15:01<7:55:25,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1225/40080 [15:02<7:55:06,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1226/40080 [15:03<7:56:33,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1227/40080 [15:04<7:55:27,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1228/40080 [15:04<7:54:35,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1229/40080 [15:05<7:54:07,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1230/40080 [15:06<7:54:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5994, 'grad_norm': 4.53125, 'learning_rate': 2.4945644895523487e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.03, 'epoch': 0.12}
+  3%|█████▏                                                                                                                                                                    | 1230/40080 [15:06<7:54:12,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1231/40080 [15:07<7:55:18,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1232/40080 [15:07<7:55:17,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1233/40080 [15:08<7:54:28,  1.36it/s]  3%|█████▏                                                                                                                                                                    | 1234/40080 [15:09<7:53:51,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1235/40080 [15:10<7:53:41,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1236/40080 [15:10<7:54:03,  1.37it/s]  3%|█████▏                                                                                                                                                                    | 1237/40080 [15:11<7:53:40,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1238/40080 [15:12<7:53:41,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1239/40080 [15:12<7:53:38,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1240/40080 [15:13<7:53:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5928, 'grad_norm': 3.390625, 'learning_rate': 2.4944727428448295e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2612.22, 'epoch': 0.12}
+  3%|█████▎                                                                                                                                                                    | 1240/40080 [15:13<7:53:24,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1241/40080 [15:14<7:54:07,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1242/40080 [15:15<7:54:02,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1243/40080 [15:15<7:53:49,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1244/40080 [15:16<7:53:31,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1245/40080 [15:17<7:53:27,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1246/40080 [15:18<7:53:59,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1247/40080 [15:18<7:53:39,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1248/40080 [15:19<7:53:38,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1249/40080 [15:20<7:53:28,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1250/40080 [15:21<7:53:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.587, 'grad_norm': 2.65625, 'learning_rate': 2.4943802300170027e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.1, 'epoch': 0.12}
+  3%|█████▎                                                                                                                                                                    | 1250/40080 [15:21<7:53:43,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1251/40080 [15:21<7:54:29,  1.36it/s]  3%|█████▎                                                                                                                                                                    | 1252/40080 [15:22<7:54:08,  1.36it/s]  3%|█████▎                                                                                                                                                                    | 1253/40080 [15:23<7:54:12,  1.36it/s]  3%|█████▎                                                                                                                                                                    | 1254/40080 [15:23<7:54:22,  1.36it/s]  3%|█████▎                                                                                                                                                                    | 1255/40080 [15:24<7:54:12,  1.36it/s]  3%|█████▎                                                                                                                                                                    | 1256/40080 [15:25<7:54:17,  1.36it/s]  3%|█████▎                                                                                                                                                                    | 1257/40080 [15:26<7:54:01,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1258/40080 [15:26<7:53:32,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1259/40080 [15:27<7:53:06,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1260/40080 [15:28<7:53:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6287, 'grad_norm': 3.671875, 'learning_rate': 2.494286951125821e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2586.72, 'epoch': 0.13}
+  3%|█████▎                                                                                                                                                                    | 1260/40080 [15:28<7:53:23,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1261/40080 [15:29<7:53:28,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1262/40080 [15:29<7:54:12,  1.36it/s]  3%|█████▎                                                                                                                                                                    | 1263/40080 [15:30<7:53:50,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1264/40080 [15:31<7:53:17,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1265/40080 [15:32<7:53:20,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1266/40080 [15:32<7:53:34,  1.37it/s]  3%|█████▎                                                                                                                                                                    | 1267/40080 [15:33<7:52:49,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1268/40080 [15:34<7:52:51,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1269/40080 [15:34<7:53:41,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1270/40080 [15:35<7:53:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5679, 'grad_norm': 2.5, 'learning_rate': 2.494192906228708e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2514.0, 'epoch': 0.13}
+  3%|█████▍                                                                                                                                                                    | 1270/40080 [15:35<7:53:44,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1271/40080 [15:36<7:54:52,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1272/40080 [15:37<7:54:25,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1273/40080 [15:37<7:53:56,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1274/40080 [15:38<7:54:06,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1275/40080 [15:39<7:54:33,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1276/40080 [15:40<7:54:06,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1277/40080 [15:40<7:53:58,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1278/40080 [15:41<7:53:42,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1279/40080 [15:42<7:53:31,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1280/40080 [15:42<7:53:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6084, 'grad_norm': 4.53125, 'learning_rate': 2.4940980953835602e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2554.42, 'epoch': 0.13}
+  3%|█████▍                                                                                                                                                                    | 1280/40080 [15:42<7:53:12,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1281/40080 [15:43<7:53:53,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1282/40080 [15:44<7:54:00,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1283/40080 [15:45<7:54:38,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1284/40080 [15:45<7:54:43,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1285/40080 [15:46<7:54:10,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1286/40080 [15:47<7:54:46,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1287/40080 [15:48<7:54:30,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1288/40080 [15:48<7:53:57,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1289/40080 [15:49<7:53:43,  1.36it/s]  3%|█████▍                                                                                                                                                                    | 1290/40080 [15:50<7:53:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5308, 'grad_norm': 3.5625, 'learning_rate': 2.494002518648745e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2339.2, 'epoch': 0.13}
+  3%|█████▍                                                                                                                                                                    | 1290/40080 [15:50<7:53:25,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1291/40080 [15:51<7:53:35,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1292/40080 [15:51<7:53:26,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1293/40080 [15:52<7:53:19,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1294/40080 [15:53<7:53:09,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1295/40080 [15:53<7:52:39,  1.37it/s]  3%|█████▍                                                                                                                                                                    | 1296/40080 [15:54<7:52:49,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1297/40080 [15:55<7:53:12,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1298/40080 [15:56<7:53:04,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1299/40080 [15:56<7:53:00,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1300/40080 [15:57<7:53:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6598, 'grad_norm': 3.375, 'learning_rate': 2.4939061760831007e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2681.19, 'epoch': 0.13}
+  3%|█████▌                                                                                                                                                                    | 1300/40080 [15:57<7:53:12,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1301/40080 [15:58<7:54:09,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1302/40080 [15:59<7:54:03,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1303/40080 [15:59<7:54:30,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1304/40080 [16:00<7:54:02,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1305/40080 [16:01<7:53:23,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1306/40080 [16:02<7:53:15,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1307/40080 [16:02<7:53:39,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1308/40080 [16:03<7:53:37,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1309/40080 [16:04<7:53:14,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1310/40080 [16:04<7:52:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5446, 'grad_norm': 2.65625, 'learning_rate': 2.4938090677459374e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2655.93, 'epoch': 0.13}
+  3%|█████▌                                                                                                                                                                    | 1310/40080 [16:04<7:52:56,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1311/40080 [16:05<7:53:55,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1312/40080 [16:06<7:53:46,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1313/40080 [16:07<7:53:16,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1314/40080 [16:07<7:53:44,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1315/40080 [16:08<7:53:55,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1316/40080 [16:09<7:53:42,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1317/40080 [16:10<7:53:30,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1318/40080 [16:10<7:52:53,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1319/40080 [16:11<7:52:55,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1320/40080 [16:12<7:52:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6038, 'grad_norm': 3.109375, 'learning_rate': 2.493711193697037e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2547.55, 'epoch': 0.13}
+  3%|█████▌                                                                                                                                                                    | 1320/40080 [16:12<7:52:35,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1321/40080 [16:13<7:53:28,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1322/40080 [16:13<7:53:19,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1323/40080 [16:14<7:53:15,  1.36it/s]  3%|█████▌                                                                                                                                                                    | 1324/40080 [16:15<7:53:09,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1325/40080 [16:15<7:52:51,  1.37it/s]  3%|█████▌                                                                                                                                                                    | 1326/40080 [16:16<7:53:04,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1327/40080 [16:17<7:53:03,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1328/40080 [16:18<7:52:43,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1329/40080 [16:18<7:52:51,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1330/40080 [16:19<7:51:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5614, 'grad_norm': 3.359375, 'learning_rate': 2.493612553996653e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2681.78, 'epoch': 0.13}
+  3%|█████▋                                                                                                                                                                    | 1330/40080 [16:19<7:51:55,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1331/40080 [16:20<7:52:24,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1332/40080 [16:21<7:52:23,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1333/40080 [16:21<7:52:18,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1334/40080 [16:22<7:52:19,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1335/40080 [16:23<7:52:38,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1336/40080 [16:24<7:53:19,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1337/40080 [16:24<7:54:27,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1338/40080 [16:25<7:53:59,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1339/40080 [16:26<7:53:25,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1340/40080 [16:26<7:53:29,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6167, 'grad_norm': 3.234375, 'learning_rate': 2.4935131487055094e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.16, 'epoch': 0.13}
+  3%|█████▋                                                                                                                                                                    | 1340/40080 [16:26<7:53:29,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1341/40080 [16:27<7:53:36,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1342/40080 [16:28<7:53:11,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1343/40080 [16:29<7:53:09,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1344/40080 [16:29<7:53:12,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1345/40080 [16:30<7:52:50,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1346/40080 [16:31<7:52:45,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1347/40080 [16:32<7:52:39,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1348/40080 [16:32<7:53:11,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1349/40080 [16:33<7:52:53,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1350/40080 [16:34<7:52:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5644, 'grad_norm': 3.578125, 'learning_rate': 2.493412977884802e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2587.13, 'epoch': 0.13}
+  3%|█████▋                                                                                                                                                                    | 1350/40080 [16:34<7:52:30,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1351/40080 [16:35<7:53:10,  1.36it/s]  3%|█████▋                                                                                                                                                                    | 1352/40080 [16:35<7:52:15,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1353/40080 [16:36<7:52:25,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1354/40080 [16:37<7:51:52,  1.37it/s]  3%|█████▋                                                                                                                                                                    | 1355/40080 [16:37<7:51:56,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1356/40080 [16:38<7:51:44,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1357/40080 [16:39<7:51:56,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1358/40080 [16:40<7:52:06,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1359/40080 [16:40<7:52:22,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1360/40080 [16:41<7:52:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6031, 'grad_norm': 3.75, 'learning_rate': 2.4933120415961975e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2491.03, 'epoch': 0.14}
+  3%|█████▊                                                                                                                                                                    | 1360/40080 [16:41<7:52:24,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1361/40080 [16:42<7:52:34,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1362/40080 [16:43<7:52:09,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1363/40080 [16:43<7:52:14,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1364/40080 [16:44<7:52:59,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1365/40080 [16:45<7:52:34,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1366/40080 [16:45<7:51:48,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1367/40080 [16:46<7:52:47,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1368/40080 [16:47<7:53:17,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1369/40080 [16:48<7:53:20,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1370/40080 [16:48<7:52:57,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.646, 'grad_norm': 3.75, 'learning_rate': 2.4932103399018346e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2662.49, 'epoch': 0.14}
+  3%|█████▊                                                                                                                                                                    | 1370/40080 [16:48<7:52:57,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1371/40080 [16:49<7:53:27,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1372/40080 [16:50<7:53:01,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1373/40080 [16:51<7:53:02,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1374/40080 [16:51<7:52:50,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1375/40080 [16:52<7:52:26,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1376/40080 [16:53<7:52:32,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1377/40080 [16:54<7:52:02,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1378/40080 [16:54<7:52:13,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1379/40080 [16:55<7:52:20,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1380/40080 [16:56<7:52:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.534, 'grad_norm': 3.5, 'learning_rate': 2.4931078728643226e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2355.97, 'epoch': 0.14}
+  3%|█████▊                                                                                                                                                                    | 1380/40080 [16:56<7:52:24,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1381/40080 [16:56<7:52:43,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1382/40080 [16:57<7:53:06,  1.36it/s]  3%|█████▊                                                                                                                                                                    | 1383/40080 [16:58<7:52:07,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1384/40080 [16:59<7:52:17,  1.37it/s]  3%|█████▊                                                                                                                                                                    | 1385/40080 [16:59<7:52:30,  1.36it/s]  3%|█████▉                                                                                                                                                                    | 1386/40080 [17:00<7:51:56,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1387/40080 [17:01<7:52:02,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1388/40080 [17:02<7:51:44,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1389/40080 [17:02<7:51:55,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1390/40080 [17:03<7:52:35,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5726, 'grad_norm': 3.03125, 'learning_rate': 2.493004640546742e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2610.61, 'epoch': 0.14}
+  3%|█████▉                                                                                                                                                                    | 1390/40080 [17:03<7:52:35,  1.36it/s]  3%|█████▉                                                                                                                                                                    | 1391/40080 [17:04<7:52:22,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1392/40080 [17:05<7:51:55,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1393/40080 [17:05<7:51:24,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1394/40080 [17:06<7:51:33,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1395/40080 [17:07<7:51:19,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1396/40080 [17:07<7:51:15,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1397/40080 [17:08<7:51:15,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1398/40080 [17:09<7:51:18,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1399/40080 [17:10<7:50:58,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1400/40080 [17:10<7:51:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5112, 'grad_norm': 2.828125, 'learning_rate': 2.4929006430126445e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2532.1, 'epoch': 0.14}
+  3%|█████▉                                                                                                                                                                    | 1400/40080 [17:10<7:51:03,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1401/40080 [17:11<7:51:47,  1.37it/s]  3%|█████▉                                                                                                                                                                    | 1402/40080 [17:12<7:51:34,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1403/40080 [17:13<7:52:01,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1404/40080 [17:13<7:51:54,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1405/40080 [17:14<7:51:47,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1406/40080 [17:15<7:51:51,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1407/40080 [17:16<7:50:53,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1408/40080 [17:16<7:51:29,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1409/40080 [17:17<7:51:19,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1410/40080 [17:18<7:51:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5487, 'grad_norm': 3.9375, 'learning_rate': 2.492795880326053e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.36, 'epoch': 0.14}
+  4%|█████▉                                                                                                                                                                    | 1410/40080 [17:18<7:51:26,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1411/40080 [17:18<7:52:19,  1.36it/s]  4%|█████▉                                                                                                                                                                    | 1412/40080 [17:19<7:52:05,  1.37it/s]  4%|█████▉                                                                                                                                                                    | 1413/40080 [17:20<7:52:22,  1.36it/s]  4%|█████▉                                                                                                                                                                    | 1414/40080 [17:21<7:52:15,  1.36it/s]  4%|██████                                                                                                                                                                    | 1415/40080 [17:21<7:51:33,  1.37it/s]  4%|██████                                                                                                                                                                    | 1416/40080 [17:22<7:51:34,  1.37it/s]  4%|██████                                                                                                                                                                    | 1417/40080 [17:23<7:51:21,  1.37it/s]  4%|██████                                                                                                                                                                    | 1418/40080 [17:24<7:50:34,  1.37it/s]  4%|██████                                                                                                                                                                    | 1419/40080 [17:24<7:50:52,  1.37it/s]  4%|██████                                                                                                                                                                    | 1420/40080 [17:25<7:51:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5554, 'grad_norm': 3.5625, 'learning_rate': 2.492690352551461e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2442.66, 'epoch': 0.14}
+  4%|██████                                                                                                                                                                    | 1420/40080 [17:25<7:51:04,  1.37it/s]  4%|██████                                                                                                                                                                    | 1421/40080 [17:26<7:51:49,  1.37it/s]  4%|██████                                                                                                                                                                    | 1422/40080 [17:26<7:51:52,  1.37it/s]  4%|██████                                                                                                                                                                    | 1423/40080 [17:27<7:51:34,  1.37it/s]  4%|██████                                                                                                                                                                    | 1424/40080 [17:28<7:51:12,  1.37it/s]  4%|██████                                                                                                                                                                    | 1425/40080 [17:29<7:51:01,  1.37it/s]  4%|██████                                                                                                                                                                    | 1426/40080 [17:29<7:50:40,  1.37it/s]  4%|██████                                                                                                                                                                    | 1427/40080 [17:30<7:51:15,  1.37it/s]  4%|██████                                                                                                                                                                    | 1428/40080 [17:31<7:51:55,  1.37it/s]  4%|██████                                                                                                                                                                    | 1429/40080 [17:32<7:51:48,  1.37it/s]  4%|██████                                                                                                                                                                    | 1430/40080 [17:32<7:51:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5526, 'grad_norm': 2.984375, 'learning_rate': 2.4925840597538343e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2556.92, 'epoch': 0.14}
+  4%|██████                                                                                                                                                                    | 1430/40080 [17:32<7:51:42,  1.37it/s]  4%|██████                                                                                                                                                                    | 1431/40080 [17:33<7:52:02,  1.36it/s]  4%|██████                                                                                                                                                                    | 1432/40080 [17:34<7:51:12,  1.37it/s]  4%|██████                                                                                                                                                                    | 1433/40080 [17:35<7:51:21,  1.37it/s]  4%|██████                                                                                                                                                                    | 1434/40080 [17:35<7:50:37,  1.37it/s]  4%|██████                                                                                                                                                                    | 1435/40080 [17:36<7:50:53,  1.37it/s]  4%|██████                                                                                                                                                                    | 1436/40080 [17:37<7:51:03,  1.37it/s]  4%|██████                                                                                                                                                                    | 1437/40080 [17:37<7:51:18,  1.37it/s]  4%|██████                                                                                                                                                                    | 1438/40080 [17:38<7:51:29,  1.37it/s]  4%|██████                                                                                                                                                                    | 1439/40080 [17:39<7:51:38,  1.37it/s]  4%|██████                                                                                                                                                                    | 1440/40080 [17:40<7:51:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6488, 'grad_norm': 3.96875, 'learning_rate': 2.4924770019986075e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2374.16, 'epoch': 0.14}
+  4%|██████                                                                                                                                                                    | 1440/40080 [17:40<7:51:46,  1.37it/s]  4%|██████                                                                                                                                                                    | 1441/40080 [17:40<7:52:19,  1.36it/s]  4%|██████                                                                                                                                                                    | 1442/40080 [17:41<7:51:58,  1.36it/s]  4%|██████                                                                                                                                                                    | 1443/40080 [17:42<7:51:53,  1.36it/s]  4%|██████                                                                                                                                                                    | 1444/40080 [17:43<7:51:19,  1.37it/s]  4%|██████▏                                                                                                                                                                   | 1445/40080 [17:43<7:51:17,  1.37it/s]  4%|██████▏                                                                                                                                                                   | 1446/40080 [17:44<7:51:14,  1.37it/s]  4%|██████▏                                                                                                                                                                   | 1447/40080 [17:45<7:51:17,  1.37it/s]  4%|██████▏                                                                                                                                                                   | 1448/40080 [17:46<7:51:39,  1.37it/s]  4%|██████▏                                                                                                                                                                   | 1449/40080 [17:46<7:51:47,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1450/40080 [17:47<7:52:11,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5764, 'grad_norm': 3.0, 'learning_rate': 2.492369179351688e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2619.86, 'epoch': 0.14}
+  4%|██████▏                                                                                                                                                                   | 1450/40080 [17:47<7:52:11,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1451/40080 [17:48<7:53:32,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1452/40080 [17:48<7:53:40,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1453/40080 [17:49<7:53:37,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1454/40080 [17:50<7:52:29,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1455/40080 [17:51<7:52:05,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1456/40080 [17:51<7:52:21,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1457/40080 [17:52<7:51:56,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1458/40080 [17:53<7:52:10,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1459/40080 [17:54<7:52:15,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1460/40080 [17:54<7:52:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5998, 'grad_norm': 3.5625, 'learning_rate': 2.4922605918794532e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.72, 'epoch': 0.15}
+  4%|██████▏                                                                                                                                                                   | 1460/40080 [17:54<7:52:20,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1461/40080 [17:55<7:52:52,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1462/40080 [17:56<7:52:25,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1463/40080 [17:57<7:52:25,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1464/40080 [17:57<7:52:13,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1465/40080 [17:58<7:52:59,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1466/40080 [17:59<7:52:30,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1467/40080 [17:59<7:52:32,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1468/40080 [18:00<7:52:07,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1469/40080 [18:01<7:52:03,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1470/40080 [18:02<7:51:40,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5821, 'grad_norm': 4.4375, 'learning_rate': 2.4921512396487515e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2671.47, 'epoch': 0.15}
+  4%|██████▏                                                                                                                                                                   | 1470/40080 [18:02<7:51:40,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1471/40080 [18:02<7:52:11,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1472/40080 [18:03<7:52:00,  1.36it/s]  4%|██████▏                                                                                                                                                                   | 1473/40080 [18:04<7:51:51,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1474/40080 [18:05<7:51:35,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1475/40080 [18:05<7:50:54,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1476/40080 [18:06<7:51:05,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1477/40080 [18:07<7:50:59,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1478/40080 [18:08<7:50:53,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1479/40080 [18:08<7:50:53,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1480/40080 [18:09<7:50:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5923, 'grad_norm': 3.890625, 'learning_rate': 2.4920411227269026e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.97, 'epoch': 0.15}
+  4%|██████▎                                                                                                                                                                   | 1480/40080 [18:09<7:50:32,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1481/40080 [18:10<7:51:44,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1482/40080 [18:10<7:51:23,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1483/40080 [18:11<7:51:21,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1484/40080 [18:12<7:51:34,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1485/40080 [18:13<7:51:33,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1486/40080 [18:13<7:50:52,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1487/40080 [18:14<7:51:43,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1488/40080 [18:15<7:51:51,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1489/40080 [18:16<7:51:51,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1490/40080 [18:16<7:51:36,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6361, 'grad_norm': 3.75, 'learning_rate': 2.4919302411816956e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2632.79, 'epoch': 0.15}
+  4%|██████▎                                                                                                                                                                   | 1490/40080 [18:16<7:51:36,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1491/40080 [18:17<7:51:49,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1492/40080 [18:18<7:52:20,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1493/40080 [18:19<7:51:43,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1494/40080 [18:19<7:51:26,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1495/40080 [18:20<7:51:27,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1496/40080 [18:21<7:51:17,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1497/40080 [18:21<7:50:57,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1498/40080 [18:22<7:50:57,  1.37it/s]  4%|██████▎                                                                                                                                                                   | 1499/40080 [18:23<7:51:14,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1500/40080 [18:24<7:51:06,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5488, 'grad_norm': 3.640625, 'learning_rate': 2.491818595081392e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2393.86, 'epoch': 0.15}
+  4%|██████▎                                                                                                                                                                   | 1500/40080 [18:24<7:51:06,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1501/40080 [18:24<7:52:05,  1.36it/s]  4%|██████▎                                                                                                                                                                   | 1502/40080 [18:25<7:52:10,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1503/40080 [18:26<7:52:19,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1504/40080 [18:27<7:52:07,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1505/40080 [18:27<7:52:01,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1506/40080 [18:28<7:51:35,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1507/40080 [18:29<7:51:01,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1508/40080 [18:30<7:51:04,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1509/40080 [18:30<7:51:12,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1510/40080 [18:31<7:51:11,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6485, 'grad_norm': 3.671875, 'learning_rate': 2.4917061844947233e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.56, 'epoch': 0.15}
+  4%|██████▍                                                                                                                                                                   | 1510/40080 [18:31<7:51:11,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1511/40080 [18:32<7:51:53,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1512/40080 [18:32<7:51:58,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1513/40080 [18:33<7:51:35,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1514/40080 [18:34<7:51:45,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1515/40080 [18:35<7:51:52,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1516/40080 [18:35<7:50:50,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1517/40080 [18:36<7:50:49,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1518/40080 [18:37<7:50:29,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1519/40080 [18:38<7:50:07,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1520/40080 [18:38<7:50:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6288, 'grad_norm': 2.9375, 'learning_rate': 2.491593009490891e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2417.47, 'epoch': 0.15}
+  4%|██████▍                                                                                                                                                                   | 1520/40080 [18:38<7:50:21,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1521/40080 [18:39<7:50:51,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1522/40080 [18:40<7:50:28,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1523/40080 [18:41<7:50:32,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1524/40080 [18:41<7:50:06,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1525/40080 [18:42<7:50:02,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1526/40080 [18:43<7:50:24,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1527/40080 [18:43<7:50:25,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1528/40080 [18:44<7:50:35,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1529/40080 [18:45<7:50:29,  1.37it/s]  4%|██████▍                                                                                                                                                                   | 1530/40080 [18:46<7:51:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5701, 'grad_norm': 3.203125, 'learning_rate': 2.4914790701395674e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.94, 'epoch': 0.15}
+  4%|██████▍                                                                                                                                                                   | 1530/40080 [18:46<7:51:02,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1531/40080 [18:46<7:51:48,  1.36it/s]  4%|██████▍                                                                                                                                                                   | 1532/40080 [18:47<7:51:20,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1533/40080 [18:48<7:50:43,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1534/40080 [18:49<7:51:12,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1535/40080 [18:49<7:51:13,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1536/40080 [18:50<7:50:51,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1537/40080 [18:51<7:51:00,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1538/40080 [18:52<7:50:35,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1539/40080 [18:52<7:50:20,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1540/40080 [18:53<7:50:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5149, 'grad_norm': 3.53125, 'learning_rate': 2.4913643665108965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.93, 'epoch': 0.15}
+  4%|██████▌                                                                                                                                                                   | 1540/40080 [18:53<7:50:05,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1541/40080 [18:54<7:50:15,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1542/40080 [18:54<7:50:16,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1543/40080 [18:55<7:50:10,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1544/40080 [18:56<7:50:37,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1545/40080 [18:57<7:50:29,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1546/40080 [18:57<7:50:14,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1547/40080 [18:58<7:50:29,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1548/40080 [18:59<7:50:43,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1549/40080 [19:00<7:50:34,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1550/40080 [19:00<7:50:36,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5279, 'grad_norm': 3.59375, 'learning_rate': 2.4912488986754918e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.95, 'epoch': 0.15}
+  4%|██████▌                                                                                                                                                                   | 1550/40080 [19:00<7:50:36,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1551/40080 [19:01<7:51:52,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1552/40080 [19:02<7:51:36,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1553/40080 [19:03<7:51:07,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1554/40080 [19:03<7:51:07,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1555/40080 [19:04<7:50:57,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1556/40080 [19:05<7:50:49,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1557/40080 [19:05<7:50:24,  1.36it/s]  4%|██████▌                                                                                                                                                                   | 1558/40080 [19:06<7:49:56,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1559/40080 [19:07<7:49:59,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1560/40080 [19:08<7:49:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5147, 'grad_norm': 3.375, 'learning_rate': 2.4911326667044373e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2601.2, 'epoch': 0.16}
+  4%|██████▌                                                                                                                                                                   | 1560/40080 [19:08<7:49:48,  1.37it/s]  4%|██████▌                                                                                                                                                                   | 1561/40080 [19:08<7:50:10,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1562/40080 [19:09<7:50:13,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1563/40080 [19:10<7:49:58,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1564/40080 [19:11<7:50:18,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1565/40080 [19:11<7:50:24,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1566/40080 [19:12<7:50:13,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1567/40080 [19:13<7:50:34,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1568/40080 [19:13<7:50:46,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1569/40080 [19:14<7:50:21,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1570/40080 [19:15<7:50:32,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5212, 'grad_norm': 3.609375, 'learning_rate': 2.491015670669287e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2487.32, 'epoch': 0.16}
+  4%|██████▋                                                                                                                                                                   | 1570/40080 [19:15<7:50:32,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1571/40080 [19:16<7:51:24,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1572/40080 [19:16<7:50:41,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1573/40080 [19:17<7:50:44,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1574/40080 [19:18<7:50:52,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1575/40080 [19:19<7:50:24,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1576/40080 [19:19<7:50:14,  1.36it/s]  4%|██████▋                                                                                                                                                                   | 1577/40080 [19:20<7:50:06,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1578/40080 [19:21<7:49:42,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1579/40080 [19:22<7:49:38,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1580/40080 [19:22<7:49:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5706, 'grad_norm': 3.609375, 'learning_rate': 2.4908979106420665e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2673.55, 'epoch': 0.16}
+  4%|██████▋                                                                                                                                                                   | 1580/40080 [19:22<7:49:01,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1581/40080 [19:23<7:49:49,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1582/40080 [19:24<7:49:48,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1583/40080 [19:24<7:49:44,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1584/40080 [19:25<7:49:50,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1585/40080 [19:26<7:49:44,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1586/40080 [19:27<7:49:21,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1587/40080 [19:27<7:49:15,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1588/40080 [19:28<7:49:18,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1589/40080 [19:29<7:48:55,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1590/40080 [19:30<7:49:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5486, 'grad_norm': 3.28125, 'learning_rate': 2.4907793866952712e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2404.47, 'epoch': 0.16}
+  4%|██████▋                                                                                                                                                                   | 1590/40080 [19:30<7:49:14,  1.37it/s]  4%|██████▋                                                                                                                                                                   | 1591/40080 [19:30<7:49:25,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1592/40080 [19:31<7:49:06,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1593/40080 [19:32<7:49:04,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1594/40080 [19:33<7:49:09,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1595/40080 [19:33<7:49:17,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1596/40080 [19:34<7:49:20,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1597/40080 [19:35<7:50:06,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1598/40080 [19:35<7:49:37,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1599/40080 [19:36<7:49:54,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1600/40080 [19:37<7:50:31,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5771, 'grad_norm': 3.390625, 'learning_rate': 2.4906600989018657e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2514.08, 'epoch': 0.16}
+  4%|██████▊                                                                                                                                                                   | 1600/40080 [19:37<7:50:31,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1601/40080 [19:38<7:50:48,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1602/40080 [19:38<7:50:45,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1603/40080 [19:39<7:50:56,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1604/40080 [19:40<7:50:29,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1605/40080 [19:41<7:49:59,  1.36it/s]  4%|██████▊                                                                                                                                                                   | 1606/40080 [19:41<7:49:16,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1607/40080 [19:42<7:49:19,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1608/40080 [19:43<7:48:35,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1609/40080 [19:44<7:48:39,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1610/40080 [19:44<7:48:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5454, 'grad_norm': 3.21875, 'learning_rate': 2.4905400473352864e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2519.39, 'epoch': 0.16}
+  4%|██████▊                                                                                                                                                                   | 1610/40080 [19:44<7:48:19,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1611/40080 [19:45<7:49:24,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1612/40080 [19:46<7:49:23,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1613/40080 [19:46<7:49:31,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1614/40080 [19:47<7:49:27,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1615/40080 [19:48<7:49:07,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1616/40080 [19:49<7:49:06,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1617/40080 [19:49<7:48:58,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1618/40080 [19:50<7:49:04,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1619/40080 [19:51<7:49:20,  1.37it/s]  4%|██████▊                                                                                                                                                                   | 1620/40080 [19:52<7:49:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5374, 'grad_norm': 2.703125, 'learning_rate': 2.4904192320694395e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.08, 'epoch': 0.16}
+  4%|██████▊                                                                                                                                                                   | 1620/40080 [19:52<7:49:24,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1621/40080 [19:52<7:50:05,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1622/40080 [19:53<7:49:34,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1623/40080 [19:54<7:49:22,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1624/40080 [19:55<7:49:20,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1625/40080 [19:55<7:49:15,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1626/40080 [19:56<7:49:05,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1627/40080 [19:57<7:49:15,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1628/40080 [19:57<7:49:12,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1629/40080 [19:58<7:49:22,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1630/40080 [19:59<7:49:50,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6485, 'grad_norm': 3.421875, 'learning_rate': 2.4902976531787003e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2578.48, 'epoch': 0.16}
+  4%|██████▉                                                                                                                                                                   | 1630/40080 [19:59<7:49:50,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1631/40080 [20:00<7:50:28,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1632/40080 [20:00<7:49:42,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1633/40080 [20:01<7:49:12,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1634/40080 [20:02<7:48:08,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1635/40080 [20:03<7:48:42,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1636/40080 [20:03<7:50:20,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1637/40080 [20:04<7:49:20,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1638/40080 [20:05<7:49:23,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1639/40080 [20:05<7:48:39,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1640/40080 [20:06<7:49:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6222, 'grad_norm': 3.703125, 'learning_rate': 2.4901753107379157e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.14, 'epoch': 0.16}
+  4%|██████▉                                                                                                                                                                   | 1640/40080 [20:06<7:49:05,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1641/40080 [20:07<7:50:28,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1642/40080 [20:08<7:50:29,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1643/40080 [20:08<7:50:04,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1644/40080 [20:09<7:49:38,  1.36it/s]  4%|██████▉                                                                                                                                                                   | 1645/40080 [20:10<7:48:59,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1646/40080 [20:11<7:49:08,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1647/40080 [20:11<7:48:46,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1648/40080 [20:12<7:48:29,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1649/40080 [20:13<7:48:57,  1.37it/s]  4%|██████▉                                                                                                                                                                   | 1650/40080 [20:14<7:48:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5996, 'grad_norm': 3.65625, 'learning_rate': 2.490052204822402e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2496.6, 'epoch': 0.16}
+  4%|██████▉                                                                                                                                                                   | 1650/40080 [20:14<7:48:27,  1.37it/s]  4%|███████                                                                                                                                                                   | 1651/40080 [20:14<7:49:12,  1.37it/s]  4%|███████                                                                                                                                                                   | 1652/40080 [20:15<7:48:58,  1.37it/s]  4%|███████                                                                                                                                                                   | 1653/40080 [20:16<7:49:03,  1.37it/s]  4%|███████                                                                                                                                                                   | 1654/40080 [20:16<7:49:06,  1.37it/s]  4%|███████                                                                                                                                                                   | 1655/40080 [20:17<7:48:30,  1.37it/s]  4%|███████                                                                                                                                                                   | 1656/40080 [20:18<7:48:32,  1.37it/s]  4%|███████                                                                                                                                                                   | 1657/40080 [20:19<7:48:27,  1.37it/s]  4%|███████                                                                                                                                                                   | 1658/40080 [20:19<7:48:59,  1.37it/s]  4%|███████                                                                                                                                                                   | 1659/40080 [20:20<7:49:09,  1.36it/s]  4%|███████                                                                                                                                                                   | 1660/40080 [20:21<7:49:24,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5879, 'grad_norm': 2.4375, 'learning_rate': 2.489928335507945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2662.82, 'epoch': 0.17}
+  4%|███████                                                                                                                                                                   | 1660/40080 [20:21<7:49:24,  1.36it/s]  4%|███████                                                                                                                                                                   | 1661/40080 [20:22<7:50:03,  1.36it/s]  4%|███████                                                                                                                                                                   | 1662/40080 [20:22<7:49:25,  1.36it/s]  4%|███████                                                                                                                                                                   | 1663/40080 [20:23<7:49:19,  1.36it/s]  4%|███████                                                                                                                                                                   | 1664/40080 [20:24<7:48:59,  1.37it/s]  4%|███████                                                                                                                                                                   | 1665/40080 [20:25<7:49:17,  1.36it/s]  4%|███████                                                                                                                                                                   | 1666/40080 [20:25<7:49:10,  1.36it/s]  4%|███████                                                                                                                                                                   | 1667/40080 [20:26<7:49:06,  1.36it/s]  4%|███████                                                                                                                                                                   | 1668/40080 [20:27<7:48:25,  1.37it/s]  4%|███████                                                                                                                                                                   | 1669/40080 [20:27<7:48:43,  1.37it/s]  4%|███████                                                                                                                                                                   | 1670/40080 [20:28<7:48:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6386, 'grad_norm': 3.1875, 'learning_rate': 2.489803702870801e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2614.24, 'epoch': 0.17}
+  4%|███████                                                                                                                                                                   | 1670/40080 [20:28<7:48:29,  1.37it/s]  4%|███████                                                                                                                                                                   | 1671/40080 [20:29<7:48:51,  1.37it/s]  4%|███████                                                                                                                                                                   | 1672/40080 [20:30<7:48:54,  1.37it/s]  4%|███████                                                                                                                                                                   | 1673/40080 [20:30<7:48:41,  1.37it/s]  4%|███████                                                                                                                                                                   | 1674/40080 [20:31<7:48:56,  1.36it/s]  4%|███████                                                                                                                                                                   | 1675/40080 [20:32<7:49:09,  1.36it/s]  4%|███████                                                                                                                                                                   | 1676/40080 [20:33<7:48:46,  1.37it/s]  4%|███████                                                                                                                                                                   | 1677/40080 [20:33<7:48:55,  1.36it/s]  4%|███████                                                                                                                                                                   | 1678/40080 [20:34<7:49:11,  1.36it/s]  4%|███████                                                                                                                                                                   | 1679/40080 [20:35<7:49:01,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1680/40080 [20:36<7:48:57,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5964, 'grad_norm': 2.9375, 'learning_rate': 2.489678306987696e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.69, 'epoch': 0.17}
+  4%|███████▏                                                                                                                                                                  | 1680/40080 [20:36<7:48:57,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1681/40080 [20:36<7:49:48,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1682/40080 [20:37<7:49:07,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1683/40080 [20:38<7:51:25,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1684/40080 [20:38<7:50:48,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1685/40080 [20:39<7:50:10,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1686/40080 [20:40<7:49:54,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1687/40080 [20:41<7:49:00,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1688/40080 [20:41<7:50:42,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1689/40080 [20:42<7:54:21,  1.35it/s]  4%|███████▏                                                                                                                                                                  | 1690/40080 [20:43<7:54:30,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5447, 'grad_norm': 3.015625, 'learning_rate': 2.489552147935827e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2481.65, 'epoch': 0.17}
+  4%|███████▏                                                                                                                                                                  | 1690/40080 [20:43<7:54:30,  1.35it/s]  4%|███████▏                                                                                                                                                                  | 1691/40080 [20:44<7:53:13,  1.35it/s]  4%|███████▏                                                                                                                                                                  | 1692/40080 [20:44<7:51:17,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1693/40080 [20:45<7:50:27,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1694/40080 [20:46<7:49:59,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1695/40080 [20:47<7:49:13,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1696/40080 [20:47<7:49:19,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1697/40080 [20:48<7:48:54,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1698/40080 [20:49<7:48:57,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1699/40080 [20:49<7:49:01,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1700/40080 [20:50<7:48:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6053, 'grad_norm': 3.0625, 'learning_rate': 2.4894252257928585e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2515.55, 'epoch': 0.17}
+  4%|███████▏                                                                                                                                                                  | 1700/40080 [20:50<7:48:22,  1.37it/s]  4%|███████▏                                                                                                                                                                  | 1701/40080 [20:51<7:49:04,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1702/40080 [20:52<7:48:49,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1703/40080 [20:52<7:48:49,  1.36it/s]  4%|███████▏                                                                                                                                                                  | 1704/40080 [20:53<7:48:33,  1.37it/s]  4%|███████▏                                                                                                                                                                  | 1705/40080 [20:54<7:48:10,  1.37it/s]  4%|███████▏                                                                                                                                                                  | 1706/40080 [20:55<7:48:28,  1.37it/s]  4%|███████▏                                                                                                                                                                  | 1707/40080 [20:55<7:48:30,  1.37it/s]  4%|███████▏                                                                                                                                                                  | 1708/40080 [20:56<7:48:25,  1.37it/s]  4%|███████▏                                                                                                                                                                  | 1709/40080 [20:57<7:48:00,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1710/40080 [20:58<7:47:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4786, 'grad_norm': 2.1875, 'learning_rate': 2.489297540636927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2383.9, 'epoch': 0.17}
+  4%|███████▎                                                                                                                                                                  | 1710/40080 [20:58<7:47:35,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1711/40080 [20:58<7:48:08,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1712/40080 [20:59<7:48:36,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1713/40080 [21:00<7:48:38,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1714/40080 [21:00<7:48:48,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1715/40080 [21:01<7:48:18,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1716/40080 [21:02<7:47:23,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1717/40080 [21:03<7:48:09,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1718/40080 [21:03<7:48:29,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1719/40080 [21:04<7:49:03,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1720/40080 [21:05<7:49:01,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6433, 'grad_norm': 3.625, 'learning_rate': 2.4891690925466372e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2585.35, 'epoch': 0.17}
+  4%|███████▎                                                                                                                                                                  | 1720/40080 [21:05<7:49:01,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1721/40080 [21:06<7:50:00,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1722/40080 [21:06<7:49:18,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1723/40080 [21:07<7:48:58,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1724/40080 [21:08<7:48:14,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1725/40080 [21:09<7:48:12,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1726/40080 [21:09<7:48:17,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1727/40080 [21:10<7:47:58,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1728/40080 [21:11<7:48:06,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1729/40080 [21:11<7:47:56,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1730/40080 [21:12<7:47:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5149, 'grad_norm': 3.359375, 'learning_rate': 2.4890398816010646e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2446.56, 'epoch': 0.17}
+  4%|███████▎                                                                                                                                                                  | 1730/40080 [21:12<7:47:41,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1731/40080 [21:13<7:48:20,  1.36it/s]  4%|███████▎                                                                                                                                                                  | 1732/40080 [21:14<7:47:28,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1733/40080 [21:14<7:47:46,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1734/40080 [21:15<7:46:45,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1735/40080 [21:16<7:46:55,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1736/40080 [21:17<7:47:10,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1737/40080 [21:17<7:47:29,  1.37it/s]  4%|███████▎                                                                                                                                                                  | 1738/40080 [21:18<7:47:40,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1739/40080 [21:19<7:46:58,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1740/40080 [21:20<7:47:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6383, 'grad_norm': 3.984375, 'learning_rate': 2.4889099078797536e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2516.58, 'epoch': 0.17}
+  4%|███████▍                                                                                                                                                                  | 1740/40080 [21:20<7:47:19,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1741/40080 [21:20<7:47:36,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1742/40080 [21:21<7:47:50,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1743/40080 [21:22<7:48:53,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1744/40080 [21:22<7:48:58,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1745/40080 [21:23<7:50:23,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1746/40080 [21:24<7:52:51,  1.35it/s]  4%|███████▍                                                                                                                                                                  | 1747/40080 [21:25<7:54:38,  1.35it/s]  4%|███████▍                                                                                                                                                                  | 1748/40080 [21:25<7:55:41,  1.34it/s]  4%|███████▍                                                                                                                                                                  | 1749/40080 [21:26<7:51:56,  1.35it/s]  4%|███████▍                                                                                                                                                                  | 1750/40080 [21:27<7:50:33,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5973, 'grad_norm': 3.5, 'learning_rate': 2.4887791714627187e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.41, 'epoch': 0.17}
+  4%|███████▍                                                                                                                                                                  | 1750/40080 [21:27<7:50:33,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1751/40080 [21:28<7:49:55,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1752/40080 [21:28<7:48:20,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1753/40080 [21:30<9:15:14,  1.15it/s]  4%|███████▍                                                                                                                                                                  | 1754/40080 [21:30<8:49:13,  1.21it/s]  4%|███████▍                                                                                                                                                                  | 1755/40080 [21:31<8:30:37,  1.25it/s]  4%|███████▍                                                                                                                                                                  | 1756/40080 [21:32<8:17:47,  1.28it/s]  4%|███████▍                                                                                                                                                                  | 1757/40080 [21:32<8:08:18,  1.31it/s]  4%|███████▍                                                                                                                                                                  | 1758/40080 [21:33<8:01:20,  1.33it/s]  4%|███████▍                                                                                                                                                                  | 1759/40080 [21:34<7:56:10,  1.34it/s]  4%|███████▍                                                                                                                                                                  | 1760/40080 [21:35<7:52:45,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5347, 'grad_norm': 3.015625, 'learning_rate': 2.4886476724304433e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2347.78, 'epoch': 0.18}
+  4%|███████▍                                                                                                                                                                  | 1760/40080 [21:35<7:52:45,  1.35it/s]  4%|███████▍                                                                                                                                                                  | 1761/40080 [21:35<7:50:21,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1762/40080 [21:36<7:48:41,  1.36it/s]  4%|███████▍                                                                                                                                                                  | 1763/40080 [21:37<7:47:30,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1764/40080 [21:38<7:47:43,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1765/40080 [21:38<7:47:06,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1766/40080 [21:39<7:46:07,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1767/40080 [21:40<7:45:47,  1.37it/s]  4%|███████▍                                                                                                                                                                  | 1768/40080 [21:40<7:45:28,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1769/40080 [21:41<7:45:03,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1770/40080 [21:42<7:45:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5402, 'grad_norm': 3.625, 'learning_rate': 2.4885154108638807e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.88, 'epoch': 0.18}
+  4%|███████▌                                                                                                                                                                  | 1770/40080 [21:42<7:45:06,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1771/40080 [21:43<7:45:33,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1772/40080 [21:43<7:44:45,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1773/40080 [21:44<7:44:17,  1.38it/s]  4%|███████▌                                                                                                                                                                  | 1774/40080 [21:45<7:44:27,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1775/40080 [21:46<7:44:56,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1776/40080 [21:46<7:44:38,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1777/40080 [21:47<7:45:18,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1778/40080 [21:48<7:45:24,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1779/40080 [21:49<7:45:29,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1780/40080 [21:49<7:45:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6241, 'grad_norm': 3.40625, 'learning_rate': 2.4883823868444538e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.43, 'epoch': 0.18}
+  4%|███████▌                                                                                                                                                                  | 1780/40080 [21:49<7:45:09,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1781/40080 [21:50<7:46:02,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1782/40080 [21:51<7:45:19,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1783/40080 [21:51<7:45:42,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1784/40080 [21:52<7:45:37,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1785/40080 [21:53<7:45:52,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1786/40080 [21:54<7:45:11,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1787/40080 [21:54<7:45:09,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1788/40080 [21:55<7:45:32,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1789/40080 [21:56<7:45:25,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1790/40080 [21:57<7:45:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5148, 'grad_norm': 2.984375, 'learning_rate': 2.4882486004540547e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2737.7, 'epoch': 0.18}
+  4%|███████▌                                                                                                                                                                  | 1790/40080 [21:57<7:45:42,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1791/40080 [21:57<7:47:13,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1792/40080 [21:58<7:47:06,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1793/40080 [21:59<7:46:49,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1794/40080 [21:59<7:46:56,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1795/40080 [22:00<7:46:44,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1796/40080 [22:01<7:46:48,  1.37it/s]  4%|███████▌                                                                                                                                                                  | 1797/40080 [22:02<7:47:26,  1.37it/s]  4%|███████▋                                                                                                                                                                  | 1798/40080 [22:02<7:46:46,  1.37it/s]  4%|███████▋                                                                                                                                                                  | 1799/40080 [22:03<7:48:08,  1.36it/s]  4%|███████▋                                                                                                                                                                  | 1800/40080 [22:04<7:50:31,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5942, 'grad_norm': 3.75, 'learning_rate': 2.4881140517750438e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.88, 'epoch': 0.18}
+  4%|███████▋                                                                                                                                                                  | 1800/40080 [22:04<7:50:31,  1.36it/s]  4%|███████▋                                                                                                                                                                  | 1801/40080 [22:05<7:51:27,  1.35it/s]  4%|███████▋                                                                                                                                                                  | 1802/40080 [22:05<7:55:46,  1.34it/s]  4%|███████▋                                                                                                                                                                  | 1803/40080 [22:06<7:57:53,  1.33it/s]  5%|███████▋                                                                                                                                                                  | 1804/40080 [22:07<7:59:35,  1.33it/s]  5%|███████▋                                                                                                                                                                  | 1805/40080 [22:08<8:00:20,  1.33it/s]  5%|███████▋                                                                                                                                                                  | 1806/40080 [22:08<8:01:20,  1.33it/s]  5%|███████▋                                                                                                                                                                  | 1807/40080 [22:09<8:01:04,  1.33it/s]  5%|███████▋                                                                                                                                                                  | 1808/40080 [22:10<8:02:14,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1809/40080 [22:11<8:02:31,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1810/40080 [22:11<8:03:20,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.5466, 'grad_norm': 2.71875, 'learning_rate': 2.4879787408902526e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2383.25, 'epoch': 0.18}
+  5%|███████▋                                                                                                                                                                  | 1810/40080 [22:11<8:03:20,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1811/40080 [22:12<8:04:04,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1812/40080 [22:13<8:04:06,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1813/40080 [22:14<8:03:17,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1814/40080 [22:14<8:02:41,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1815/40080 [22:15<8:02:53,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1816/40080 [22:16<8:03:09,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1817/40080 [22:17<8:03:19,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1818/40080 [22:17<8:02:07,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1819/40080 [22:18<8:01:46,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1820/40080 [22:19<8:02:53,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.6014, 'grad_norm': 3.921875, 'learning_rate': 2.4878426678829812e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2401.83, 'epoch': 0.18}
+  5%|███████▋                                                                                                                                                                  | 1820/40080 [22:19<8:02:53,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1821/40080 [22:20<8:04:26,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1822/40080 [22:21<8:05:15,  1.31it/s]  5%|███████▋                                                                                                                                                                  | 1823/40080 [22:21<8:05:33,  1.31it/s]  5%|███████▋                                                                                                                                                                  | 1824/40080 [22:22<8:03:57,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1825/40080 [22:23<8:02:13,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1826/40080 [22:24<8:02:55,  1.32it/s]  5%|███████▋                                                                                                                                                                  | 1827/40080 [22:24<8:02:08,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1828/40080 [22:25<8:01:45,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1829/40080 [22:26<8:01:14,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1830/40080 [22:27<8:01:24,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.4986, 'grad_norm': 3.859375, 'learning_rate': 2.4877058328369982e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2600.69, 'epoch': 0.18}
+  5%|███████▊                                                                                                                                                                  | 1830/40080 [22:27<8:01:24,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1831/40080 [22:27<8:02:21,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1832/40080 [22:28<8:02:19,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1833/40080 [22:29<8:02:06,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1834/40080 [22:30<8:02:15,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1835/40080 [22:30<8:01:54,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1836/40080 [22:31<8:01:32,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1837/40080 [22:32<8:01:42,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1838/40080 [22:33<8:02:10,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1839/40080 [22:33<8:01:41,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1840/40080 [22:34<8:01:41,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.6434, 'grad_norm': 4.15625, 'learning_rate': 2.4875682358365414e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2398.51, 'epoch': 0.18}
+  5%|███████▊                                                                                                                                                                  | 1840/40080 [22:34<8:01:41,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1841/40080 [22:35<8:02:01,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1842/40080 [22:36<8:01:45,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1843/40080 [22:36<8:01:18,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1844/40080 [22:37<8:01:19,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1845/40080 [22:38<8:02:23,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1846/40080 [22:39<8:05:17,  1.31it/s]  5%|███████▊                                                                                                                                                                  | 1847/40080 [22:39<8:05:35,  1.31it/s]  5%|███████▊                                                                                                                                                                  | 1848/40080 [22:40<8:04:16,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1849/40080 [22:41<8:05:01,  1.31it/s]  5%|███████▊                                                                                                                                                                  | 1850/40080 [22:42<8:05:52,  1.31it/s]                                                                                                                                                                                                                      {'loss': 0.5426, 'grad_norm': 3.515625, 'learning_rate': 2.487429876966319e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2544.1, 'epoch': 0.18}
+  5%|███████▊                                                                                                                                                                  | 1850/40080 [22:42<8:05:52,  1.31it/s]  5%|███████▊                                                                                                                                                                  | 1851/40080 [22:43<8:06:51,  1.31it/s]  5%|███████▊                                                                                                                                                                  | 1852/40080 [22:43<8:10:52,  1.30it/s]  5%|███████▊                                                                                                                                                                  | 1853/40080 [22:44<8:07:06,  1.31it/s]  5%|███████▊                                                                                                                                                                  | 1854/40080 [22:45<8:04:33,  1.31it/s]  5%|███████▊                                                                                                                                                                  | 1855/40080 [22:46<8:02:48,  1.32it/s]  5%|███████▊                                                                                                                                                                  | 1856/40080 [22:46<7:59:36,  1.33it/s]  5%|███████▉                                                                                                                                                                  | 1857/40080 [22:47<7:55:11,  1.34it/s]  5%|███████▉                                                                                                                                                                  | 1858/40080 [22:48<7:51:43,  1.35it/s]  5%|███████▉                                                                                                                                                                  | 1859/40080 [22:48<7:48:55,  1.36it/s]  5%|███████▉                                                                                                                                                                  | 1860/40080 [22:49<7:47:01,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6276, 'grad_norm': 4.1875, 'learning_rate': 2.4872907563115065e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.1, 'epoch': 0.19}
+  5%|███████▉                                                                                                                                                                  | 1860/40080 [22:49<7:47:01,  1.36it/s]  5%|███████▉                                                                                                                                                                  | 1861/40080 [22:50<7:47:15,  1.36it/s]  5%|███████▉                                                                                                                                                                  | 1862/40080 [22:51<7:46:41,  1.36it/s]  5%|███████▉                                                                                                                                                                  | 1863/40080 [22:51<7:45:35,  1.37it/s]  5%|███████▉                                                                                                                                                                  | 1864/40080 [22:52<7:51:42,  1.35it/s]  5%|███████▉                                                                                                                                                                  | 1865/40080 [22:53<7:54:02,  1.34it/s]  5%|███████▉                                                                                                                                                                  | 1866/40080 [22:54<7:55:43,  1.34it/s]  5%|███████▉                                                                                                                                                                  | 1867/40080 [22:54<7:57:04,  1.33it/s]  5%|███████▉                                                                                                                                                                  | 1868/40080 [22:55<7:57:29,  1.33it/s]  5%|███████▉                                                                                                                                                                  | 1869/40080 [22:56<7:53:19,  1.35it/s]  5%|███████▉                                                                                                                                                                  | 1870/40080 [22:57<7:50:29,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5667, 'grad_norm': 3.625, 'learning_rate': 2.4871508739577493e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2557.67, 'epoch': 0.19}
+  5%|███████▉                                                                                                                                                                  | 1870/40080 [22:57<7:50:29,  1.35it/s]  5%|███████▉                                                                                                                                                                  | 1871/40080 [22:57<7:48:57,  1.36it/s]  5%|███████▉                                                                                                                                                                  | 1872/40080 [22:58<7:47:27,  1.36it/s]  5%|███████▉                                                                                                                                                                  | 1873/40080 [22:59<7:45:47,  1.37it/s]  5%|███████▉                                                                                                                                                                  | 1874/40080 [23:00<7:45:12,  1.37it/s]  5%|███████▉                                                                                                                                                                  | 1875/40080 [23:00<7:44:25,  1.37it/s]  5%|███████▉                                                                                                                                                                  | 1876/40080 [23:01<7:43:40,  1.37it/s]  5%|███████▉                                                                                                                                                                  | 1877/40080 [23:02<7:46:21,  1.37it/s]  5%|███████▉                                                                                                                                                                  | 1878/40080 [23:02<7:50:50,  1.35it/s]  5%|███████▉                                                                                                                                                                  | 1879/40080 [23:03<7:55:15,  1.34it/s]  5%|███████▉                                                                                                                                                                  | 1880/40080 [23:04<7:56:52,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.5737, 'grad_norm': 3.84375, 'learning_rate': 2.487010229991162e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.57, 'epoch': 0.19}
+  5%|███████▉                                                                                                                                                                  | 1880/40080 [23:04<7:56:52,  1.34it/s]  5%|███████▉                                                                                                                                                                  | 1881/40080 [23:05<7:58:28,  1.33it/s]  5%|███████▉                                                                                                                                                                  | 1882/40080 [23:06<7:58:55,  1.33it/s]  5%|███████▉                                                                                                                                                                  | 1883/40080 [23:06<8:03:40,  1.32it/s]  5%|███████▉                                                                                                                                                                  | 1884/40080 [23:07<8:02:09,  1.32it/s]  5%|███████▉                                                                                                                                                                  | 1885/40080 [23:08<7:59:05,  1.33it/s]  5%|███████▉                                                                                                                                                                  | 1886/40080 [23:09<7:56:45,  1.34it/s]  5%|████████                                                                                                                                                                  | 1887/40080 [23:09<7:54:10,  1.34it/s]  5%|████████                                                                                                                                                                  | 1888/40080 [23:10<7:53:43,  1.34it/s]  5%|████████                                                                                                                                                                  | 1889/40080 [23:11<7:53:29,  1.34it/s]  5%|████████                                                                                                                                                                  | 1890/40080 [23:11<7:53:26,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.5918, 'grad_norm': 3.21875, 'learning_rate': 2.486868824498327e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2489.78, 'epoch': 0.19}
+  5%|████████                                                                                                                                                                  | 1890/40080 [23:11<7:53:26,  1.34it/s]  5%|████████                                                                                                                                                                  | 1891/40080 [23:12<7:53:03,  1.35it/s]  5%|████████                                                                                                                                                                  | 1892/40080 [23:13<7:52:29,  1.35it/s]  5%|████████                                                                                                                                                                  | 1893/40080 [23:14<7:51:15,  1.35it/s]  5%|████████                                                                                                                                                                  | 1894/40080 [23:14<7:50:11,  1.35it/s]  5%|████████                                                                                                                                                                  | 1895/40080 [23:15<7:49:13,  1.36it/s]  5%|████████                                                                                                                                                                  | 1896/40080 [23:16<7:49:19,  1.36it/s]  5%|████████                                                                                                                                                                  | 1897/40080 [23:17<7:48:56,  1.36it/s]  5%|████████                                                                                                                                                                  | 1898/40080 [23:17<7:49:34,  1.36it/s]  5%|████████                                                                                                                                                                  | 1899/40080 [23:18<7:49:57,  1.35it/s]  5%|████████                                                                                                                                                                  | 1900/40080 [23:19<7:49:36,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5501, 'grad_norm': 3.15625, 'learning_rate': 2.486726657566296e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2461.71, 'epoch': 0.19}
+  5%|████████                                                                                                                                                                  | 1900/40080 [23:19<7:49:36,  1.36it/s]  5%|████████                                                                                                                                                                  | 1901/40080 [23:20<7:49:08,  1.36it/s]  5%|████████                                                                                                                                                                  | 1902/40080 [23:20<7:49:12,  1.36it/s]  5%|████████                                                                                                                                                                  | 1903/40080 [23:21<7:49:20,  1.36it/s]  5%|████████                                                                                                                                                                  | 1904/40080 [23:22<7:49:00,  1.36it/s]  5%|████████                                                                                                                                                                  | 1905/40080 [23:23<7:48:10,  1.36it/s]  5%|████████                                                                                                                                                                  | 1906/40080 [23:23<7:47:32,  1.36it/s]  5%|████████                                                                                                                                                                  | 1907/40080 [23:24<7:47:47,  1.36it/s]  5%|████████                                                                                                                                                                  | 1908/40080 [23:25<7:47:17,  1.36it/s]  5%|████████                                                                                                                                                                  | 1909/40080 [23:25<7:47:03,  1.36it/s]  5%|████████                                                                                                                                                                  | 1910/40080 [23:26<7:47:26,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5414, 'grad_norm': 2.859375, 'learning_rate': 2.48658372928259e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.67, 'epoch': 0.19}
+  5%|████████                                                                                                                                                                  | 1910/40080 [23:26<7:47:26,  1.36it/s]  5%|████████                                                                                                                                                                  | 1911/40080 [23:27<7:48:12,  1.36it/s]  5%|████████                                                                                                                                                                  | 1912/40080 [23:28<7:47:57,  1.36it/s]  5%|████████                                                                                                                                                                  | 1913/40080 [23:28<7:47:14,  1.36it/s]  5%|████████                                                                                                                                                                  | 1914/40080 [23:29<7:47:09,  1.36it/s]  5%|████████                                                                                                                                                                  | 1915/40080 [23:30<7:47:11,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1916/40080 [23:31<7:46:56,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1917/40080 [23:31<7:46:39,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1918/40080 [23:32<7:46:41,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1919/40080 [23:33<7:46:27,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1920/40080 [23:34<7:47:03,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6109, 'grad_norm': 2.828125, 'learning_rate': 2.4864400397351987e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2425.32, 'epoch': 0.19}
+  5%|████████▏                                                                                                                                                                 | 1920/40080 [23:34<7:47:03,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1921/40080 [23:34<7:47:39,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1922/40080 [23:35<7:47:41,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1923/40080 [23:36<7:47:41,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1924/40080 [23:37<7:47:43,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1925/40080 [23:37<7:47:21,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1926/40080 [23:38<7:47:54,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1927/40080 [23:39<7:47:45,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1928/40080 [23:39<7:47:29,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1929/40080 [23:40<7:46:51,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1930/40080 [23:41<7:47:22,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5343, 'grad_norm': 2.640625, 'learning_rate': 2.486295589012579e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2601.42, 'epoch': 0.19}
+  5%|████████▏                                                                                                                                                                 | 1930/40080 [23:41<7:47:22,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1931/40080 [23:42<7:47:46,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1932/40080 [23:42<7:47:48,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1933/40080 [23:43<7:47:55,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1934/40080 [23:44<7:47:26,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1935/40080 [23:45<7:47:27,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1936/40080 [23:45<7:46:53,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1937/40080 [23:46<7:49:07,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1938/40080 [23:47<7:47:56,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1939/40080 [23:48<7:46:50,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1940/40080 [23:48<7:47:49,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6402, 'grad_norm': 4.4375, 'learning_rate': 2.4861503772036583e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2407.81, 'epoch': 0.19}
+  5%|████████▏                                                                                                                                                                 | 1940/40080 [23:48<7:47:49,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1941/40080 [23:49<7:48:47,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1942/40080 [23:50<7:47:05,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1943/40080 [23:50<7:45:40,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1944/40080 [23:51<7:45:42,  1.36it/s]  5%|████████▏                                                                                                                                                                 | 1945/40080 [23:52<7:45:58,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1946/40080 [23:53<7:45:33,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1947/40080 [23:53<7:45:39,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1948/40080 [23:54<7:45:26,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1949/40080 [23:55<7:47:46,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1950/40080 [23:56<7:46:40,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5227, 'grad_norm': 2.75, 'learning_rate': 2.4860044043978316e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2604.35, 'epoch': 0.19}
+  5%|████████▎                                                                                                                                                                 | 1950/40080 [23:56<7:46:40,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1951/40080 [23:56<7:46:02,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1952/40080 [23:57<7:45:19,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1953/40080 [23:58<7:45:12,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1954/40080 [23:59<7:45:42,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1955/40080 [23:59<7:46:59,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1956/40080 [24:00<7:45:46,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1957/40080 [24:01<7:45:51,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1958/40080 [24:01<7:45:52,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1959/40080 [24:02<7:45:44,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1960/40080 [24:03<7:45:44,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5519, 'grad_norm': 3.640625, 'learning_rate': 2.485857670684962e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2780.31, 'epoch': 0.2}
+  5%|████████▎                                                                                                                                                                 | 1960/40080 [24:03<7:45:44,  1.36it/s]  5%|█████���██▎                                                                                                                                                                 | 1961/40080 [24:04<7:45:49,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1962/40080 [24:04<7:45:42,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1963/40080 [24:05<7:43:51,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1964/40080 [24:06<7:44:44,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1965/40080 [24:07<7:45:12,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1966/40080 [24:07<7:45:18,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1967/40080 [24:08<7:45:20,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1968/40080 [24:09<7:45:31,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1969/40080 [24:10<7:45:22,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1970/40080 [24:10<7:45:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5742, 'grad_norm': 4.15625, 'learning_rate': 2.485710176155381e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2571.81, 'epoch': 0.2}
+  5%|████████▎                                                                                                                                                                 | 1970/40080 [24:10<7:45:06,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1971/40080 [24:11<7:45:29,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1972/40080 [24:12<7:45:25,  1.36it/s]  5%|████████▎                                                                                                                                                                 | 1973/40080 [24:12<7:45:11,  1.37it/s]  5%|████████▎                                                                                                                                                                 | 1974/40080 [24:13<7:44:41,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1975/40080 [24:14<7:44:26,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1976/40080 [24:15<7:43:35,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1977/40080 [24:15<7:43:50,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1978/40080 [24:16<7:43:50,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1979/40080 [24:17<7:44:04,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1980/40080 [24:18<7:44:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6111, 'grad_norm': 2.375, 'learning_rate': 2.4855619208998903e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.79, 'epoch': 0.2}
+  5%|████████▍                                                                                                                                                                 | 1980/40080 [24:18<7:44:53,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1981/40080 [24:18<7:45:12,  1.36it/s]  5%|████████▍                                                                                                                                                                 | 1982/40080 [24:19<7:44:51,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1983/40080 [24:20<7:44:01,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1984/40080 [24:21<7:43:53,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1985/40080 [24:21<7:43:45,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1986/40080 [24:22<7:44:12,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1987/40080 [24:23<7:43:50,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1988/40080 [24:23<7:44:12,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1989/40080 [24:24<7:43:45,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1990/40080 [24:25<7:43:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5201, 'grad_norm': 3.0625, 'learning_rate': 2.4854129050097573e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2591.12, 'epoch': 0.2}
+  5%|████████▍                                                                                                                                                                 | 1990/40080 [24:25<7:43:54,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1991/40080 [24:26<7:44:10,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1992/40080 [24:26<7:43:50,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1993/40080 [24:27<7:43:55,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1994/40080 [24:28<7:44:21,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1995/40080 [24:29<7:44:47,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1996/40080 [24:29<7:43:57,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1997/40080 [24:30<7:43:36,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1998/40080 [24:31<7:43:38,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 1999/40080 [24:31<7:43:27,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 2000/40080 [24:32<7:43:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5301, 'grad_norm': 2.953125, 'learning_rate': 2.48526312857672e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2482.81, 'epoch': 0.2}
+  5%|████████▍                                                                                                                                                                 | 2000/40080 [24:32<7:43:15,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 2001/40080 [24:33<7:44:02,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 2002/40080 [24:34<7:43:38,  1.37it/s]  5%|████████▍                                                                                                                                                                 | 2003/40080 [24:34<7:43:25,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2004/40080 [24:35<7:43:55,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2005/40080 [24:36<7:43:07,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2006/40080 [24:37<7:43:03,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2007/40080 [24:37<7:43:08,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2008/40080 [24:38<7:42:57,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2009/40080 [24:39<7:43:10,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2010/40080 [24:39<7:43:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6424, 'grad_norm': 2.90625, 'learning_rate': 2.485112591692983e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2546.7, 'epoch': 0.2}
+  5%|████████▌                                                                                                                                                                 | 2010/40080 [24:40<7:43:23,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2011/40080 [24:40<7:43:37,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2012/40080 [24:41<7:42:59,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2013/40080 [24:42<7:43:25,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2014/40080 [24:42<7:44:09,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2015/40080 [24:43<7:43:36,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2016/40080 [24:44<7:43:51,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2017/40080 [24:45<7:44:06,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2018/40080 [24:45<7:43:47,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2019/40080 [24:46<7:43:32,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2020/40080 [24:47<7:43:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6543, 'grad_norm': 3.46875, 'learning_rate': 2.4849612944512192e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2591.4, 'epoch': 0.2}
+  5%|████████▌                                                                                                                                                                 | 2020/40080 [24:47<7:43:41,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2021/40080 [24:48<7:44:17,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2022/40080 [24:48<7:44:17,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2023/40080 [24:49<7:44:15,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2024/40080 [24:50<7:43:07,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2025/40080 [24:50<7:42:31,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2026/40080 [24:51<7:42:40,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2027/40080 [24:52<7:43:08,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2028/40080 [24:53<7:43:43,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2029/40080 [24:53<7:44:07,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2030/40080 [24:54<7:43:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5653, 'grad_norm': 3.671875, 'learning_rate': 2.4848092369445704e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2582.03, 'epoch': 0.2}
+  5%|████████▌                                                                                                                                                                 | 2030/40080 [24:54<7:43:07,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2031/40080 [24:55<7:43:47,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2032/40080 [24:56<7:44:02,  1.37it/s]  5%|████████▌                                                                                                                                                                 | 2033/40080 [24:56<7:43:40,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2034/40080 [24:57<7:43:34,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2035/40080 [24:58<7:43:10,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2036/40080 [24:59<7:43:17,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2037/40080 [24:59<7:43:04,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2038/40080 [25:00<7:43:08,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2039/40080 [25:01<7:42:37,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2040/40080 [25:01<7:43:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5981, 'grad_norm': 3.6875, 'learning_rate': 2.484656419266646e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2614.81, 'epoch': 0.2}
+  5%|████████▋                                                                                                                                                                 | 2040/40080 [25:01<7:43:23,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2041/40080 [25:02<7:43:36,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2042/40080 [25:03<7:43:42,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2043/40080 [25:04<7:43:38,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2044/40080 [25:04<7:43:46,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2045/40080 [25:05<7:43:14,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2046/40080 [25:06<7:42:50,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2047/40080 [25:07<7:41:55,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2048/40080 [25:07<7:42:24,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2049/40080 [25:08<7:42:55,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2050/40080 [25:09<7:42:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5306, 'grad_norm': 3.078125, 'learning_rate': 2.4845028415115235e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2352.58, 'epoch': 0.2}
+  5%|████████▋                                                                                                                                                                 | 2050/40080 [25:09<7:42:17,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2051/40080 [25:09<7:42:55,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2052/40080 [25:10<7:42:44,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2053/40080 [25:11<7:42:07,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2054/40080 [25:12<7:42:37,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2055/40080 [25:12<7:42:13,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2056/40080 [25:13<7:42:41,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2057/40080 [25:14<7:42:15,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2058/40080 [25:15<7:43:09,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2059/40080 [25:15<7:42:41,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2060/40080 [25:16<7:42:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5991, 'grad_norm': 4.25, 'learning_rate': 2.4843485037737475e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.53, 'epoch': 0.21}
+  5%|████████▋                                                                                                                                                                 | 2060/40080 [25:16<7:42:58,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2061/40080 [25:17<7:43:40,  1.37it/s]  5%|████████▋                                                                                                                                                                 | 2062/40080 [25:17<7:43:05,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2063/40080 [25:18<7:43:06,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2064/40080 [25:19<7:43:30,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2065/40080 [25:20<7:42:50,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2066/40080 [25:20<7:42:03,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2067/40080 [25:21<7:42:25,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2068/40080 [25:22<7:42:03,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2069/40080 [25:23<7:42:27,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2070/40080 [25:23<7:42:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5581, 'grad_norm': 3.25, 'learning_rate': 2.4841934061483323e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2418.01, 'epoch': 0.21}
+  5%|████████▊                                                                                                                                                                 | 2070/40080 [25:23<7:42:38,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2071/40080 [25:24<7:43:00,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2072/40080 [25:25<7:41:32,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2073/40080 [25:26<7:41:29,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2074/40080 [25:26<7:40:57,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2075/40080 [25:27<7:41:15,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2076/40080 [25:28<7:41:20,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2077/40080 [25:28<7:41:59,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2078/40080 [25:29<7:42:28,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2079/40080 [25:30<7:42:06,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2080/40080 [25:31<7:41:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5648, 'grad_norm': 4.0, 'learning_rate': 2.4840375487307577e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.28, 'epoch': 0.21}
+  5%|████████▊                                                                                                                                                                 | 2080/40080 [25:31<7:41:51,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2081/40080 [25:31<7:42:13,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2082/40080 [25:32<7:42:40,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2083/40080 [25:33<7:42:42,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2084/40080 [25:34<7:42:08,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2085/40080 [25:34<7:43:01,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2086/40080 [25:35<7:42:51,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2087/40080 [25:36<7:42:34,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2088/40080 [25:36<7:42:27,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2089/40080 [25:37<7:42:13,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2090/40080 [25:38<7:42:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5762, 'grad_norm': 3.3125, 'learning_rate': 2.483880931616973e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.31, 'epoch': 0.21}
+  5%|████████▊                                                                                                                                                                 | 2090/40080 [25:38<7:42:23,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2091/40080 [25:39<7:42:45,  1.37it/s]  5%|████████▊                                                                                                                                                                 | 2092/40080 [25:39<7:42:58,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2093/40080 [25:40<7:42:02,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2094/40080 [25:41<7:42:07,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2095/40080 [25:42<7:42:13,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2096/40080 [25:42<7:43:02,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2097/40080 [25:43<7:43:00,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2098/40080 [25:44<7:42:50,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2099/40080 [25:45<7:43:29,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2100/40080 [25:45<7:42:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4791, 'grad_norm': 3.234375, 'learning_rate': 2.4837235549033945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2445.48, 'epoch': 0.21}
+  5%|████████▉                                                                                                                                                                 | 2100/40080 [25:45<7:42:22,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2101/40080 [25:46<7:42:43,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2102/40080 [25:47<7:42:41,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2103/40080 [25:47<7:42:22,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2104/40080 [25:48<7:42:43,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2105/40080 [25:49<7:42:41,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2106/40080 [25:50<7:43:08,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2107/40080 [25:50<7:42:21,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2108/40080 [25:51<7:42:10,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2109/40080 [25:52<7:42:27,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2110/40080 [25:53<7:41:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5677, 'grad_norm': 2.921875, 'learning_rate': 2.4835654186869062e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.8, 'epoch': 0.21}
+  5%|████████▉                                                                                                                                                                 | 2110/40080 [25:53<7:41:41,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2111/40080 [25:53<7:42:03,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2112/40080 [25:54<7:41:51,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2113/40080 [25:55<7:41:31,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2114/40080 [25:55<7:42:20,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2115/40080 [25:56<7:42:40,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2116/40080 [25:57<7:42:47,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2117/40080 [25:58<7:42:36,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2118/40080 [25:58<7:42:45,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2119/40080 [25:59<7:43:25,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2120/40080 [26:00<7:42:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6072, 'grad_norm': 3.09375, 'learning_rate': 2.4834065230648597e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.96, 'epoch': 0.21}
+  5%|████████▉                                                                                                                                                                 | 2120/40080 [26:00<7:42:51,  1.37it/s]  5%|████████▉                                                                                                                                                                 | 2121/40080 [26:01<7:43:35,  1.36it/s]  5%|█████████                                                                                                                                                                 | 2122/40080 [26:01<7:43:52,  1.36it/s]  5%|█████████                                                                                                                                                                 | 2123/40080 [26:02<7:43:35,  1.36it/s]  5%|█████████                                                                                                                                                                 | 2124/40080 [26:03<7:42:48,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2125/40080 [26:04<7:42:21,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2126/40080 [26:04<7:42:38,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2127/40080 [26:05<7:41:53,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2128/40080 [26:06<7:42:11,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2129/40080 [26:06<7:41:31,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2130/40080 [26:07<7:42:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5429, 'grad_norm': 3.171875, 'learning_rate': 2.483246868135074e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2587.14, 'epoch': 0.21}
+  5%|█████████                                                                                                                                                                 | 2130/40080 [26:07<7:42:47,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2131/40080 [26:08<7:44:25,  1.36it/s]  5%|█████████                                                                                                                                                                 | 2132/40080 [26:09<7:44:39,  1.36it/s]  5%|█████████                                                                                                                                                                 | 2133/40080 [26:09<7:43:56,  1.36it/s]  5%|█████████                                                                                                                                                                 | 2134/40080 [26:10<7:43:31,  1.36it/s]  5%|█████████                                                                                                                                                                 | 2135/40080 [26:11<7:42:25,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2136/40080 [26:12<7:41:55,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2137/40080 [26:12<7:42:00,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2138/40080 [26:13<7:41:57,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2139/40080 [26:14<7:41:38,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2140/40080 [26:14<7:41:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5612, 'grad_norm': 3.28125, 'learning_rate': 2.4830864539958355e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2380.99, 'epoch': 0.21}
+  5%|█████████                                                                                                                                                                 | 2140/40080 [26:14<7:41:52,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2141/40080 [26:15<7:42:33,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2142/40080 [26:16<7:42:36,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2143/40080 [26:17<7:42:11,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2144/40080 [26:17<7:42:34,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2145/40080 [26:18<7:42:20,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2146/40080 [26:19<7:41:45,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2147/40080 [26:20<7:42:40,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2148/40080 [26:20<7:42:47,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2149/40080 [26:21<7:42:33,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2150/40080 [26:22<7:41:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6179, 'grad_norm': 2.8125, 'learning_rate': 2.482925280745898e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.96, 'epoch': 0.21}
+  5%|█████████                                                                                                                                                                 | 2150/40080 [26:22<7:41:47,  1.37it/s]  5%|█████████                                                                                                                                                                 | 2151/40080 [26:23<7:42:23,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2152/40080 [26:23<7:42:24,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2153/40080 [26:24<7:42:21,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2154/40080 [26:25<7:42:11,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2155/40080 [26:25<7:41:19,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2156/40080 [26:26<7:41:21,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2157/40080 [26:27<7:41:16,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2158/40080 [26:28<7:41:18,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2159/40080 [26:28<7:41:26,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2160/40080 [26:29<7:41:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5553, 'grad_norm': 3.46875, 'learning_rate': 2.482763348484483e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2334.48, 'epoch': 0.22}
+  5%|█████████▏                                                                                                                                                                | 2160/40080 [26:29<7:41:57,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2161/40080 [26:30<7:43:27,  1.36it/s]  5%|█████████▏                                                                                                                                                                | 2162/40080 [26:31<7:43:06,  1.36it/s]  5%|█████████▏                                                                                                                                                                | 2163/40080 [26:31<7:42:26,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2164/40080 [26:32<7:42:33,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2165/40080 [26:33<7:42:12,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2166/40080 [26:34<7:42:10,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2167/40080 [26:34<7:41:53,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2168/40080 [26:35<7:41:39,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2169/40080 [26:36<7:40:49,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2170/40080 [26:36<7:40:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5549, 'grad_norm': 3.765625, 'learning_rate': 2.482600657311279e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2617.39, 'epoch': 0.22}
+  5%|█████████▏                                                                                                                                                                | 2170/40080 [26:36<7:40:10,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2171/40080 [26:37<7:41:02,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2172/40080 [26:38<7:41:02,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2173/40080 [26:39<7:41:32,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2174/40080 [26:39<7:42:05,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2175/40080 [26:40<7:41:27,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2176/40080 [26:41<7:40:36,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2177/40080 [26:42<7:40:54,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2178/40080 [26:42<7:40:13,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2179/40080 [26:43<7:41:01,  1.37it/s]  5%|█████████▏                                                                                                                                                                | 2180/40080 [26:44<7:41:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6127, 'grad_norm': 3.546875, 'learning_rate': 2.482437207326442e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2305.99, 'epoch': 0.22}
+  5%|█████████▏                                                                                                                                                                | 2180/40080 [26:44<7:41:06,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2181/40080 [26:44<7:41:41,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2182/40080 [26:45<7:41:03,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2183/40080 [26:46<7:41:16,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2184/40080 [26:47<7:41:27,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2185/40080 [26:47<7:41:18,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2186/40080 [26:48<7:40:49,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2187/40080 [26:49<7:41:42,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2188/40080 [26:50<7:41:39,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2189/40080 [26:50<7:41:41,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2190/40080 [26:51<7:42:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6552, 'grad_norm': 3.546875, 'learning_rate': 2.4822729986305938e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2493.51, 'epoch': 0.22}
+  5%|█████████▎                                                                                                                                                                | 2190/40080 [26:51<7:42:02,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2191/40080 [26:52<7:42:25,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2192/40080 [26:52<7:42:05,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2193/40080 [26:53<7:41:19,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2194/40080 [26:54<7:41:18,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2195/40080 [26:55<7:41:22,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2196/40080 [26:55<7:41:10,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2197/40080 [26:56<7:41:38,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2198/40080 [26:57<7:42:04,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2199/40080 [26:58<7:41:52,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2200/40080 [26:58<7:41:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5893, 'grad_norm': 4.0, 'learning_rate': 2.482108031324825e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.39, 'epoch': 0.22}
+  5%|█████████▎                                                                                                                                                                | 2200/40080 [26:58<7:41:15,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2201/40080 [26:59<7:42:09,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2202/40080 [27:00<7:41:44,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2203/40080 [27:01<7:41:42,  1.37it/s]  5%|█████████▎                                                                                                                                                                | 2204/40080 [27:01<7:41:28,  1.37it/s]  6%|█████████▎                                                                                                                                                                | 2205/40080 [27:02<7:41:28,  1.37it/s]  6%|█████████▎                                                                                                                                                                | 2206/40080 [27:03<7:41:10,  1.37it/s]  6%|█████████▎                                                                                                                                                                | 2207/40080 [27:03<7:41:08,  1.37it/s]  6%|█████████▎                                                                                                                                                                | 2208/40080 [27:04<7:41:22,  1.37it/s]  6%|█████████▎                                                                                                                                                                | 2209/40080 [27:05<7:41:10,  1.37it/s]  6%|█████████▎                                                                                                                                                                | 2210/40080 [27:06<7:40:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6117, 'grad_norm': 3.8125, 'learning_rate': 2.4819423055106925e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2556.14, 'epoch': 0.22}
+  6%|█████████▎                                                                                                                                                                | 2210/40080 [27:06<7:40:20,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2211/40080 [27:06<7:41:08,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2212/40080 [27:07<7:41:09,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2213/40080 [27:08<7:41:30,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2214/40080 [27:09<7:41:44,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2215/40080 [27:09<7:41:28,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2216/40080 [27:10<7:41:16,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2217/40080 [27:11<7:41:40,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2218/40080 [27:11<7:42:12,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2219/40080 [27:12<7:42:17,  1.36it/s]  6%|█████████▍                                                                                                                                                                | 2220/40080 [27:13<7:43:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5668, 'grad_norm': 3.5625, 'learning_rate': 2.48177582129022e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.64, 'epoch': 0.22}
+  6%|█████████▍                                                                                                                                                                | 2220/40080 [27:13<7:43:02,  1.36it/s]  6%|█████████▍                                                                                                                                                                | 2221/40080 [27:14<7:43:03,  1.36it/s]  6%|█████████▍                                                                                                                                                                | 2222/40080 [27:14<7:42:41,  1.36it/s]  6%|█████████▍                                                                                                                                                                | 2223/40080 [27:15<7:42:24,  1.36it/s]  6%|█████████▍                                                                                                                                                                | 2224/40080 [27:16<7:41:51,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2225/40080 [27:17<7:42:06,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2226/40080 [27:17<7:41:58,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2227/40080 [27:18<7:42:35,  1.36it/s]  6%|█████████▍                                                                                                                                                                | 2228/40080 [27:19<7:41:41,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2229/40080 [27:20<7:41:09,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2230/40080 [27:20<7:40:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5064, 'grad_norm': 3.515625, 'learning_rate': 2.4816085787658984e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.2, 'epoch': 0.22}
+  6%|█████████▍                                                                                                                                                                | 2230/40080 [27:20<7:40:31,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2231/40080 [27:21<7:40:07,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2232/40080 [27:22<7:40:56,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2233/40080 [27:22<7:40:19,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2234/40080 [27:23<7:41:09,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2235/40080 [27:24<7:40:52,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2236/40080 [27:25<7:41:10,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2237/40080 [27:25<7:40:43,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2238/40080 [27:26<7:40:26,  1.37it/s]  6%|█████████▍                                                                                                                                                                | 2239/40080 [27:27<7:40:32,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2240/40080 [27:28<7:41:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5623, 'grad_norm': 2.375, 'learning_rate': 2.4814405780406848e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.99, 'epoch': 0.22}
+  6%|█████████▌                                                                                                                                                                | 2240/40080 [27:28<7:41:06,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2241/40080 [27:28<7:42:12,  1.36it/s]  6%|█████████▌                                                                                                                                                                | 2242/40080 [27:29<7:41:13,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2243/40080 [27:30<7:40:18,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2244/40080 [27:31<7:40:47,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2245/40080 [27:31<7:40:47,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2246/40080 [27:32<7:41:05,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2247/40080 [27:33<7:41:53,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2248/40080 [27:33<7:41:37,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2249/40080 [27:34<7:41:18,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2250/40080 [27:35<7:40:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6047, 'grad_norm': 3.34375, 'learning_rate': 2.4812718192180042e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.11, 'epoch': 0.22}
+  6%|█████████▌                                                                                                                                                                | 2250/40080 [27:35<7:40:41,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2251/40080 [27:36<7:41:03,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2252/40080 [27:36<7:40:47,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2253/40080 [27:37<7:40:01,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2254/40080 [27:38<7:40:47,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2255/40080 [27:39<7:40:59,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2256/40080 [27:39<7:40:41,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2257/40080 [27:40<7:40:04,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2258/40080 [27:41<7:40:28,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2259/40080 [27:41<7:40:11,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2260/40080 [27:42<7:40:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5582, 'grad_norm': 3.546875, 'learning_rate': 2.4811023024017473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2468.31, 'epoch': 0.23}
+  6%|█████████▌                                                                                                                                                                | 2260/40080 [27:42<7:40:15,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2261/40080 [27:43<7:40:04,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2262/40080 [27:44<7:39:07,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2263/40080 [27:44<7:39:34,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2264/40080 [27:45<7:40:27,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2265/40080 [27:46<7:39:49,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2266/40080 [27:47<7:40:23,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2267/40080 [27:47<7:40:52,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2268/40080 [27:48<7:40:37,  1.37it/s]  6%|█████████▌                                                                                                                                                                | 2269/40080 [27:49<7:40:46,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2270/40080 [27:50<7:40:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5309, 'grad_norm': 2.984375, 'learning_rate': 2.4809320276962722e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.65, 'epoch': 0.23}
+  6%|█████████▋                                                                                                                                                                | 2270/40080 [27:50<7:40:33,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2271/40080 [27:50<7:41:04,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2272/40080 [27:51<7:40:41,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2273/40080 [27:52<7:40:39,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2274/40080 [27:52<7:40:40,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2275/40080 [27:53<7:40:01,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2276/40080 [27:54<7:39:03,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2277/40080 [27:55<7:40:08,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2278/40080 [27:55<7:39:24,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2279/40080 [27:56<7:38:56,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2280/40080 [27:57<7:39:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5235, 'grad_norm': 2.5, 'learning_rate': 2.480760995206402e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.38, 'epoch': 0.23}
+  6%|█████████▋                                                                                                                                                                | 2280/40080 [27:57<7:39:43,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2281/40080 [27:58<7:40:39,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2282/40080 [27:58<7:40:01,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2283/40080 [27:59<7:40:39,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2284/40080 [28:00<7:40:19,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2285/40080 [28:00<7:39:27,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2286/40080 [28:01<7:39:52,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2287/40080 [28:02<7:39:16,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2288/40080 [28:03<7:39:14,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2289/40080 [28:03<7:38:42,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2290/40080 [28:04<7:39:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5618, 'grad_norm': 2.84375, 'learning_rate': 2.4805892050374287e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2366.07, 'epoch': 0.23}
+  6%|█████████▋                                                                                                                                                                | 2290/40080 [28:04<7:39:29,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2291/40080 [28:05<7:40:40,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2292/40080 [28:06<7:40:45,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2293/40080 [28:06<7:40:56,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2294/40080 [28:07<7:41:31,  1.36it/s]  6%|█████████▋                                                                                                                                                                | 2295/40080 [28:08<7:41:11,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2296/40080 [28:09<7:40:29,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2297/40080 [28:09<7:40:04,  1.37it/s]  6%|█████████▋                                                                                                                                                                | 2298/40080 [28:10<7:40:35,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2299/40080 [28:11<7:40:46,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2300/40080 [28:11<7:40:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5765, 'grad_norm': 3.34375, 'learning_rate': 2.480416657295109e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.47, 'epoch': 0.23}
+  6%|█████████▊                                                                                                                                                                | 2300/40080 [28:11<7:40:51,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2301/40080 [28:12<7:41:30,  1.36it/s]  6%|█████████▊                                                                                                                                                                | 2302/40080 [28:13<7:41:09,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2303/40080 [28:14<7:40:34,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2304/40080 [28:14<7:40:30,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2305/40080 [28:15<7:40:29,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2306/40080 [28:16<7:40:29,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2307/40080 [28:17<7:39:46,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2308/40080 [28:17<7:38:49,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2309/40080 [28:18<7:38:36,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2310/40080 [28:19<7:39:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5606, 'grad_norm': 3.234375, 'learning_rate': 2.480243352085666e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2415.0, 'epoch': 0.23}
+  6%|█████████▊                                                                                                                                                                | 2310/40080 [28:19<7:39:18,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2311/40080 [28:19<7:39:42,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2312/40080 [28:20<7:39:51,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2313/40080 [28:21<7:40:30,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2314/40080 [28:22<7:41:05,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2315/40080 [28:22<7:40:13,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2316/40080 [28:23<7:40:20,  1.37it/s]  6%|█████��███▊                                                                                                                                                                | 2317/40080 [28:24<7:40:06,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2318/40080 [28:25<7:39:58,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2319/40080 [28:25<7:39:19,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2320/40080 [28:26<7:39:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5314, 'grad_norm': 3.03125, 'learning_rate': 2.4800692895157906e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2506.95, 'epoch': 0.23}
+  6%|█████████▊                                                                                                                                                                | 2320/40080 [28:26<7:39:30,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2321/40080 [28:27<7:39:49,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2322/40080 [28:28<7:40:13,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2323/40080 [28:28<7:39:29,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2324/40080 [28:29<7:39:42,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2325/40080 [28:30<7:38:47,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2326/40080 [28:30<7:39:44,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2327/40080 [28:31<7:40:02,  1.37it/s]  6%|█████████▊                                                                                                                                                                | 2328/40080 [28:32<7:40:11,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2329/40080 [28:33<7:40:01,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2330/40080 [28:33<7:39:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5777, 'grad_norm': 3.171875, 'learning_rate': 2.479894469692638e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2500.61, 'epoch': 0.23}
+  6%|█████████▉                                                                                                                                                                | 2330/40080 [28:33<7:39:48,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2331/40080 [28:34<7:40:13,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2332/40080 [28:35<7:40:01,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2333/40080 [28:36<7:40:18,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2334/40080 [28:36<7:40:09,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2335/40080 [28:37<7:40:14,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2336/40080 [28:38<7:40:19,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2337/40080 [28:38<7:40:37,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2338/40080 [28:39<7:40:07,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2339/40080 [28:40<8:52:25,  1.18it/s]  6%|█████████▉                                                                                                                                                                | 2340/40080 [28:41<8:30:05,  1.23it/s]                                                                                                                                                                                                                      {'loss': 0.6, 'grad_norm': 4.78125, 'learning_rate': 2.479718892723831e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.16, 'epoch': 0.23}
+  6%|█████████▉                                                                                                                                                                | 2340/40080 [28:41<8:30:05,  1.23it/s]  6%|█████████▉                                                                                                                                                                | 2341/40080 [28:42<8:15:14,  1.27it/s]  6%|█████████▉                                                                                                                                                                | 2342/40080 [28:43<8:03:35,  1.30it/s]  6%|█████████▉                                                                                                                                                                | 2343/40080 [28:43<7:56:06,  1.32it/s]  6%|█████████▉                                                                                                                                                                | 2344/40080 [28:44<7:51:21,  1.33it/s]  6%|█████████▉                                                                                                                                                                | 2345/40080 [28:45<7:48:01,  1.34it/s]  6%|█████████▉                                                                                                                                                                | 2346/40080 [28:45<7:45:57,  1.35it/s]  6%|█████████▉                                                                                                                                                                | 2347/40080 [28:46<7:44:10,  1.35it/s]  6%|█████████▉                                                                                                                                                                | 2348/40080 [28:47<7:43:01,  1.36it/s]  6%|█████████▉                                                                                                                                                                | 2349/40080 [28:48<7:43:38,  1.36it/s]  6%|█████████▉                                                                                                                                                                | 2350/40080 [28:48<7:42:07,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5407, 'grad_norm': 4.28125, 'learning_rate': 2.4795425587174574e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.73, 'epoch': 0.23}
+  6%|█████████▉                                                                                                                                                                | 2350/40080 [28:48<7:42:07,  1.36it/s]  6%|█████████▉                                                                                                                                                                | 2351/40080 [28:49<7:42:02,  1.36it/s]  6%|█████████▉                                                                                                                                                                | 2352/40080 [28:50<7:41:45,  1.36it/s]  6%|█████████▉                                                                                                                                                                | 2353/40080 [28:51<7:41:07,  1.36it/s]  6%|█████████▉                                                                                                                                                                | 2354/40080 [28:51<7:40:07,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2355/40080 [28:52<7:39:49,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2356/40080 [28:53<7:39:33,  1.37it/s]  6%|█████████▉                                                                                                                                                                | 2357/40080 [28:53<7:38:17,  1.37it/s]  6%|██████████                                                                                                                                                                | 2358/40080 [28:54<7:38:21,  1.37it/s]  6%|██████████                                                                                                                                                                | 2359/40080 [28:55<7:39:11,  1.37it/s]  6%|██████████                                                                                                                                                                | 2360/40080 [28:56<7:39:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5298, 'grad_norm': 3.21875, 'learning_rate': 2.479365467782073e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2617.39, 'epoch': 0.24}
+  6%|██████████                                                                                                                                                                | 2360/40080 [28:56<7:39:02,  1.37it/s]  6%|██████████                                                                                                                                                                | 2361/40080 [28:56<7:39:43,  1.37it/s]  6%|██████████                                                                                                                                                                | 2362/40080 [28:57<7:38:45,  1.37it/s]  6%|██████████                                                                                                                                                                | 2363/40080 [28:58<7:38:33,  1.37it/s]  6%|██████████                                                                                                                                                                | 2364/40080 [28:59<7:38:55,  1.37it/s]  6%|██████████                                                                                                                                                                | 2365/40080 [28:59<7:38:09,  1.37it/s]  6%|██████████                                                                                                                                                                | 2366/40080 [29:00<7:37:54,  1.37it/s]  6%|██████████                                                                                                                                                                | 2367/40080 [29:01<7:37:51,  1.37it/s]  6%|██████████                                                                                                                                                                | 2368/40080 [29:02<7:38:18,  1.37it/s]  6%|██████████                                                                                                                                                                | 2369/40080 [29:02<7:38:26,  1.37it/s]  6%|██████████                                                                                                                                                                | 2370/40080 [29:03<7:38:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5561, 'grad_norm': 2.859375, 'learning_rate': 2.4791876200266968e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2614.95, 'epoch': 0.24}
+  6%|██████████                                                                                                                                                                | 2370/40080 [29:03<7:38:21,  1.37it/s]  6%|██████████                                                                                                                                                                | 2371/40080 [29:04<7:39:01,  1.37it/s]  6%|██████████                                                                                                                                                                | 2372/40080 [29:04<7:38:49,  1.37it/s]  6%|██████████                                                                                                                                                                | 2373/40080 [29:05<7:38:15,  1.37it/s]  6%|██████████                                                                                                                                                                | 2374/40080 [29:06<7:38:43,  1.37it/s]  6%|██████████                                                                                                                                                                | 2375/40080 [29:07<7:38:42,  1.37it/s]  6%|██████████                                                                                                                                                                | 2376/40080 [29:07<7:38:08,  1.37it/s]  6%|██████████                                                                                                                                                                | 2377/40080 [29:08<7:37:59,  1.37it/s]  6%|██████████                                                                                                                                                                | 2378/40080 [29:09<7:38:01,  1.37it/s]  6%|██████████                                                                                                                                                                | 2379/40080 [29:10<7:38:15,  1.37it/s]  6%|██████████                                                                                                                                                                | 2380/40080 [29:10<7:37:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5084, 'grad_norm': 4.15625, 'learning_rate': 2.4790090155608156e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2559.15, 'epoch': 0.24}
+  6%|██████████                                                                                                                                                                | 2380/40080 [29:10<7:37:45,  1.37it/s]  6%|██████████                                                                                                                                                                | 2381/40080 [29:11<7:38:30,  1.37it/s]  6%|██████████                                                                                                                                                                | 2382/40080 [29:12<7:38:27,  1.37it/s]  6%|██████████                                                                                                                                                                | 2383/40080 [29:12<7:38:45,  1.37it/s]  6%|██████████                                                                                                                                                                | 2384/40080 [29:13<7:38:01,  1.37it/s]  6%|██████████                                                                                                                                                                | 2385/40080 [29:14<7:38:15,  1.37it/s]  6%|██████████                                                                                                                                                                | 2386/40080 [29:15<7:38:19,  1.37it/s]  6%|██████████                                                                                                                                                                | 2387/40080 [29:15<7:38:41,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2388/40080 [29:16<7:38:05,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2389/40080 [29:17<7:37:42,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2390/40080 [29:18<7:38:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5153, 'grad_norm': 3.4375, 'learning_rate': 2.4788296544943817e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.4, 'epoch': 0.24}
+  6%|██████████▏                                                                                                                                                               | 2390/40080 [29:18<7:38:01,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2391/40080 [29:18<7:38:52,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2392/40080 [29:19<7:39:05,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2393/40080 [29:20<7:39:33,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2394/40080 [29:20<7:39:26,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2395/40080 [29:21<7:39:04,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2396/40080 [29:22<7:39:01,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2397/40080 [29:23<7:39:19,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2398/40080 [29:23<7:39:05,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2399/40080 [29:24<7:38:44,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2400/40080 [29:25<7:38:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6032, 'grad_norm': 3.453125, 'learning_rate': 2.4786495369378133e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2505.49, 'epoch': 0.24}
+  6%|██████████▏                                                                                                                                                               | 2400/40080 [29:25<7:38:16,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2401/40080 [29:26<7:38:48,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2402/40080 [29:26<7:38:36,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2403/40080 [29:27<7:38:29,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2404/40080 [29:28<7:38:45,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2405/40080 [29:29<7:38:02,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2406/40080 [29:29<7:37:30,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2407/40080 [29:30<7:37:59,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2408/40080 [29:31<7:37:31,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2409/40080 [29:31<7:36:59,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2410/40080 [29:32<7:38:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5533, 'grad_norm': 2.625, 'learning_rate': 2.4784686630019937e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2484.77, 'epoch': 0.24}
+  6%|██████████▏                                                                                                                                                               | 2410/40080 [29:32<7:38:03,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2411/40080 [29:33<7:38:48,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2412/40080 [29:34<7:38:28,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2413/40080 [29:34<7:37:53,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2414/40080 [29:35<7:38:42,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2415/40080 [29:36<7:38:42,  1.37it/s]  6%|██████████▏                                                                                                                                                               | 2416/40080 [29:37<7:38:27,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2417/40080 [29:37<7:38:02,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2418/40080 [29:38<7:37:49,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2419/40080 [29:39<7:37:54,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2420/40080 [29:39<7:37:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5331, 'grad_norm': 2.875, 'learning_rate': 2.4782870327982725e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2469.52, 'epoch': 0.24}
+  6%|██████████▎                                                                                                                                                               | 2420/40080 [29:39<7:37:39,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2421/40080 [29:40<7:38:20,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2422/40080 [29:41<7:37:40,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2423/40080 [29:42<7:38:11,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2424/40080 [29:42<7:37:58,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2425/40080 [29:43<7:38:05,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2426/40080 [29:44<7:37:58,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2427/40080 [29:45<7:37:30,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2428/40080 [29:45<7:37:51,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2429/40080 [29:46<7:38:21,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2430/40080 [29:47<7:38:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5613, 'grad_norm': 2.828125, 'learning_rate': 2.4781046464384642e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2516.75, 'epoch': 0.24}
+  6%|██████████▎                                                                                                                                                               | 2430/40080 [29:47<7:38:16,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2431/40080 [29:47<7:39:09,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2432/40080 [29:48<7:39:47,  1.36it/s]  6%|██████████▎                                                                                                                                                               | 2433/40080 [29:49<7:41:18,  1.36it/s]  6%|██████████▎                                                                                                                                                               | 2434/40080 [29:50<7:40:52,  1.36it/s]  6%|██████████▎                                                                                                                                                               | 2435/40080 [29:50<7:40:50,  1.36it/s]  6%|██████████▎                                                                                                                                                               | 2436/40080 [29:51<7:40:13,  1.36it/s]  6%|██████████▎                                                                                                                                                               | 2437/40080 [29:52<7:39:16,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2438/40080 [29:53<7:39:25,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2439/40080 [29:53<7:38:09,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2440/40080 [29:54<7:37:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5527, 'grad_norm': 3.21875, 'learning_rate': 2.47792150403485e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2431.34, 'epoch': 0.24}
+  6%|██████████▎                                                                                                                                                               | 2440/40080 [29:54<7:37:37,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2441/40080 [29:55<7:37:40,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2442/40080 [29:56<7:37:49,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2443/40080 [29:56<7:37:52,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2444/40080 [29:57<7:38:25,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2445/40080 [29:58<7:38:14,  1.37it/s]  6%|██████████▎                                                                                                                                                               | 2446/40080 [29:58<7:38:52,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2447/40080 [29:59<7:38:35,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2448/40080 [30:00<7:38:53,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2449/40080 [30:01<7:38:32,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2450/40080 [30:01<7:38:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.581, 'grad_norm': 2.921875, 'learning_rate': 2.4777376057001745e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.71, 'epoch': 0.24}
+  6%|██████████▍                                                                                                                                                               | 2450/40080 [30:01<7:38:51,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2451/40080 [30:02<7:39:17,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2452/40080 [30:03<7:38:42,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2453/40080 [30:04<7:38:44,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2454/40080 [30:04<7:39:11,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2455/40080 [30:05<7:38:36,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2456/40080 [30:06<7:38:32,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2457/40080 [30:07<7:38:05,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2458/40080 [30:07<7:38:23,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2459/40080 [30:08<7:38:07,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2460/40080 [30:09<7:37:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6167, 'grad_norm': 2.609375, 'learning_rate': 2.47755295154765e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2585.06, 'epoch': 0.25}
+  6%|██████████▍                                                                                                                                                               | 2460/40080 [30:09<7:37:46,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2461/40080 [30:09<7:38:06,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2462/40080 [30:10<7:37:46,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2463/40080 [30:11<7:36:51,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2464/40080 [30:12<7:36:36,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2465/40080 [30:12<7:36:51,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2466/40080 [30:13<7:37:07,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2467/40080 [30:14<7:37:21,  1.37it/s]  6%|███████���██▍                                                                                                                                                               | 2468/40080 [30:15<7:37:36,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2469/40080 [30:15<7:38:29,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2470/40080 [30:16<7:37:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5701, 'grad_norm': 2.515625, 'learning_rate': 2.477367541690952e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2515.99, 'epoch': 0.25}
+  6%|██████████▍                                                                                                                                                               | 2470/40080 [30:16<7:37:42,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2471/40080 [30:17<7:38:18,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2472/40080 [30:17<7:37:51,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2473/40080 [30:18<7:37:29,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2474/40080 [30:19<7:37:19,  1.37it/s]  6%|██████████▍                                                                                                                                                               | 2475/40080 [30:20<7:37:31,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2476/40080 [30:20<7:39:53,  1.36it/s]  6%|██████████▌                                                                                                                                                               | 2477/40080 [30:21<7:39:07,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2478/40080 [30:22<7:38:40,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2479/40080 [30:23<7:37:30,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2480/40080 [30:23<7:37:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5737, 'grad_norm': 3.171875, 'learning_rate': 2.4771813762442235e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.7, 'epoch': 0.25}
+  6%|██████████▌                                                                                                                                                               | 2480/40080 [30:23<7:37:15,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2481/40080 [30:24<7:37:28,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2482/40080 [30:25<7:36:52,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2483/40080 [30:25<7:35:44,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2484/40080 [30:26<7:36:06,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2485/40080 [30:27<7:36:27,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2486/40080 [30:28<7:35:59,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2487/40080 [30:28<7:35:54,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2488/40080 [30:29<7:35:54,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2489/40080 [30:30<7:36:11,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2490/40080 [30:31<7:36:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6068, 'grad_norm': 3.640625, 'learning_rate': 2.4769944553220703e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.39, 'epoch': 0.25}
+  6%|██████████▌                                                                                                                                                               | 2490/40080 [30:31<7:36:27,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2491/40080 [30:31<7:37:08,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2492/40080 [30:32<7:37:24,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2493/40080 [30:33<7:36:59,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2494/40080 [30:34<7:36:50,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2495/40080 [30:34<7:36:45,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2496/40080 [30:35<7:36:13,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2497/40080 [30:36<7:35:48,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2498/40080 [30:36<7:35:58,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2499/40080 [30:37<7:35:28,  1.38it/s]  6%|██████████▌                                                                                                                                                               | 2500/40080 [30:38<7:35:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6001, 'grad_norm': 3.375, 'learning_rate': 2.4768067790395646e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.88, 'epoch': 0.25}
+  6%|██████████▌                                                                                                                                                               | 2500/40080 [30:38<7:35:47,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2501/40080 [30:39<7:37:01,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2502/40080 [30:39<7:36:43,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2503/40080 [30:40<7:37:33,  1.37it/s]  6%|██████████▌                                                                                                                                                               | 2504/40080 [30:41<7:37:25,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2505/40080 [30:42<7:37:21,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2506/40080 [30:42<7:36:30,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2507/40080 [30:43<7:36:15,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2508/40080 [30:44<7:36:44,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2509/40080 [30:44<7:36:33,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2510/40080 [30:45<7:37:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.569, 'grad_norm': 3.984375, 'learning_rate': 2.476618347512244e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2493.93, 'epoch': 0.25}
+  6%|██████████▋                                                                                                                                                               | 2510/40080 [30:45<7:37:00,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2511/40080 [30:46<7:37:48,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2512/40080 [30:47<7:37:25,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2513/40080 [30:47<7:37:29,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2514/40080 [30:48<7:36:53,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2515/40080 [30:49<7:36:52,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2516/40080 [30:50<7:36:11,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2517/40080 [30:50<7:35:59,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2518/40080 [30:51<7:35:52,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2519/40080 [30:52<7:36:21,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2520/40080 [30:52<7:36:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5648, 'grad_norm': 3.265625, 'learning_rate': 2.4764291608561095e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2446.04, 'epoch': 0.25}
+  6%|██████████▋                                                                                                                                                               | 2520/40080 [30:52<7:36:28,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2521/40080 [30:53<7:36:30,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2522/40080 [30:54<7:35:53,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2523/40080 [30:55<7:35:41,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2524/40080 [30:55<7:34:58,  1.38it/s]  6%|██████████▋                                                                                                                                                               | 2525/40080 [30:56<7:35:50,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2526/40080 [30:57<7:36:15,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2527/40080 [30:58<7:36:30,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2528/40080 [30:58<7:35:59,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2529/40080 [30:59<7:35:47,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2530/40080 [31:00<7:36:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6216, 'grad_norm': 3.390625, 'learning_rate': 2.4762392191876283e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.36, 'epoch': 0.25}
+  6%|██████████▋                                                                                                                                                               | 2530/40080 [31:00<7:36:29,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2531/40080 [31:00<7:36:49,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2532/40080 [31:01<7:36:55,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2533/40080 [31:02<7:36:42,  1.37it/s]  6%|██████████▋                                                                                                                                                               | 2534/40080 [31:03<7:37:38,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2535/40080 [31:03<7:38:12,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2536/40080 [31:04<7:38:28,  1.36it/s]  6%|██████████▊                                                                                                                                                               | 2537/40080 [31:05<7:37:34,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2538/40080 [31:06<7:36:52,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2539/40080 [31:06<7:36:24,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2540/40080 [31:07<7:36:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5765, 'grad_norm': 3.953125, 'learning_rate': 2.476048522623732e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2344.68, 'epoch': 0.25}
+  6%|██████████▊                                                                                                                                                               | 2540/40080 [31:07<7:36:04,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2541/40080 [31:08<7:37:04,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2542/40080 [31:09<7:37:07,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2543/40080 [31:09<7:36:33,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2544/40080 [31:10<7:36:50,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2545/40080 [31:11<7:36:24,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2546/40080 [31:11<7:35:56,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2547/40080 [31:12<7:36:03,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2548/40080 [31:13<7:36:46,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2549/40080 [31:14<7:36:04,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2550/40080 [31:14<7:35:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.61, 'grad_norm': 3.1875, 'learning_rate': 2.475857071281817e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2457.85, 'epoch': 0.25}
+  6%|██████████▊                                                                                                                                                               | 2550/40080 [31:14<7:35:59,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2551/40080 [31:15<7:37:06,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2552/40080 [31:16<7:36:10,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2553/40080 [31:17<7:35:44,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2554/40080 [31:17<7:35:52,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2555/40080 [31:18<7:35:40,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2556/40080 [31:19<7:36:01,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2557/40080 [31:19<7:35:44,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2558/40080 [31:20<7:36:14,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2559/40080 [31:21<7:36:40,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2560/40080 [31:22<7:35:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5853, 'grad_norm': 4.4375, 'learning_rate': 2.475664865279744e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2481.59, 'epoch': 0.26}
+  6%|██████████▊                                                                                                                                                               | 2560/40080 [31:22<7:35:38,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2561/40080 [31:22<7:35:38,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2562/40080 [31:23<7:36:25,  1.37it/s]  6%|██████████▊                                                                                                                                                               | 2563/40080 [31:24<7:36:24,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2564/40080 [31:25<7:36:43,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2565/40080 [31:25<7:36:23,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2566/40080 [31:26<7:35:57,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2567/40080 [31:27<7:35:56,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2568/40080 [31:27<7:35:58,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2569/40080 [31:28<7:35:58,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2570/40080 [31:29<7:36:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.681, 'grad_norm': 4.21875, 'learning_rate': 2.475471904735839e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.86, 'epoch': 0.26}
+  6%|██████████▉                                                                                                                                                               | 2570/40080 [31:29<7:36:28,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2571/40080 [31:30<7:36:02,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2572/40080 [31:30<7:36:49,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2573/40080 [31:31<7:36:25,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2574/40080 [31:32<7:37:06,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2575/40080 [31:33<7:37:32,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2576/40080 [31:33<7:37:32,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2577/40080 [31:34<7:37:24,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2578/40080 [31:35<7:36:59,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2579/40080 [31:36<7:36:44,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2580/40080 [31:36<7:36:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6177, 'grad_norm': 4.46875, 'learning_rate': 2.4752781897688915e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2472.65, 'epoch': 0.26}
+  6%|██████████▉                                                                                                                                                               | 2580/40080 [31:36<7:36:16,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2581/40080 [31:37<7:37:03,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2582/40080 [31:38<7:36:40,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2583/40080 [31:38<7:36:38,  1.37it/s]  6%|████��█████▉                                                                                                                                                               | 2584/40080 [31:39<7:36:21,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2585/40080 [31:40<7:36:15,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2586/40080 [31:41<7:36:25,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2587/40080 [31:41<7:36:06,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2588/40080 [31:42<7:35:55,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2589/40080 [31:43<7:35:56,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2590/40080 [31:44<7:36:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6154, 'grad_norm': 2.53125, 'learning_rate': 2.4750837204981565e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2493.07, 'epoch': 0.26}
+  6%|██████████▉                                                                                                                                                               | 2590/40080 [31:44<7:36:10,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2591/40080 [31:44<7:36:35,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2592/40080 [31:45<7:36:00,  1.37it/s]  6%|██████████▉                                                                                                                                                               | 2593/40080 [31:46<7:35:51,  1.37it/s]  6%|███████████                                                                                                                                                               | 2594/40080 [31:46<7:36:08,  1.37it/s]  6%|███████████                                                                                                                                                               | 2595/40080 [31:47<7:36:07,  1.37it/s]  6%|███████████                                                                                                                                                               | 2596/40080 [31:48<7:36:20,  1.37it/s]  6%|███████████                                                                                                                                                               | 2597/40080 [31:49<7:35:38,  1.37it/s]  6%|███████████                                                                                                                                                               | 2598/40080 [31:49<7:35:57,  1.37it/s]  6%|███████████                                                                                                                                                               | 2599/40080 [31:50<7:35:41,  1.37it/s]  6%|███████████                                                                                                                                                               | 2600/40080 [31:51<7:36:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4886, 'grad_norm': 2.796875, 'learning_rate': 2.4748884970433524e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2411.8, 'epoch': 0.26}
+  6%|███████████                                                                                                                                                               | 2600/40080 [31:51<7:36:06,  1.37it/s]  6%|███████████                                                                                                                                                               | 2601/40080 [31:52<7:36:47,  1.37it/s]  6%|███████████                                                                                                                                                               | 2602/40080 [31:52<7:37:02,  1.37it/s]  6%|███████████                                                                                                                                                               | 2603/40080 [31:53<7:36:48,  1.37it/s]  6%|███████████                                                                                                                                                               | 2604/40080 [31:54<7:36:05,  1.37it/s]  6%|███████████                                                                                                                                                               | 2605/40080 [31:55<7:35:53,  1.37it/s]  7%|███████████                                                                                                                                                               | 2606/40080 [31:55<7:35:08,  1.37it/s]  7%|███████████                                                                                                                                                               | 2607/40080 [31:56<7:35:32,  1.37it/s]  7%|███████████                                                                                                                                                               | 2608/40080 [31:57<7:35:50,  1.37it/s]  7%|███████████                                                                                                                                                               | 2609/40080 [31:57<7:36:20,  1.37it/s]  7%|███████████                                                                                                                                                               | 2610/40080 [31:58<7:36:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5894, 'grad_norm': 2.59375, 'learning_rate': 2.4746925195246624e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.37, 'epoch': 0.26}
+  7%|███████████                                                                                                                                                               | 2610/40080 [31:58<7:36:15,  1.37it/s]  7%|███████████                                                                                                                                                               | 2611/40080 [31:59<7:37:09,  1.37it/s]  7%|███████████                                                                                                                                                               | 2612/40080 [32:00<7:37:09,  1.37it/s]  7%|███████████                                                                                                                                                               | 2613/40080 [32:00<7:37:17,  1.37it/s]  7%|███████████                                                                                                                                                               | 2614/40080 [32:01<7:36:51,  1.37it/s]  7%|███████████                                                                                                                                                               | 2615/40080 [32:02<7:37:34,  1.36it/s]  7%|███████████                                                                                                                                                               | 2616/40080 [32:03<7:38:20,  1.36it/s]  7%|███████████                                                                                                                                                               | 2617/40080 [32:03<7:37:33,  1.36it/s]  7%|███████████                                                                                                                                                               | 2618/40080 [32:04<7:36:58,  1.37it/s]  7%|███████████                                                                                                                                                               | 2619/40080 [32:05<7:36:25,  1.37it/s]  7%|███████████                                                                                                                                                               | 2620/40080 [32:05<7:36:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.579, 'grad_norm': 3.265625, 'learning_rate': 2.474495788062734e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.44, 'epoch': 0.26}
+  7%|███████████                                                                                                                                                               | 2620/40080 [32:05<7:36:54,  1.37it/s]  7%|███████████                                                                                                                                                               | 2621/40080 [32:06<7:36:35,  1.37it/s]  7%|███████████                                                                                                                                                               | 2622/40080 [32:07<7:36:33,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2623/40080 [32:08<7:36:25,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2624/40080 [32:08<7:36:20,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2625/40080 [32:09<7:36:44,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2626/40080 [32:10<7:36:15,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2627/40080 [32:11<7:36:17,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2628/40080 [32:11<7:35:49,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2629/40080 [32:12<7:35:58,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2630/40080 [32:13<7:36:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5023, 'grad_norm': 2.75, 'learning_rate': 2.4742983027786794e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2416.93, 'epoch': 0.26}
+  7%|███████████▏                                                                                                                                                              | 2630/40080 [32:13<7:36:14,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2631/40080 [32:14<7:37:15,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2632/40080 [32:14<7:36:25,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2633/40080 [32:15<7:36:15,  1.37it/s]  7%|██████���████▏                                                                                                                                                              | 2634/40080 [32:16<7:35:46,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2635/40080 [32:16<7:35:26,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2636/40080 [32:17<7:35:08,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2637/40080 [32:18<7:35:33,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2638/40080 [32:19<7:35:30,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2639/40080 [32:19<7:35:39,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2640/40080 [32:20<7:34:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5997, 'grad_norm': 3.28125, 'learning_rate': 2.4741000637940732e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.91, 'epoch': 0.26}
+  7%|███████████▏                                                                                                                                                              | 2640/40080 [32:20<7:34:53,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2641/40080 [32:21<7:35:27,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2642/40080 [32:22<7:35:12,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2643/40080 [32:22<7:34:59,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2644/40080 [32:23<7:35:28,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2645/40080 [32:24<7:36:06,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2646/40080 [32:24<7:35:37,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2647/40080 [32:25<7:35:19,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2648/40080 [32:26<7:35:54,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2649/40080 [32:27<7:35:59,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2650/40080 [32:27<7:35:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5638, 'grad_norm': 3.15625, 'learning_rate': 2.473901071230955e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.4, 'epoch': 0.26}
+  7%|███████████▏                                                                                                                                                              | 2650/40080 [32:27<7:35:45,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2651/40080 [32:28<7:36:06,  1.37it/s]  7%|███████████▏                                                                                                                                                              | 2652/40080 [32:29<7:36:35,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2653/40080 [32:30<7:37:04,  1.36it/s]  7%|███████████▎                                                                                                                                                              | 2654/40080 [32:30<7:36:23,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2655/40080 [32:31<7:36:39,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2656/40080 [32:32<7:35:50,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2657/40080 [32:33<7:35:47,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2658/40080 [32:33<7:35:48,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2659/40080 [32:34<7:36:18,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2660/40080 [32:35<7:36:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5516, 'grad_norm': 2.703125, 'learning_rate': 2.4737013252118285e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2653.01, 'epoch': 0.27}
+  7%|███████████▎                                                                                                                                                              | 2660/40080 [32:35<7:36:53,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2661/40080 [32:35<7:36:58,  1.36it/s]  7%|███████████▎                                                                                                                                                              | 2662/40080 [32:36<7:36:43,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2663/40080 [32:37<7:35:45,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2664/40080 [32:38<7:34:49,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2665/40080 [32:38<7:34:47,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2666/40080 [32:39<7:34:35,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2667/40080 [32:40<7:35:16,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2668/40080 [32:41<7:35:32,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2669/40080 [32:41<7:35:58,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2670/40080 [32:42<7:35:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.579, 'grad_norm': 3.515625, 'learning_rate': 2.4735008258596616e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.46, 'epoch': 0.27}
+  7%|███████████▎                                                                                                                                                              | 2670/40080 [32:42<7:35:26,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2671/40080 [32:43<7:36:20,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2672/40080 [32:43<7:36:12,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2673/40080 [32:44<7:35:09,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2674/40080 [32:45<7:35:43,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2675/40080 [32:46<7:35:43,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2676/40080 [32:46<7:35:57,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2677/40080 [32:47<7:35:35,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2678/40080 [32:48<7:35:22,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2679/40080 [32:49<7:35:41,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2680/40080 [32:49<7:35:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5879, 'grad_norm': 4.03125, 'learning_rate': 2.4732995732978844e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2442.08, 'epoch': 0.27}
+  7%|███████████▎                                                                                                                                                              | 2680/40080 [32:49<7:35:29,  1.37it/s]  7%|███████████▎                                                                                                                                                              | 2681/40080 [32:50<7:36:08,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2682/40080 [32:51<7:38:15,  1.36it/s]  7%|███████████▍                                                                                                                                                              | 2683/40080 [32:52<7:35:49,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2684/40080 [32:52<7:34:35,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2685/40080 [32:53<7:34:43,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2686/40080 [32:54<7:34:31,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2687/40080 [32:54<7:35:08,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2688/40080 [32:55<7:34:23,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2689/40080 [32:56<7:35:04,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2690/40080 [32:57<7:34:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5778, 'grad_norm': 3.625, 'learning_rate': 2.4730975676503926e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.57, 'epoch': 0.27}
+  7%|███████████▍                                                                                                                                                              | 2690/40080 [32:57<7:34:40,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2691/40080 [32:57<7:35:09,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2692/40080 [32:58<7:34:00,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2693/40080 [32:59<7:34:10,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2694/40080 [33:00<7:34:34,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2695/40080 [33:00<7:33:23,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2696/40080 [33:01<7:33:58,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2697/40080 [33:02<7:33:44,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2698/40080 [33:02<7:34:23,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2699/40080 [33:03<7:33:50,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2700/40080 [33:04<7:33:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5456, 'grad_norm': 3.578125, 'learning_rate': 2.472894809041544e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2513.98, 'epoch': 0.27}
+  7%|███████████▍                                                                                                                                                              | 2700/40080 [33:04<7:33:32,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2701/40080 [33:05<7:34:30,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2702/40080 [33:05<7:33:24,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2703/40080 [33:06<7:33:48,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2704/40080 [33:07<7:34:00,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2705/40080 [33:08<7:33:43,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2706/40080 [33:08<7:33:02,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2707/40080 [33:09<7:32:54,  1.38it/s]  7%|███████████▍                                                                                                                                                              | 2708/40080 [33:10<7:33:38,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2709/40080 [33:10<7:33:07,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2710/40080 [33:11<7:33:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5063, 'grad_norm': 2.78125, 'learning_rate': 2.4726912975961602e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.05, 'epoch': 0.27}
+  7%|███████████▍                                                                                                                                                              | 2710/40080 [33:11<7:33:37,  1.37it/s]  7%|███████████▍                                                                                                                                                              | 2711/40080 [33:12<7:34:20,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2712/40080 [33:13<7:34:36,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2713/40080 [33:13<7:34:13,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2714/40080 [33:14<7:33:57,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2715/40080 [33:15<7:34:31,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2716/40080 [33:16<7:34:35,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2717/40080 [33:16<7:34:39,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2718/40080 [33:17<7:34:29,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2719/40080 [33:18<7:34:50,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2720/40080 [33:19<7:35:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5402, 'grad_norm': 2.953125, 'learning_rate': 2.4724870334395274e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2574.62, 'epoch': 0.27}
+  7%|███████████▌                                                                                                                                                              | 2720/40080 [33:19<7:35:01,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2721/40080 [33:19<7:34:37,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2722/40080 [33:20<7:35:08,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2723/40080 [33:21<7:35:36,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2724/40080 [33:21<7:35:35,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2725/40080 [33:22<7:35:24,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2726/40080 [33:23<7:34:57,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2727/40080 [33:24<7:34:58,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2728/40080 [33:24<7:34:30,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2729/40080 [33:25<7:34:28,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2730/40080 [33:26<7:33:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5773, 'grad_norm': 3.0625, 'learning_rate': 2.4722820166973943e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2676.57, 'epoch': 0.27}
+  7%|███████████▌                                                                                                                                                              | 2730/40080 [33:26<7:33:50,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2731/40080 [33:27<7:34:29,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2732/40080 [33:27<7:34:06,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2733/40080 [33:28<7:34:23,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2734/40080 [33:29<7:34:23,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2735/40080 [33:29<7:33:48,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2736/40080 [33:30<7:34:03,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2737/40080 [33:31<7:33:43,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2738/40080 [33:32<7:34:25,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2739/40080 [33:32<7:33:45,  1.37it/s]  7%|███████████▌                                                                                                                                                              | 2740/40080 [33:33<7:34:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5996, 'grad_norm': 3.265625, 'learning_rate': 2.472076247495972e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2632.42, 'epoch': 0.27}
+  7%|███████████▌                                                                                                                                                              | 2740/40080 [33:33<7:34:04,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2741/40080 [33:34<7:33:59,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2742/40080 [33:35<7:33:42,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2743/40080 [33:35<7:33:44,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2744/40080 [33:36<7:33:57,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2745/40080 [33:37<7:34:02,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2746/40080 [33:37<7:32:44,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2747/40080 [33:38<7:32:36,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2748/40080 [33:39<7:32:24,  1.38it/s]  7%|███████████▋                                                                                                                                                              | 2749/40080 [33:40<7:32:00,  1.38it/s]  7%|███████████▋                                                                                                                                                              | 2750/40080 [33:40<7:32:10,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5912, 'grad_norm': 3.8125, 'learning_rate': 2.4718697259619372e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2505.39, 'epoch': 0.27}
+  7%|███████████▋                                                                                                                                                              | 2750/40080 [33:40<7:32:10,  1.38it/s]  7%|███████████▋                                                                                                                                                              | 2751/40080 [33:41<7:32:52,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2752/40080 [33:42<7:32:06,  1.38it/s]  7%|███████████▋                                                                                                                                                              | 2753/40080 [33:43<7:32:34,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2754/40080 [33:43<7:32:31,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2755/40080 [33:44<7:33:01,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2756/40080 [33:45<7:33:25,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2757/40080 [33:45<7:34:33,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2758/40080 [33:46<7:33:59,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2759/40080 [33:47<7:33:43,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2760/40080 [33:48<7:33:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5692, 'grad_norm': 4.0, 'learning_rate': 2.4716624522224274e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.23, 'epoch': 0.28}
+  7%|███████████▋                                                                                                                                                              | 2760/40080 [33:48<7:33:35,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2761/40080 [33:48<7:34:56,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2762/40080 [33:49<7:34:07,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2763/40080 [33:50<7:34:23,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2764/40080 [33:51<7:34:00,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2765/40080 [33:51<7:33:41,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2766/40080 [33:52<7:34:04,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2767/40080 [33:53<7:34:26,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2768/40080 [33:54<7:34:33,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2769/40080 [33:54<7:34:03,  1.37it/s]  7%|███████████▋                                                                                                                                                              | 2770/40080 [33:55<7:33:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5161, 'grad_norm': 2.859375, 'learning_rate': 2.471454426405044e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2587.35, 'epoch': 0.28}
+  7%|███████████▋                                                                                                                                                              | 2770/40080 [33:55<7:33:38,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2771/40080 [33:56<7:34:16,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2772/40080 [33:56<7:33:59,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2773/40080 [33:57<7:33:23,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2774/40080 [33:58<7:32:46,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2775/40080 [33:59<7:33:14,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2776/40080 [33:59<7:34:06,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2777/40080 [34:00<7:33:49,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2778/40080 [34:01<7:32:45,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2779/40080 [34:02<7:32:10,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2780/40080 [34:02<7:33:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4979, 'grad_norm': 3.015625, 'learning_rate': 2.4712456486378526e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.05, 'epoch': 0.28}
+  7%|███████████▊                                                                                                                                                              | 2780/40080 [34:02<7:33:00,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2781/40080 [34:03<7:34:28,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2782/40080 [34:04<7:34:43,  1.37it/s]  7%|███���███████▊                                                                                                                                                              | 2783/40080 [34:04<7:34:47,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2784/40080 [34:05<7:33:41,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2785/40080 [34:06<7:34:07,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2786/40080 [34:07<7:33:58,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2787/40080 [34:07<7:33:27,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2788/40080 [34:08<7:32:52,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2789/40080 [34:09<7:33:08,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2790/40080 [34:10<7:33:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5293, 'grad_norm': 3.5, 'learning_rate': 2.4710361190493796e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2613.3, 'epoch': 0.28}
+  7%|███████████▊                                                                                                                                                              | 2790/40080 [34:10<7:33:18,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2791/40080 [34:10<7:33:43,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2792/40080 [34:11<7:33:12,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2793/40080 [34:12<7:32:38,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2794/40080 [34:12<7:32:21,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2795/40080 [34:13<7:31:56,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2796/40080 [34:14<7:31:23,  1.38it/s]  7%|███████████▊                                                                                                                                                              | 2797/40080 [34:15<7:32:08,  1.37it/s]  7%|███████████▊                                                                                                                                                              | 2798/40080 [34:15<7:31:34,  1.38it/s]  7%|███████████▊                                                                                                                                                              | 2799/40080 [34:16<7:31:50,  1.38it/s]  7%|███████████▉                                                                                                                                                              | 2800/40080 [34:17<7:31:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5265, 'grad_norm': 3.65625, 'learning_rate': 2.4708258377686157e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2237.67, 'epoch': 0.28}
+  7%|███████████▉                                                                                                                                                              | 2800/40080 [34:17<7:31:29,  1.38it/s]  7%|███████████▉                                                                                                                                                              | 2801/40080 [34:18<7:32:27,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2802/40080 [34:18<7:32:21,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2803/40080 [34:19<7:32:08,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2804/40080 [34:20<7:31:57,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2805/40080 [34:20<7:32:21,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2806/40080 [34:21<7:31:42,  1.38it/s]  7%|███████████▉                                                                                                                                                              | 2807/40080 [34:22<7:31:48,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2808/40080 [34:23<7:32:09,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2809/40080 [34:23<7:31:43,  1.38it/s]  7%|███████████▉                                                                                                                                                              | 2810/40080 [34:24<7:32:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5403, 'grad_norm': 3.640625, 'learning_rate': 2.470614804925014e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2387.78, 'epoch': 0.28}
+  7%|███████████▉                                                                                                                                                              | 2810/40080 [34:24<7:32:28,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2811/40080 [34:25<7:33:42,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2812/40080 [34:26<7:33:22,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2813/40080 [34:26<7:32:34,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2814/40080 [34:27<7:32:41,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2815/40080 [34:28<7:33:14,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2816/40080 [34:29<7:32:55,  1.37it/s]  7%|██████████��▉                                                                                                                                                              | 2817/40080 [34:29<7:32:36,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2818/40080 [34:30<7:32:53,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2819/40080 [34:31<7:33:04,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2820/40080 [34:31<7:32:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5103, 'grad_norm': 3.390625, 'learning_rate': 2.4704030206484896e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2400.98, 'epoch': 0.28}
+  7%|███████████▉                                                                                                                                                              | 2820/40080 [34:31<7:32:48,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2821/40080 [34:32<7:33:30,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2822/40080 [34:33<7:33:04,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2823/40080 [34:34<7:32:29,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2824/40080 [34:34<7:31:41,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2825/40080 [34:35<7:32:02,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2826/40080 [34:36<7:32:31,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2827/40080 [34:37<7:32:31,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2828/40080 [34:37<7:32:29,  1.37it/s]  7%|███████████▉                                                                                                                                                              | 2829/40080 [34:38<7:33:16,  1.37it/s]  7%|████████████                                                                                                                                                              | 2830/40080 [34:39<7:33:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5899, 'grad_norm': 2.90625, 'learning_rate': 2.4701904850694216e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.21, 'epoch': 0.28}
+  7%|████████████                                                                                                                                                              | 2830/40080 [34:39<7:33:00,  1.37it/s]  7%|████████████                                                                                                                                                              | 2831/40080 [34:39<7:33:26,  1.37it/s]  7%|████████████                                                                                                                                                              | 2832/40080 [34:40<7:34:34,  1.37it/s]  7%|████████████                                                                                                                                                              | 2833/40080 [34:41<7:33:42,  1.37it/s]  7%|████████████                                                                                                                                                              | 2834/40080 [34:42<7:32:56,  1.37it/s]  7%|████████████                                                                                                                                                              | 2835/40080 [34:42<7:32:24,  1.37it/s]  7%|████████████                                                                                                                                                              | 2836/40080 [34:43<7:32:10,  1.37it/s]  7%|████████████                                                                                                                                                              | 2837/40080 [34:44<7:32:33,  1.37it/s]  7%|████████████                                                                                                                                                              | 2838/40080 [34:45<7:32:22,  1.37it/s]  7%|████████████                                                                                                                                                              | 2839/40080 [34:45<7:32:26,  1.37it/s]  7%|████████████                                                                                                                                                              | 2840/40080 [34:46<7:32:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5662, 'grad_norm': 3.25, 'learning_rate': 2.4699771983186505e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2212.44, 'epoch': 0.28}
+  7%|████████████                                                                                                                                                              | 2840/40080 [34:46<7:32:15,  1.37it/s]  7%|████████████                                                                                                                                                              | 2841/40080 [34:47<7:32:35,  1.37it/s]  7%|████████████                                                                                                                                                              | 2842/40080 [34:47<7:32:28,  1.37it/s]  7%|████████████                                                                                                                                                              | 2843/40080 [34:48<7:32:27,  1.37it/s]  7%|████████████                                                                                                                                                              | 2844/40080 [34:49<7:32:47,  1.37it/s]  7%|████████████                                                                                                                                                              | 2845/40080 [34:50<7:32:38,  1.37it/s]  7%|████████████                                                                                                                                                              | 2846/40080 [34:50<7:32:21,  1.37it/s]  7%|████████████                                                                                                                                                              | 2847/40080 [34:51<7:32:31,  1.37it/s]  7%|████████████                                                                                                                                                              | 2848/40080 [34:52<7:31:53,  1.37it/s]  7%|████████████                                                                                                                                                              | 2849/40080 [34:53<7:31:51,  1.37it/s]  7%|████████████                                                                                                                                                              | 2850/40080 [34:53<7:31:15,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.529, 'grad_norm': 3.0625, 'learning_rate': 2.469763160527479e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2409.89, 'epoch': 0.28}
+  7%|████████████                                                                                                                                                              | 2850/40080 [34:53<7:31:15,  1.38it/s]  7%|████████████                                                                                                                                                              | 2851/40080 [34:54<7:32:15,  1.37it/s]  7%|████████████                                                                                                                                                              | 2852/40080 [34:55<7:32:36,  1.37it/s]  7%|████████████                                                                                                                                                              | 2853/40080 [34:55<7:32:46,  1.37it/s]  7%|████████████                                                                                                                                                              | 2854/40080 [34:56<7:33:03,  1.37it/s]  7%|████████████                                                                                                                                                              | 2855/40080 [34:57<7:32:46,  1.37it/s]  7%|████████████                                                                                                                                                              | 2856/40080 [34:58<7:32:32,  1.37it/s]  7%|████████████                                                                                                                                                              | 2857/40080 [34:58<7:31:56,  1.37it/s]  7%|████████████                                                                                                                                                              | 2858/40080 [34:59<7:32:35,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2859/40080 [35:00<7:33:02,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2860/40080 [35:01<7:32:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4944, 'grad_norm': 3.40625, 'learning_rate': 2.4695483718276734e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.09, 'epoch': 0.29}
+  7%|████████████▏                                                                                                                                                             | 2860/40080 [35:01<7:32:28,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2861/40080 [35:01<7:33:21,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2862/40080 [35:02<7:33:11,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2863/40080 [35:03<7:33:07,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2864/40080 [35:04<7:32:58,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2865/40080 [35:04<7:32:09,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2866/40080 [35:05<7:32:16,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2867/40080 [35:06<7:30:59,  1.38it/s]  7%|████████████▏                                                                                                                                                             | 2868/40080 [35:06<7:31:25,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2869/40080 [35:07<7:31:37,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2870/40080 [35:08<7:30:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5462, 'grad_norm': 2.921875, 'learning_rate': 2.4693328323514615e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2623.18, 'epoch': 0.29}
+  7%|████████████▏                                                                                                                                                             | 2870/40080 [35:08<7:30:56,  1.38it/s]  7%|████████████▏                                                                                                                                                             | 2871/40080 [35:09<7:31:56,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2872/40080 [35:09<7:31:58,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2873/40080 [35:10<7:31:59,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2874/40080 [35:11<7:31:38,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2875/40080 [35:12<7:31:56,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2876/40080 [35:12<7:32:01,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2877/40080 [35:13<7:31:25,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2878/40080 [35:14<7:31:44,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2879/40080 [35:14<7:31:19,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2880/40080 [35:15<7:31:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5415, 'grad_norm': 3.546875, 'learning_rate': 2.4691165422315333e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.76, 'epoch': 0.29}
+  7%|████████████▏                                                                                                                                                             | 2880/40080 [35:15<7:31:25,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2881/40080 [35:16<7:31:04,  1.37it/s]  7%|███████████��▏                                                                                                                                                             | 2882/40080 [35:17<7:31:16,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2883/40080 [35:17<7:31:55,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2884/40080 [35:18<7:32:20,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2885/40080 [35:19<7:32:42,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2886/40080 [35:20<7:33:11,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2887/40080 [35:20<7:32:59,  1.37it/s]  7%|████████████▏                                                                                                                                                             | 2888/40080 [35:21<7:31:44,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2889/40080 [35:22<7:31:26,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2890/40080 [35:22<7:32:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5014, 'grad_norm': 2.671875, 'learning_rate': 2.4688995016010407e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.85, 'epoch': 0.29}
+  7%|████████████▎                                                                                                                                                             | 2890/40080 [35:22<7:32:09,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2891/40080 [35:23<7:32:30,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2892/40080 [35:24<7:32:05,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2893/40080 [35:25<7:32:06,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2894/40080 [35:25<7:31:38,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2895/40080 [35:26<7:32:16,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2896/40080 [35:27<7:31:53,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2897/40080 [35:28<7:32:03,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2898/40080 [35:28<7:32:04,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2899/40080 [35:29<7:32:02,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2900/40080 [35:30<7:31:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.628, 'grad_norm': 4.28125, 'learning_rate': 2.4686817105935983e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.03, 'epoch': 0.29}
+  7%|████████████▎                                                                                                                                                             | 2900/40080 [35:30<7:31:09,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2901/40080 [35:30<7:31:51,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2902/40080 [35:31<7:32:06,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2903/40080 [35:32<7:31:38,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2904/40080 [35:33<7:31:40,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2905/40080 [35:33<7:31:53,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2906/40080 [35:34<7:32:03,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2907/40080 [35:35<7:31:37,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2908/40080 [35:36<7:31:25,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2909/40080 [35:36<7:31:33,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2910/40080 [35:37<7:30:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6168, 'grad_norm': 3.640625, 'learning_rate': 2.4684631693432818e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.34, 'epoch': 0.29}
+  7%|████████████▎                                                                                                                                                             | 2910/40080 [35:37<7:30:38,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2911/40080 [35:38<7:31:21,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2912/40080 [35:38<7:30:42,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2913/40080 [35:39<7:30:57,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2914/40080 [35:40<7:30:46,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2915/40080 [35:41<7:30:26,  1.38it/s]  7%|████████████▎                                                                                                                                                             | 2916/40080 [35:41<7:30:59,  1.37it/s]  7%|████████████▎                                                                                                                                                             | 2917/40080 [35:42<7:31:12,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2918/40080 [35:43<8:40:39,  1.19it/s]  7%|████████████▍                                                                                                                                                             | 2919/40080 [35:44<8:19:52,  1.24it/s]  7%|████████████▍                                                                                                                                                             | 2920/40080 [35:45<8:04:31,  1.28it/s]                                                                                                                                                                                                                      {'loss': 0.56, 'grad_norm': 4.125, 'learning_rate': 2.4682438779846294e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2362.11, 'epoch': 0.29}
+  7%|████████████▍                                                                                                                                                             | 2920/40080 [35:45<8:04:31,  1.28it/s]  7%|████████████▍                                                                                                                                                             | 2921/40080 [35:45<7:55:03,  1.30it/s]  7%|████████████▍                                                                                                                                                             | 2922/40080 [35:46<7:47:48,  1.32it/s]  7%|████████████▍                                                                                                                                                             | 2923/40080 [35:47<7:43:01,  1.34it/s]  7%|████████████▍                                                                                                                                                             | 2924/40080 [35:48<7:39:31,  1.35it/s]  7%|████████████▍                                                                                                                                                             | 2925/40080 [35:48<7:36:51,  1.36it/s]  7%|████████████▍                                                                                                                                                             | 2926/40080 [35:49<7:35:24,  1.36it/s]  7%|████████████▍                                                                                                                                                             | 2927/40080 [35:50<7:33:34,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2928/40080 [35:51<7:33:22,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2929/40080 [35:51<7:32:32,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2930/40080 [35:52<7:32:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5157, 'grad_norm': 2.875, 'learning_rate': 2.4680238366526415e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.71, 'epoch': 0.29}
+  7%|████████████▍                                                                                                                                                             | 2930/40080 [35:52<7:32:30,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2931/40080 [35:53<7:32:45,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2932/40080 [35:53<7:31:49,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2933/40080 [35:54<7:31:53,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2934/40080 [35:55<7:32:01,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2935/40080 [35:56<7:31:53,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2936/40080 [35:56<7:31:36,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2937/40080 [35:57<7:31:15,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2938/40080 [35:58<7:30:20,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2939/40080 [35:59<7:30:41,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2940/40080 [35:59<7:31:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5326, 'grad_norm': 3.421875, 'learning_rate': 2.4678030454827787e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2318.25, 'epoch': 0.29}
+  7%|████████████▍                                                                                                                                                             | 2940/40080 [35:59<7:31:07,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2941/40080 [36:00<7:31:43,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2942/40080 [36:01<7:30:56,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2943/40080 [36:01<7:31:04,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2944/40080 [36:02<7:31:08,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2945/40080 [36:03<7:30:33,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2946/40080 [36:04<7:30:58,  1.37it/s]  7%|████████████▍                                                                                                                                                             | 2947/40080 [36:04<7:30:28,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2948/40080 [36:05<7:30:39,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2949/40080 [36:06<7:30:28,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2950/40080 [36:07<7:30:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6094, 'grad_norm': 3.84375, 'learning_rate': 2.4675815046109644e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.4, 'epoch': 0.29}
+  7%|████████████▌                                                                                                                                                             | 2950/40080 [36:07<7:30:54,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2951/40080 [36:07<7:30:43,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2952/40080 [36:08<7:33:04,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2953/40080 [36:09<7:34:08,  1.36it/s]  7%|████████████▌                                                                                                                                                             | 2954/40080 [36:09<7:33:15,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2955/40080 [36:10<7:32:03,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2956/40080 [36:11<7:32:08,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2957/40080 [36:12<7:31:26,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2958/40080 [36:12<7:30:30,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2959/40080 [36:13<7:34:19,  1.36it/s]  7%|████████████▌                                                                                                                                                             | 2960/40080 [36:14<7:36:39,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.6058, 'grad_norm': 3.671875, 'learning_rate': 2.4673592141735834e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.05, 'epoch': 0.3}
+  7%|████████████▌                                                                                                                                                             | 2960/40080 [36:14<7:36:39,  1.35it/s]  7%|████████████▌                                                                                                                                                             | 2961/40080 [36:15<7:40:03,  1.34it/s]  7%|████████████▌                                                                                                                                                             | 2962/40080 [36:15<7:37:48,  1.35it/s]  7%|████████████▌                                                                                                                                                             | 2963/40080 [36:16<7:35:28,  1.36it/s]  7%|████████████▌                                                                                                                                                             | 2964/40080 [36:17<7:34:59,  1.36it/s]  7%|█████████��██▌                                                                                                                                                             | 2965/40080 [36:18<7:33:05,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2966/40080 [36:18<7:31:59,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2967/40080 [36:19<7:31:11,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2968/40080 [36:20<7:33:00,  1.37it/s]  7%|████████████▌                                                                                                                                                             | 2969/40080 [36:21<7:35:33,  1.36it/s]  7%|████████████▌                                                                                                                                                             | 2970/40080 [36:21<7:37:49,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5322, 'grad_norm': 3.375, 'learning_rate': 2.4671361743074817e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.01, 'epoch': 0.3}
+  7%|████████████▌                                                                                                                                                             | 2970/40080 [36:21<7:37:49,  1.35it/s]  7%|████████████▌                                                                                                                                                             | 2971/40080 [36:22<7:39:49,  1.35it/s]  7%|████████████▌                                                                                                                                                             | 2972/40080 [36:23<7:39:50,  1.34it/s]  7%|████████████▌                                                                                                                                                             | 2973/40080 [36:24<7:40:20,  1.34it/s]  7%|████████████▌                                                                                                                                                             | 2974/40080 [36:24<7:38:30,  1.35it/s]  7%|████████████▌                                                                                                                                                             | 2975/40080 [36:25<7:36:46,  1.35it/s]  7%|████████████▌                                                                                                                                                             | 2976/40080 [36:26<7:35:40,  1.36it/s]  7%|████████████▋                                                                                                                                                             | 2977/40080 [36:26<7:34:13,  1.36it/s]  7%|████████████▋                                                                                                                                                             | 2978/40080 [36:27<7:32:40,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2979/40080 [36:28<7:31:05,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2980/40080 [36:29<7:31:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5738, 'grad_norm': 2.75, 'learning_rate': 2.4669123851499664e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.05, 'epoch': 0.3}
+  7%|████████████▋                                                                                                                                                             | 2980/40080 [36:29<7:31:04,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2981/40080 [36:29<7:32:21,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2982/40080 [36:30<7:31:33,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2983/40080 [36:31<7:30:06,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2984/40080 [36:32<7:30:47,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2985/40080 [36:32<7:29:52,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2986/40080 [36:33<7:29:20,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 2987/40080 [36:34<7:29:59,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2988/40080 [36:34<7:30:04,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2989/40080 [36:35<7:29:05,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 2990/40080 [36:36<7:28:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5614, 'grad_norm': 2.453125, 'learning_rate': 2.466687846838807e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.59, 'epoch': 0.3}
+  7%|████████████▋                                                                                                                                                             | 2990/40080 [36:36<7:28:46,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 2991/40080 [36:37<7:29:51,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2992/40080 [36:37<7:30:21,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2993/40080 [36:38<7:29:19,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 2994/40080 [36:39<7:29:23,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 2995/40080 [36:40<7:28:59,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 2996/40080 [36:40<7:29:31,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2997/40080 [36:41<7:29:38,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 2998/40080 [36:42<7:28:47,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 2999/40080 [36:42<7:29:09,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 3000/40080 [36:43<7:29:20,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4831, 'grad_norm': 2.984375, 'learning_rate': 2.4664625595122326e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2548.96, 'epoch': 0.3}
+  7%|████████████▋                                                                                                                                                             | 3000/40080 [36:43<7:29:20,  1.38it/s]  7%|████████████▋                                                                                                                                                             | 3001/40080 [36:44<7:30:30,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 3002/40080 [36:45<7:30:09,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 3003/40080 [36:45<7:29:46,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 3004/40080 [36:46<7:29:52,  1.37it/s]  7%|████████████▋                                                                                                                                                             | 3005/40080 [36:47<7:28:50,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3006/40080 [36:48<7:29:19,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3007/40080 [36:48<7:29:17,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3008/40080 [36:49<7:29:21,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3009/40080 [36:50<7:29:53,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3010/40080 [36:50<7:29:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5516, 'grad_norm': 3.203125, 'learning_rate': 2.4662365233089346e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.0, 'epoch': 0.3}
+  8%|████████████▊                                                                                                                                                             | 3010/40080 [36:50<7:29:48,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3011/40080 [36:51<7:30:35,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3012/40080 [36:52<7:30:00,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3013/40080 [36:53<7:30:21,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3014/40080 [36:53<7:30:06,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3015/40080 [36:54<7:30:10,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3016/40080 [36:55<7:29:44,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3017/40080 [36:56<7:29:19,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3018/40080 [36:56<7:28:53,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3019/40080 [36:57<7:29:04,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3020/40080 [36:58<7:31:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5786, 'grad_norm': 3.75, 'learning_rate': 2.4660097383680653e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2585.21, 'epoch': 0.3}
+  8%|████████████▊                                                                                                                                                             | 3020/40080 [36:58<7:31:38,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3021/40080 [36:58<7:34:35,  1.36it/s]  8%|████████████▊                                                                                                                                                             | 3022/40080 [36:59<7:33:18,  1.36it/s]  8%|████████████▊                                                                                                                                                             | 3023/40080 [37:00<7:32:32,  1.36it/s]  8%|████████████▊                                                                                                                                                             | 3024/40080 [37:01<7:31:27,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3025/40080 [37:01<7:30:38,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3026/40080 [37:02<7:30:34,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3027/40080 [37:03<7:30:07,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3028/40080 [37:04<7:29:55,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3029/40080 [37:04<7:28:55,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3030/40080 [37:05<7:28:11,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5573, 'grad_norm': 2.8125, 'learning_rate': 2.4657822048292374e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2489.88, 'epoch': 0.3}
+  8%|████████████▊                                                                                                                                                             | 3030/40080 [37:05<7:28:11,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3031/40080 [37:06<7:28:58,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3032/40080 [37:06<7:29:01,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3033/40080 [37:07<7:29:05,  1.37it/s]  8%|████████████▊                                                                                                                                                             | 3034/40080 [37:08<7:28:59,  1.38it/s]  8%|████████████▊                                                                                                                                                             | 3035/40080 [37:09<7:28:48,  1.38it/s]  8%|████████████▉                                                                                                                                                             | 3036/40080 [37:09<7:29:27,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3037/40080 [37:10<7:28:57,  1.38it/s]  8%|████████████▉                                                                                                                                                             | 3038/40080 [37:11<7:28:47,  1.38it/s]  8%|████████████▉                                                                                                                                                             | 3039/40080 [37:12<7:30:45,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3040/40080 [37:12<7:34:07,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5643, 'grad_norm': 4.28125, 'learning_rate': 2.4655539228325244e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2352.79, 'epoch': 0.3}
+  8%|████████████▉                                                                                                                                                             | 3040/40080 [37:12<7:34:07,  1.36it/s]  8%|████████████▉                                                                                                                                                             | 3041/40080 [37:13<7:37:10,  1.35it/s]  8%|████████████▉                                                                                                                                                             | 3042/40080 [37:14<7:35:00,  1.36it/s]  8%|████████████▉                                                                                                                                                             | 3043/40080 [37:15<7:33:42,  1.36it/s]  8%|████████████▉                                                                                                                                                             | 3044/40080 [37:15<7:32:00,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3045/40080 [37:16<7:31:09,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3046/40080 [37:17<7:31:23,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3047/40080 [37:17<7:30:21,  1.37it/s]  8%|███████████���▉                                                                                                                                                             | 3048/40080 [37:18<7:29:57,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3049/40080 [37:19<7:29:55,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3050/40080 [37:20<7:30:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.557, 'grad_norm': 2.5625, 'learning_rate': 2.4653248925184613e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2514.11, 'epoch': 0.3}
+  8%|████████████▉                                                                                                                                                             | 3050/40080 [37:20<7:30:07,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3051/40080 [37:20<7:29:54,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3052/40080 [37:21<7:29:42,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3053/40080 [37:22<7:29:24,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3054/40080 [37:23<7:29:39,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3055/40080 [37:23<7:29:52,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3056/40080 [37:24<7:33:54,  1.36it/s]  8%|████████████▉                                                                                                                                                             | 3057/40080 [37:25<7:35:56,  1.35it/s]  8%|████████████▉                                                                                                                                                             | 3058/40080 [37:26<7:35:32,  1.35it/s]  8%|████████████▉                                                                                                                                                             | 3059/40080 [37:26<7:32:48,  1.36it/s]  8%|████████████▉                                                                                                                                                             | 3060/40080 [37:27<7:31:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5692, 'grad_norm': 3.0625, 'learning_rate': 2.4650951140280438e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.75, 'epoch': 0.31}
+  8%|████████████▉                                                                                                                                                             | 3060/40080 [37:27<7:31:30,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3061/40080 [37:28<7:31:05,  1.37it/s]  8%|████████████▉                                                                                                                                                             | 3062/40080 [37:28<7:32:51,  1.36it/s]  8%|████████████▉                                                                                                                                                             | 3063/40080 [37:29<7:37:14,  1.35it/s]  8%|████████████▉                                                                                                                                                             | 3064/40080 [37:30<7:36:56,  1.35it/s]  8%|█████████████                                                                                                                                                             | 3065/40080 [37:31<7:35:29,  1.35it/s]  8%|█████████████                                                                                                                                                             | 3066/40080 [37:31<7:33:55,  1.36it/s]  8%|█████████████                                                                                                                                                             | 3067/40080 [37:32<7:33:06,  1.36it/s]  8%|█████████████                                                                                                                                                             | 3068/40080 [37:33<7:34:57,  1.36it/s]  8%|█████████████                                                                                                                                                             | 3069/40080 [37:34<7:36:35,  1.35it/s]  8%|█████████████                                                                                                                                                             | 3070/40080 [37:34<7:36:23,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5302, 'grad_norm': 3.578125, 'learning_rate': 2.4648645875027264e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.86, 'epoch': 0.31}
+  8%|█████████████                                                                                                                                                             | 3070/40080 [37:34<7:36:23,  1.35it/s]  8%|█████████████                                                                                                                                                             | 3071/40080 [37:35<7:34:39,  1.36it/s]  8%|█████████████                                                                                                                                                             | 3072/40080 [37:36<7:33:04,  1.36it/s]  8%|█████████████                                                                                                                                                             | 3073/40080 [37:37<7:31:03,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3074/40080 [37:37<7:30:29,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3075/40080 [37:38<7:29:46,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3076/40080 [37:39<7:28:57,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3077/40080 [37:39<7:29:17,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3078/40080 [37:40<7:28:46,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3079/40080 [37:41<7:28:46,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3080/40080 [37:42<7:29:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6062, 'grad_norm': 3.8125, 'learning_rate': 2.4646333130844268e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2471.63, 'epoch': 0.31}
+  8%|█████████████                                                                                                                                                             | 3080/40080 [37:42<7:29:00,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3081/40080 [37:42<7:30:00,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3082/40080 [37:43<7:29:34,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3083/40080 [37:44<7:29:39,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3084/40080 [37:45<7:30:11,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3085/40080 [37:45<7:33:21,  1.36it/s]  8%|█████████████                                                                                                                                                             | 3086/40080 [37:46<7:31:49,  1.36it/s]  8%|█████████████                                                                                                                                                             | 3087/40080 [37:47<7:30:34,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3088/40080 [37:47<7:30:00,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3089/40080 [37:48<7:30:07,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3090/40080 [37:49<7:28:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5842, 'grad_norm': 3.625, 'learning_rate': 2.4644012909155214e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2333.61, 'epoch': 0.31}
+  8%|█████████████                                                                                                                                                             | 3090/40080 [37:49<7:28:55,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3091/40080 [37:50<7:29:41,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3092/40080 [37:50<7:29:27,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3093/40080 [37:51<7:29:14,  1.37it/s]  8%|█████████████                                                                                                                                                             | 3094/40080 [37:52<7:28:27,  1.37it/s]  8%|█████████████▏                                                                                                                                                            | 3095/40080 [37:53<7:32:16,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3096/40080 [37:53<7:34:47,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3097/40080 [37:54<7:33:17,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3098/40080 [37:55<7:32:17,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3099/40080 [37:56<7:31:26,  1.37it/s]  8%|█████████████▏                                                                                                                                                            | 3100/40080 [37:56<7:30:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5587, 'grad_norm': 2.59375, 'learning_rate': 2.464168521138847e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2481.82, 'epoch': 0.31}
+  8%|█████████████▏                                                                                                                                                            | 3100/40080 [37:56<7:30:58,  1.37it/s]  8%|█████████████▏                                                                                                                                                            | 3101/40080 [37:57<7:30:26,  1.37it/s]  8%|█████████████▏                                                                                                                                                            | 3102/40080 [37:58<7:31:47,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3103/40080 [37:58<7:31:46,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3104/40080 [37:59<7:31:13,  1.37it/s]  8%|█████████████▏                                                                                                                                                            | 3105/40080 [38:00<7:35:00,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3106/40080 [38:01<7:33:57,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3107/40080 [38:01<7:32:34,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3108/40080 [38:02<7:32:22,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3109/40080 [38:03<7:32:18,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3110/40080 [38:04<7:33:05,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5658, 'grad_norm': 2.84375, 'learning_rate': 2.4639350038977017e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2511.81, 'epoch': 0.31}
+  8%|█████████████▏                                                                                                                                                            | 3110/40080 [38:04<7:33:05,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3111/40080 [38:04<7:36:25,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3112/40080 [38:05<7:36:58,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3113/40080 [38:06<7:36:38,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3114/40080 [38:07<7:37:29,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3115/40080 [38:07<7:37:17,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3116/40080 [38:08<7:37:41,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3117/40080 [38:09<7:38:41,  1.34it/s]  8%|█████████████▏                                                                                                                                                            | 3118/40080 [38:10<7:39:27,  1.34it/s]  8%|█████████████▏                                                                                                                                                            | 3119/40080 [38:10<7:39:47,  1.34it/s]  8%|█████████████▏                                                                                                                                                            | 3120/40080 [38:11<7:36:20,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.6054, 'grad_norm': 4.4375, 'learning_rate': 2.463700739335842e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2457.39, 'epoch': 0.31}
+  8%|█████████████▏                                                                                                                                                            | 3120/40080 [38:11<7:36:20,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3121/40080 [38:12<7:34:53,  1.35it/s]  8%|█████████████▏                                                                                                                                                            | 3122/40080 [38:13<7:32:27,  1.36it/s]  8%|█████████████▏                                                                                                                                                            | 3123/40080 [38:13<7:30:33,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3124/40080 [38:14<7:30:15,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3125/40080 [38:15<7:29:30,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3126/40080 [38:15<7:30:23,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3127/40080 [38:16<7:33:25,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3128/40080 [38:17<7:35:16,  1.35it/s]  8%|█████████████▎                                                                                                                                                            | 3129/40080 [38:18<7:37:42,  1.35it/s]  8%|█████████████▎                                                                                                                                                            | 3130/40080 [38:18<7:35:06,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.6113, 'grad_norm': 2.609375, 'learning_rate': 2.463465727597486e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2327.09, 'epoch': 0.31}
+  8%|█████████████▎                                                                                                                                                            | 3130/40080 [38:18<7:35:06,  1.35it/s]  8%|█████████████▎                                                                                                                                                            | 3131/40080 [38:19<7:34:15,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3132/40080 [38:20<7:32:34,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3133/40080 [38:21<7:31:29,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3134/40080 [38:21<7:30:56,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3135/40080 [38:22<7:30:19,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3136/40080 [38:23<7:30:03,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3137/40080 [38:24<7:29:02,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3138/40080 [38:24<7:28:39,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3139/40080 [38:25<7:29:24,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3140/40080 [38:26<7:29:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5818, 'grad_norm': 2.609375, 'learning_rate': 2.4632299688273113e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2621.31, 'epoch': 0.31}
+  8%|█████████████▎                                                                                                                                                            | 3140/40080 [38:26<7:29:19,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3141/40080 [38:26<7:30:17,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3142/40080 [38:27<7:30:35,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3143/40080 [38:28<7:29:28,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3144/40080 [38:29<7:29:13,  1.37it/s]  8%|█████████████▎                                                                                                                                                            | 3145/40080 [38:29<7:31:19,  1.36it/s]  8%|███████���█████▎                                                                                                                                                            | 3146/40080 [38:30<7:33:23,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3147/40080 [38:31<7:32:12,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3148/40080 [38:32<7:31:23,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3149/40080 [38:32<7:31:54,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3150/40080 [38:33<7:33:55,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5405, 'grad_norm': 3.9375, 'learning_rate': 2.4629934631704554e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2577.83, 'epoch': 0.31}
+  8%|█████████████▎                                                                                                                                                            | 3150/40080 [38:33<7:33:55,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3151/40080 [38:34<7:32:32,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3152/40080 [38:35<7:30:55,  1.36it/s]  8%|█████████████▎                                                                                                                                                            | 3153/40080 [38:35<7:30:07,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3154/40080 [38:36<7:31:27,  1.36it/s]  8%|█████████████▍                                                                                                                                                            | 3155/40080 [38:37<7:34:30,  1.35it/s]  8%|█████████████▍                                                                                                                                                            | 3156/40080 [38:37<7:33:06,  1.36it/s]  8%|█████████████▍                                                                                                                                                            | 3157/40080 [38:38<7:30:59,  1.36it/s]  8%|█████████████▍                                                                                                                                                            | 3158/40080 [38:39<7:30:22,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3159/40080 [38:40<7:29:33,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3160/40080 [38:40<7:29:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5581, 'grad_norm': 2.625, 'learning_rate': 2.462756210772515e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.7, 'epoch': 0.32}
+  8%|█████████████▍                                                                                                                                                            | 3160/40080 [38:40<7:29:34,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3161/40080 [38:41<7:29:29,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3162/40080 [38:42<7:28:50,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3163/40080 [38:43<7:28:13,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3164/40080 [38:43<7:30:32,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3165/40080 [38:44<7:33:55,  1.36it/s]  8%|█████████████▍                                                                                                                                                            | 3166/40080 [38:45<7:35:29,  1.35it/s]  8%|█████████████▍                                                                                                                                                            | 3167/40080 [38:46<7:37:26,  1.34it/s]  8%|█████████████▍                                                                                                                                                            | 3168/40080 [38:46<7:37:52,  1.34it/s]  8%|█████████████▍                                                                                                                                                            | 3169/40080 [38:47<7:36:31,  1.35it/s]  8%|█████████████▍                                                                                                                                                            | 3170/40080 [38:48<7:36:58,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.6155, 'grad_norm': 2.96875, 'learning_rate': 2.462518211779548e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2631.32, 'epoch': 0.32}
+  8%|█████████████▍                                                                                                                                                            | 3170/40080 [38:48<7:36:58,  1.35it/s]  8%|█████████████▍                                                                                                                                                            | 3171/40080 [38:49<7:36:58,  1.35it/s]  8%|█████████████▍                                                                                                                                                            | 3172/40080 [38:49<7:34:28,  1.35it/s]  8%|█████████████▍                                                                                                                                                            | 3173/40080 [38:50<7:33:03,  1.36it/s]  8%|█████████████▍                                                                                                                                                            | 3174/40080 [38:51<7:31:20,  1.36it/s]  8%|█████████████▍                                                                                                                                                            | 3175/40080 [38:51<7:30:40,  1.36it/s]  8%|█████████████▍                                                                                                                                                            | 3176/40080 [38:52<7:30:05,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3177/40080 [38:53<7:29:44,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3178/40080 [38:54<7:29:05,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3179/40080 [38:54<7:28:54,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3180/40080 [38:55<7:28:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6188, 'grad_norm': 3.625, 'learning_rate': 2.4622794663380698e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2417.53, 'epoch': 0.32}
+  8%|█████████████▍                                                                                                                                                            | 3180/40080 [38:55<7:28:55,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3181/40080 [38:56<7:29:53,  1.37it/s]  8%|█████████████▍                                                                                                                                                            | 3182/40080 [38:57<7:29:00,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3183/40080 [38:57<7:29:16,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3184/40080 [38:58<7:29:32,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3185/40080 [38:59<7:29:04,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3186/40080 [38:59<7:28:12,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3187/40080 [39:00<7:29:07,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3188/40080 [39:01<7:28:57,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3189/40080 [39:02<7:29:07,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3190/40080 [39:02<7:28:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6294, 'grad_norm': 3.578125, 'learning_rate': 2.4620399745950573e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2398.46, 'epoch': 0.32}
+  8%|█████████████▌                                                                                                                                                            | 3190/40080 [39:02<7:28:59,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3191/40080 [39:03<7:32:49,  1.36it/s]  8%|█████████████▌                                                                                                                                                            | 3192/40080 [39:04<7:30:31,  1.36it/s]  8%|█████████████▌                                                                                                                                                            | 3193/40080 [39:05<7:29:53,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3194/40080 [39:05<7:29:07,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3195/40080 [39:06<7:27:50,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3196/40080 [39:07<7:28:27,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3197/40080 [39:08<7:28:19,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3198/40080 [39:08<7:29:08,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3199/40080 [39:09<7:28:25,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3200/40080 [39:10<7:28:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5619, 'grad_norm': 3.390625, 'learning_rate': 2.461799736697946e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2374.25, 'epoch': 0.32}
+  8%|█████████████▌                                                                                                                                                            | 3200/40080 [39:10<7:28:18,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3201/40080 [39:10<7:28:23,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3202/40080 [39:11<7:29:05,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3203/40080 [39:12<7:28:13,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3204/40080 [39:13<7:28:00,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3205/40080 [39:13<7:28:30,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3206/40080 [39:14<7:28:40,  1.37it/s]  8%|█████████████▌                                                                                                                                                            | 3207/40080 [39:15<7:31:07,  1.36it/s]  8%|█████████████▌                                                                                                                                                            | 3208/40080 [39:16<7:34:18,  1.35it/s]  8%|█████████████▌                                                                                                                                                            | 3209/40080 [39:16<7:36:57,  1.34it/s]  8%|█████████████▌                                                                                                                                                            | 3210/40080 [39:17<7:36:30,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5456, 'grad_norm': 2.546875, 'learning_rate': 2.46155875279463e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2546.56, 'epoch': 0.32}
+  8%|████████████���▌                                                                                                                                                            | 3210/40080 [39:17<7:36:30,  1.35it/s]  8%|█████████████▌                                                                                                                                                            | 3211/40080 [39:18<7:39:09,  1.34it/s]  8%|█████████████▌                                                                                                                                                            | 3212/40080 [39:19<7:40:31,  1.33it/s]  8%|█████████████▋                                                                                                                                                            | 3213/40080 [39:19<7:39:31,  1.34it/s]  8%|█████████████▋                                                                                                                                                            | 3214/40080 [39:20<7:35:24,  1.35it/s]  8%|█████████████▋                                                                                                                                                            | 3215/40080 [39:21<7:32:54,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3216/40080 [39:22<7:31:45,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3217/40080 [39:22<7:34:42,  1.35it/s]  8%|█████████████▋                                                                                                                                                            | 3218/40080 [39:23<7:35:52,  1.35it/s]  8%|█████████████▋                                                                                                                                                            | 3219/40080 [39:24<7:37:24,  1.34it/s]  8%|█████████████▋                                                                                                                                                            | 3220/40080 [39:24<7:34:17,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.546, 'grad_norm': 4.03125, 'learning_rate': 2.4613170230334647e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2627.21, 'epoch': 0.32}
+  8%|█████████████▋                                                                                                                                                            | 3220/40080 [39:24<7:34:17,  1.35it/s]  8%|█████████████▋                                                                                                                                                            | 3221/40080 [39:25<7:33:06,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3222/40080 [39:26<7:34:58,  1.35it/s]  8%|█████████████▋                                                                                                                                                            | 3223/40080 [39:27<7:37:33,  1.34it/s]  8%|█████████████▋                                                                                                                                                            | 3224/40080 [39:27<7:38:58,  1.34it/s]  8%|█████████████▋                                                                                                                                                            | 3225/40080 [39:28<7:39:38,  1.34it/s]  8%|█████████████▋                                                                                                                                                            | 3226/40080 [39:29<7:39:25,  1.34it/s]  8%|█████████████▋                                                                                                                                                            | 3227/40080 [39:30<7:40:11,  1.33it/s]  8%|█████████████▋                                                                                                                                                            | 3228/40080 [39:30<7:40:16,  1.33it/s]  8%|█████████████▋                                                                                                                                                            | 3229/40080 [39:31<7:37:40,  1.34it/s]  8%|█████████████▋                                                                                                                                                            | 3230/40080 [39:32<7:35:20,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5568, 'grad_norm': 3.5625, 'learning_rate': 2.461074547563262e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2561.46, 'epoch': 0.32}
+  8%|█████████████▋                                                                                                                                                            | 3230/40080 [39:32<7:35:20,  1.35it/s]  8%|█████████████▋                                                                                                                                                            | 3231/40080 [39:33<7:34:46,  1.35it/s]  8%|█████████████▋                                                                                                                                                            | 3232/40080 [39:33<7:32:49,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3233/40080 [39:34<7:32:03,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3234/40080 [39:35<7:31:17,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3235/40080 [39:36<7:30:48,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3236/40080 [39:36<7:29:55,  1.36it/s]  8%|█████████████▋                                                                                                                                                            | 3237/40080 [39:37<7:29:44,  1.37it/s]  8%|█████████████▋                                                                                                                                                            | 3238/40080 [39:38<7:29:08,  1.37it/s]  8%|█████████████▋                                                                                                                                                            | 3239/40080 [39:39<7:27:33,  1.37it/s]  8%|█████████████▋                                                                                                                                                            | 3240/40080 [39:39<7:27:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5806, 'grad_norm': 3.265625, 'learning_rate': 2.4608313265332954e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2709.13, 'epoch': 0.32}
+  8%|█████████████▋                                                                                                                                                            | 3240/40080 [39:39<7:27:35,  1.37it/s]  8%|█████████████▋                                                                                                                                                            | 3241/40080 [39:40<7:28:16,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3242/40080 [39:41<7:27:12,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3243/40080 [39:41<7:26:53,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3244/40080 [39:42<7:27:36,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3245/40080 [39:43<7:28:11,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3246/40080 [39:44<7:27:47,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3247/40080 [39:44<7:28:26,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3248/40080 [39:45<7:28:31,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3249/40080 [39:46<7:28:53,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3250/40080 [39:47<7:29:53,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5327, 'grad_norm': 2.71875, 'learning_rate': 2.4605873600932956e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2512.87, 'epoch': 0.32}
+  8%|█████████████▊                                                                                                                                                            | 3250/40080 [39:47<7:29:53,  1.36it/s]  8%|█████████████▊                                                                                                                                                            | 3251/40080 [39:47<7:32:56,  1.36it/s]  8%|█████████████▊                                                                                                                                                            | 3252/40080 [39:48<7:32:19,  1.36it/s]  8%|█████████████▊                                                                                                                                                            | 3253/40080 [39:49<7:31:11,  1.36it/s]  8%|█████████████▊                                                                                                                                                            | 3254/40080 [39:50<7:30:23,  1.36it/s]  8%|█████████████▊                                                                                                                                                            | 3255/40080 [39:50<7:30:04,  1.36it/s]  8%|█████████████▊                                                                                                                                                            | 3256/40080 [39:51<7:28:56,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3257/40080 [39:52<7:29:14,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3258/40080 [39:52<7:28:08,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3259/40080 [39:53<7:28:04,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3260/40080 [39:54<7:27:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.606, 'grad_norm': 3.734375, 'learning_rate': 2.4603426483934527e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2635.98, 'epoch': 0.33}
+  8%|█████████████▊                                                                                                                                                            | 3260/40080 [39:54<7:27:51,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3261/40080 [39:55<7:28:58,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3262/40080 [39:55<7:28:47,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3263/40080 [39:56<7:28:39,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3264/40080 [39:57<7:28:44,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3265/40080 [39:58<7:28:27,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3266/40080 [39:58<7:27:47,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3267/40080 [39:59<7:27:38,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3268/40080 [40:00<7:27:09,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3269/40080 [40:00<7:27:46,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3270/40080 [40:01<7:27:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5971, 'grad_norm': 3.4375, 'learning_rate': 2.4600971915844164e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2532.57, 'epoch': 0.33}
+  8%|█████████████▊                                                                                                                                                            | 3270/40080 [40:01<7:27:50,  1.37it/s]  8%|█████████████▊                                                                                                                                                            | 3271/40080 [40:02<7:28:11,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3272/40080 [40:03<7:28:04,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3273/40080 [40:03<7:27:45,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3274/40080 [40:04<7:28:01,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3275/40080 [40:05<7:28:01,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3276/40080 [40:06<7:27:55,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3277/40080 [40:06<7:27:46,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3278/40080 [40:07<7:28:01,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3279/40080 [40:08<7:27:37,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3280/40080 [40:08<7:27:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6051, 'grad_norm': 2.609375, 'learning_rate': 2.459850989817294e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.84, 'epoch': 0.33}
+  8%|█████████████▉                                                                                                                                                            | 3280/40080 [40:08<7:27:22,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3281/40080 [40:09<7:44:03,  1.32it/s]  8%|█████████████▉                                                                                                                                                            | 3282/40080 [40:10<7:38:37,  1.34it/s]  8%|█████████████▉                                                                                                                                                            | 3283/40080 [40:11<7:35:03,  1.35it/s]  8%|█████████████▉                                                                                                                                                            | 3284/40080 [40:11<7:32:43,  1.35it/s]  8%|█████████████▉                                                                                                                                                            | 3285/40080 [40:12<7:31:26,  1.36it/s]  8%|█████████████▉                                                                                                                                                            | 3286/40080 [40:13<7:30:05,  1.36it/s]  8%|█████████████▉                                                                                                                                                            | 3287/40080 [40:14<7:29:03,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3288/40080 [40:14<7:28:16,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3289/40080 [40:15<7:28:21,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3290/40080 [40:16<7:27:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5303, 'grad_norm': 2.3125, 'learning_rate': 2.4596040432436516e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2570.41, 'epoch': 0.33}
+  8%|█████████████▉                                                                                                                                                            | 3290/40080 [40:16<7:27:45,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3291/40080 [40:17<7:27:29,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3292/40080 [40:17<7:27:43,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3293/40080 [40:18<7:27:15,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3294/40080 [40:19<7:27:04,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3295/40080 [40:20<7:27:35,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3296/40080 [40:20<7:27:16,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3297/40080 [40:21<7:27:31,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3298/40080 [40:22<7:27:19,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3299/40080 [40:22<7:28:08,  1.37it/s]  8%|█████████████▉                                                                                                                                                            | 3300/40080 [40:23<7:28:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5508, 'grad_norm': 2.890625, 'learning_rate': 2.4593563520155144e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2198.31, 'epoch': 0.33}
+  8%|█████████████▉                                                                                                                                                            | 3300/40080 [40:23<7:28:45,  1.37it/s]  8%|██████████████                                                                                                                                                            | 3301/40080 [40:24<7:29:57,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3302/40080 [40:25<7:29:48,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3303/40080 [40:25<7:29:41,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3304/40080 [40:26<7:29:41,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3305/40080 [40:27<7:29:27,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3306/40080 [40:28<7:30:13,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3307/40080 [40:28<7:30:02,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3308/40080 [40:29<7:30:00,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3309/40080 [40:30<7:29:47,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3310/40080 [40:31<7:29:59,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5428, 'grad_norm': 3.015625, 'learning_rate': 2.459107916285366e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.5, 'epoch': 0.33}
+  8%|██████████████                                                                                                                                                            | 3310/40080 [40:31<7:29:59,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3311/40080 [40:31<7:31:06,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3312/40080 [40:32<7:31:11,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3313/40080 [40:33<7:30:55,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3314/40080 [40:33<7:29:47,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3315/40080 [40:34<7:30:26,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3316/40080 [40:35<7:30:19,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3317/40080 [40:36<7:30:46,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3318/40080 [40:36<7:29:47,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3319/40080 [40:37<7:29:47,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3320/40080 [40:38<7:29:05,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5136, 'grad_norm': 3.265625, 'learning_rate': 2.458858736206147e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2268.29, 'epoch': 0.33}
+  8%|██████████████                                                                                                                                                            | 3320/40080 [40:38<7:29:05,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3321/40080 [40:39<7:30:42,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3322/40080 [40:39<7:30:29,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3323/40080 [40:40<7:31:08,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3324/40080 [40:41<7:30:45,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3325/40080 [40:42<7:29:53,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3326/40080 [40:42<7:29:38,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3327/40080 [40:43<7:29:37,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3328/40080 [40:44<7:29:42,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3329/40080 [40:44<7:30:08,  1.36it/s]  8%|██████████████                                                                                                                                                            | 3330/40080 [40:45<7:30:23,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5684, 'grad_norm': 3.46875, 'learning_rate': 2.4586088119312582e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2519.81, 'epoch': 0.33}
+  8%|██████████████                                                                                                                                                            | 3330/40080 [40:45<7:30:23,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3331/40080 [40:46<7:29:52,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3332/40080 [40:47<7:29:23,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3333/40080 [40:47<7:30:17,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3334/40080 [40:48<7:30:27,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3335/40080 [40:49<7:30:23,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3336/40080 [40:50<7:30:45,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3337/40080 [40:50<7:30:16,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3338/40080 [40:51<7:30:40,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3339/40080 [40:52<7:30:59,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3340/40080 [40:53<7:31:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5652, 'grad_norm': 2.796875, 'learning_rate': 2.458358143614557e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2499.16, 'epoch': 0.33}
+  8%|██████████████▏                                                                                                                                                           | 3340/40080 [40:53<7:31:20,  1.36it/s]  8%|██���███████████▏                                                                                                                                                           | 3341/40080 [40:53<7:31:09,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3342/40080 [40:54<7:30:45,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3343/40080 [40:55<7:30:08,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3344/40080 [40:56<7:30:42,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3345/40080 [40:56<7:30:35,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3346/40080 [40:57<7:29:21,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3347/40080 [40:58<7:28:54,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3348/40080 [40:58<7:29:08,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3349/40080 [40:59<7:29:02,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3350/40080 [41:00<7:29:15,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5297, 'grad_norm': 3.171875, 'learning_rate': 2.4581067314103602e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.3, 'epoch': 0.33}
+  8%|██████████████▏                                                                                                                                                           | 3350/40080 [41:00<7:29:15,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3351/40080 [41:01<7:30:21,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3352/40080 [41:01<7:29:51,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3353/40080 [41:02<7:29:44,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3354/40080 [41:03<7:32:06,  1.35it/s]  8%|██████████████▏                                                                                                                                                           | 3355/40080 [41:04<7:30:55,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3356/40080 [41:04<7:30:32,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3357/40080 [41:05<7:30:43,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3358/40080 [41:06<7:30:23,  1.36it/s]  8%|██████████████▏                                                                                                                                                           | 3359/40080 [41:07<7:31:08,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3360/40080 [41:07<7:31:00,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4888, 'grad_norm': 3.0625, 'learning_rate': 2.4578545754734405e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.22, 'epoch': 0.34}
+  8%|██████████████▎                                                                                                                                                           | 3360/40080 [41:07<7:31:00,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3361/40080 [41:08<7:31:21,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3362/40080 [41:09<7:30:57,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3363/40080 [41:09<7:30:39,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3364/40080 [41:10<7:30:50,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3365/40080 [41:11<7:30:45,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3366/40080 [41:12<7:30:09,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3367/40080 [41:12<7:29:55,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3368/40080 [41:13<7:30:01,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3369/40080 [41:14<7:30:22,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3370/40080 [41:15<7:30:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5815, 'grad_norm': 2.53125, 'learning_rate': 2.4576016759590308e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.07, 'epoch': 0.34}
+  8%|██████████████▎                                                                                                                                                           | 3370/40080 [41:15<7:30:04,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3371/40080 [41:15<7:30:14,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3372/40080 [41:16<7:29:35,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3373/40080 [41:17<7:29:28,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3374/40080 [41:18<7:29:12,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3375/40080 [41:18<7:29:09,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3376/40080 [41:19<7:29:46,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3377/40080 [41:20<7:30:05,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3378/40080 [41:21<7:30:29,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3379/40080 [41:21<7:30:14,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3380/40080 [41:22<7:30:24,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5625, 'grad_norm': 3.328125, 'learning_rate': 2.4573480330228205e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2604.7, 'epoch': 0.34}
+  8%|██████████████▎                                                                                                                                                           | 3380/40080 [41:22<7:30:24,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3381/40080 [41:23<7:31:02,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3382/40080 [41:23<7:31:11,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3383/40080 [41:24<7:30:13,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3384/40080 [41:25<7:30:12,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3385/40080 [41:26<7:30:15,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3386/40080 [41:26<7:29:14,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3387/40080 [41:27<7:29:10,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3388/40080 [41:28<7:29:18,  1.36it/s]  8%|██████████████▎                                                                                                                                                           | 3389/40080 [41:29<7:28:53,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3390/40080 [41:29<7:29:37,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5208, 'grad_norm': 3.171875, 'learning_rate': 2.4570936468209565e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2298.91, 'epoch': 0.34}
+  8%|██████████████▍                                                                                                                                                           | 3390/40080 [41:29<7:29:37,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3391/40080 [41:30<7:30:19,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3392/40080 [41:31<7:30:00,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3393/40080 [41:32<7:30:18,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3394/40080 [41:32<7:30:28,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3395/40080 [41:33<7:30:29,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3396/40080 [41:34<7:30:12,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3397/40080 [41:35<7:29:15,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3398/40080 [41:35<7:28:53,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3399/40080 [41:36<7:29:21,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3400/40080 [41:37<7:30:06,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5497, 'grad_norm': 3.796875, 'learning_rate': 2.456838517510044e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.21, 'epoch': 0.34}
+  8%|██████████████▍                                                                                                                                                           | 3400/40080 [41:37<7:30:06,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3401/40080 [41:37<7:31:16,  1.35it/s]  8%|██████████████▍                                                                                                                                                           | 3402/40080 [41:38<7:31:22,  1.35it/s]  8%|██████████████▍                                                                                                                                                           | 3403/40080 [41:39<7:30:52,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3404/40080 [41:40<7:30:11,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3405/40080 [41:40<7:29:00,  1.36it/s]  8%|██████████████▍                                                                                                                                                           | 3406/40080 [41:41<7:29:02,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3407/40080 [41:42<7:28:08,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3408/40080 [41:43<7:28:20,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3409/40080 [41:43<7:28:58,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3410/40080 [41:44<7:29:23,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5188, 'grad_norm': 3.140625, 'learning_rate': 2.4565826452471447e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2538.9, 'epoch': 0.34}
+  9%|██████████████▍                                                                                                                                                           | 3410/40080 [41:44<7:29:23,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3411/40080 [41:45<7:30:04,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3412/40080 [41:46<7:30:04,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3413/40080 [41:46<7:29:34,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3414/40080 [41:47<7:29:12,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3415/40080 [41:48<7:29:38,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3416/40080 [41:48<7:29:23,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3417/40080 [41:49<7:28:55,  1.36it/s]  9%|██████████████▍                                                                                                                                                           | 3418/40080 [41:50<7:29:11,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3419/40080 [41:51<7:29:12,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3420/40080 [41:51<7:28:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5889, 'grad_norm': 3.578125, 'learning_rate': 2.456326030189779e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2385.96, 'epoch': 0.34}
+  9%|██████████████▌                                                                                                                                                           | 3420/40080 [41:51<7:28:02,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3421/40080 [41:52<7:29:09,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3422/40080 [41:53<7:30:24,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3423/40080 [41:54<7:30:42,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3424/40080 [41:54<7:30:15,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3425/40080 [41:55<7:30:16,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3426/40080 [41:56<7:30:34,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3427/40080 [41:57<7:30:12,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3428/40080 [41:57<7:30:16,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3429/40080 [41:58<7:30:32,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3430/40080 [41:59<7:29:51,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5191, 'grad_norm': 2.5625, 'learning_rate': 2.4560686724959235e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.06, 'epoch': 0.34}
+  9%|██████████████▌                                                                                                                                                           | 3430/40080 [41:59<7:29:51,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3431/40080 [42:00<7:30:36,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3432/40080 [42:00<7:29:55,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3433/40080 [42:01<7:29:52,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3434/40080 [42:02<7:29:23,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3435/40080 [42:02<7:29:37,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3436/40080 [42:03<7:29:45,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3437/40080 [42:04<7:29:22,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3438/40080 [42:05<7:30:16,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3439/40080 [42:05<7:29:06,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3440/40080 [42:06<7:29:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5515, 'grad_norm': 2.578125, 'learning_rate': 2.4558105723240127e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2525.31, 'epoch': 0.34}
+  9%|██████████████▌                                                                                                                                                           | 3440/40080 [42:06<7:29:04,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3441/40080 [42:07<7:30:01,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3442/40080 [42:08<7:29:50,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3443/40080 [42:08<7:28:46,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3444/40080 [42:09<7:28:38,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3445/40080 [42:10<7:28:26,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3446/40080 [42:11<7:28:25,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3447/40080 [42:11<7:28:54,  1.36it/s]  9%|██████████████▌                                                                                                                                                           | 3448/40080 [42:12<7:29:11,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3449/40080 [42:13<7:29:24,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3450/40080 [42:14<7:29:12,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6177, 'grad_norm': 2.96875, 'learning_rate': 2.4555517298329373e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2382.04, 'epoch': 0.34}
+  9%|██████████████▋                                                                                                                                                           | 3450/40080 [42:14<7:29:12,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3451/40080 [42:14<7:32:06,  1.35it/s]  9%|██████████████▋                                                                                                                                                           | 3452/40080 [42:15<7:30:35,  1.35it/s]  9%|██████████████▋                                                                                                                                                           | 3453/40080 [42:16<7:31:00,  1.35it/s]  9%|██████████████▋                                                                                                                                                           | 3454/40080 [42:16<7:29:30,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3455/40080 [42:17<7:28:17,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3456/40080 [42:18<7:28:45,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3457/40080 [42:19<7:27:46,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3458/40080 [42:19<7:28:01,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3459/40080 [42:20<7:28:12,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3460/40080 [42:21<7:27:15,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5418, 'grad_norm': 3.015625, 'learning_rate': 2.4552921451820453e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2343.09, 'epoch': 0.35}
+  9%|██████████████▋                                                                                                                                                           | 3460/40080 [42:21<7:27:15,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3461/40080 [42:22<7:27:23,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3462/40080 [42:22<7:25:29,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3463/40080 [42:23<7:25:39,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3464/40080 [42:24<7:25:37,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3465/40080 [42:25<7:25:24,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3466/40080 [42:25<7:25:08,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3467/40080 [42:26<7:25:26,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3468/40080 [42:27<7:25:03,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3469/40080 [42:27<7:24:16,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3470/40080 [42:28<7:26:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5588, 'grad_norm': 3.140625, 'learning_rate': 2.4550318185311426e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2374.68, 'epoch': 0.35}
+  9%|██████████████▋                                                                                                                                                           | 3470/40080 [42:28<7:26:03,  1.37it/s]  9%|██████████████▋                                                                                                                                                           | 3471/40080 [42:29<7:29:41,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3472/40080 [42:30<7:28:53,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3473/40080 [42:30<7:28:31,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3474/40080 [42:31<7:28:02,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3475/40080 [42:32<7:27:25,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3476/40080 [42:33<7:27:36,  1.36it/s]  9%|██████████████▋                                                                                                                                                           | 3477/40080 [42:33<7:27:33,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3478/40080 [42:34<7:27:17,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3479/40080 [42:35<7:26:50,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3480/40080 [42:36<7:26:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6188, 'grad_norm': 3.09375, 'learning_rate': 2.4547707500404905e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2373.24, 'epoch': 0.35}
+  9%|██████████████▊                                                                                                                                                           | 3480/40080 [42:36<7:26:22,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3481/40080 [42:36<7:26:58,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3482/40080 [42:37<7:27:25,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3483/40080 [42:38<7:27:51,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3484/40080 [42:38<7:27:50,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3485/40080 [42:39<7:27:35,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3486/40080 [42:40<7:26:40,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3487/40080 [42:41<7:26:36,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3488/40080 [42:41<7:25:58,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3489/40080 [42:42<7:25:53,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3490/40080 [42:43<7:26:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5147, 'grad_norm': 2.640625, 'learning_rate': 2.4545089398708078e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2367.93, 'epoch': 0.35}
+  9%|██████████████▊                                                                                                                                                           | 3490/40080 [42:43<7:26:26,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3491/40080 [42:44<7:27:11,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3492/40080 [42:44<7:27:29,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3493/40080 [42:45<7:28:14,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3494/40080 [42:46<7:27:34,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3495/40080 [42:47<7:26:56,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3496/40080 [42:47<7:27:06,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3497/40080 [42:48<7:26:50,  1.36it/s]  9%|██████████████▊                                                                                                                                                           | 3498/40080 [42:49<7:26:26,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3499/40080 [42:49<7:26:02,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3500/40080 [42:50<7:25:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5253, 'grad_norm': 3.609375, 'learning_rate': 2.4542463881832696e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2692.22, 'epoch': 0.35}
+  9%|██████████████▊                                                                                                                                                           | 3500/40080 [42:50<7:25:37,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3501/40080 [42:51<7:26:00,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3502/40080 [42:52<7:25:37,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3503/40080 [42:52<7:24:25,  1.37it/s]  9%|██████████████▊                                                                                                                                                           | 3504/40080 [42:53<8:34:22,  1.19it/s]  9%|██████████████▊                                                                                                                                                           | 3505/40080 [42:54<8:13:26,  1.24it/s]  9%|██████████████▊                                                                                                                                                           | 3506/40080 [42:55<7:59:21,  1.27it/s]  9%|██████████████▊                                                                                                                                                           | 3507/40080 [42:56<7:49:28,  1.30it/s]  9%|██████████████▉                                                                                                                                                           | 3508/40080 [42:56<7:41:40,  1.32it/s]  9%|██████████████▉                                                                                                                                                           | 3509/40080 [42:57<7:36:56,  1.33it/s]  9%|██████████████▉                                                                                                                                                           | 3510/40080 [42:58<7:33:45,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.5915, 'grad_norm': 2.640625, 'learning_rate': 2.453983095139507e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2574.64, 'epoch': 0.35}
+  9%|██████████████▉                                                                                                                                                           | 3510/40080 [42:58<7:33:45,  1.34it/s]  9%|██████████████▉                                                                                                                                                           | 3511/40080 [42:59<7:31:23,  1.35it/s]  9%|██████████████▉                                                                                                                                                           | 3512/40080 [42:59<7:29:46,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3513/40080 [43:00<7:28:36,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3514/40080 [43:01<7:27:56,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3515/40080 [43:02<7:26:40,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3516/40080 [43:02<7:26:03,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3517/40080 [43:03<7:26:18,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3518/40080 [43:04<7:26:27,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3519/40080 [43:04<7:25:51,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3520/40080 [43:05<7:26:35,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.563, 'grad_norm': 2.953125, 'learning_rate': 2.453719060901609e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.66, 'epoch': 0.35}
+  9%|██████████████▉                                                                                                                                                           | 3520/40080 [43:05<7:26:35,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3521/40080 [43:06<7:27:35,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3522/40080 [43:07<7:26:38,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3523/40080 [43:07<7:26:42,  1.36it/s]  9%|██████████████▉                                                                                                                                                           | 3524/40080 [43:08<7:25:41,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3525/40080 [43:09<7:24:58,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3526/40080 [43:10<7:24:47,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3527/40080 [43:10<7:24:33,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3528/40080 [43:11<7:24:18,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3529/40080 [43:12<7:24:24,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3530/40080 [43:12<7:24:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5872, 'grad_norm': 3.140625, 'learning_rate': 2.4534542856321197e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2399.74, 'epoch': 0.35}
+  9%|██████████████▉                                                                                                                                                           | 3530/40080 [43:12<7:24:10,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3531/40080 [43:13<7:25:12,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3532/40080 [43:14<7:25:01,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3533/40080 [43:15<7:25:00,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3534/40080 [43:15<7:24:18,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3535/40080 [43:16<7:24:26,  1.37it/s]  9%|██████████████▉                                                                                                                                                           | 3536/40080 [43:17<7:24:07,  1.37it/s]  9%|█████████���█████                                                                                                                                                           | 3537/40080 [43:18<7:25:17,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3538/40080 [43:18<7:24:37,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3539/40080 [43:19<7:25:12,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3540/40080 [43:20<7:25:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5894, 'grad_norm': 3.609375, 'learning_rate': 2.453188769494039e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.87, 'epoch': 0.35}
+  9%|███████████████                                                                                                                                                           | 3540/40080 [43:20<7:25:09,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3541/40080 [43:21<7:25:59,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3542/40080 [43:21<7:25:13,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3543/40080 [43:22<7:24:29,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3544/40080 [43:23<7:24:33,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3545/40080 [43:23<7:24:10,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3546/40080 [43:24<7:24:32,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3547/40080 [43:25<7:24:07,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3548/40080 [43:26<7:24:27,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3549/40080 [43:26<7:24:50,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3550/40080 [43:27<7:25:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6227, 'grad_norm': 3.53125, 'learning_rate': 2.4529225126508244e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.27, 'epoch': 0.35}
+  9%|███████████████                                                                                                                                                           | 3550/40080 [43:27<7:25:05,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3551/40080 [43:28<7:24:47,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3552/40080 [43:29<7:24:46,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3553/40080 [43:29<7:24:44,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3554/40080 [43:30<7:24:33,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3555/40080 [43:31<7:24:32,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3556/40080 [43:31<7:23:35,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3557/40080 [43:32<7:23:55,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3558/40080 [43:33<7:24:16,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3559/40080 [43:34<7:24:02,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3560/40080 [43:34<7:24:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5584, 'grad_norm': 2.828125, 'learning_rate': 2.4526555152663876e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2573.94, 'epoch': 0.36}
+  9%|███████████████                                                                                                                                                           | 3560/40080 [43:34<7:24:46,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3561/40080 [43:35<7:24:57,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3562/40080 [43:36<7:24:45,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3563/40080 [43:37<7:24:09,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3564/40080 [43:37<7:24:41,  1.37it/s]  9%|███████████████                                                                                                                                                           | 3565/40080 [43:38<7:24:41,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3566/40080 [43:39<7:24:23,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3567/40080 [43:39<7:24:06,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3568/40080 [43:40<7:23:52,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3569/40080 [43:41<7:23:12,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3570/40080 [43:42<7:22:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5686, 'grad_norm': 3.515625, 'learning_rate': 2.4523877775050974e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2386.54, 'epoch': 0.36}
+  9%|███████████████▏                                                                                                                                                          | 3570/40080 [43:42<7:22:54,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3571/40080 [43:42<7:24:15,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3572/40080 [43:43<7:24:16,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3573/40080 [43:44<7:23:50,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3574/40080 [43:45<7:24:04,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3575/40080 [43:45<7:23:59,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3576/40080 [43:46<7:22:50,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3577/40080 [43:47<7:23:06,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3578/40080 [43:48<7:23:14,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3579/40080 [43:48<7:23:55,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3580/40080 [43:49<7:24:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5596, 'grad_norm': 3.5, 'learning_rate': 2.4521192995317784e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2471.82, 'epoch': 0.36}
+  9%|███████████████▏                                                                                                                                                          | 3580/40080 [43:49<7:24:10,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3581/40080 [43:50<7:25:18,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3582/40080 [43:50<7:25:29,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3583/40080 [43:51<7:24:41,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3584/40080 [43:52<7:24:37,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3585/40080 [43:53<7:24:22,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3586/40080 [43:53<7:24:40,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3587/40080 [43:54<7:24:11,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3588/40080 [43:55<7:24:19,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3589/40080 [43:56<7:24:09,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3590/40080 [43:56<7:23:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5635, 'grad_norm': 2.96875, 'learning_rate': 2.4518500815117107e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2419.2, 'epoch': 0.36}
+  9%|███████████████▏                                                                                                                                                          | 3590/40080 [43:56<7:23:52,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3591/40080 [43:57<7:24:38,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3592/40080 [43:58<7:25:04,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3593/40080 [43:58<7:24:16,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3594/40080 [43:59<7:24:15,  1.37it/s]  9%|███████████████▏                                                                                                                                                          | 3595/40080 [44:00<7:23:35,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3596/40080 [44:01<7:23:34,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3597/40080 [44:01<7:23:14,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3598/40080 [44:02<7:23:04,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3599/40080 [44:03<7:23:12,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3600/40080 [44:04<7:24:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5983, 'grad_norm': 2.90625, 'learning_rate': 2.4515801236106297e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2501.18, 'epoch': 0.36}
+  9%|███████████████▎                                                                                                                                                          | 3600/40080 [44:04<7:24:03,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3601/40080 [44:04<7:24:41,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3602/40080 [44:05<7:26:01,  1.36it/s]  9%|███████████████▎                                                                                                                                                          | 3603/40080 [44:06<7:25:46,  1.36it/s]  9%|███████████████▎                                                                                                                                                          | 3604/40080 [44:07<7:25:17,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3605/40080 [44:07<7:24:43,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3606/40080 [44:08<7:24:37,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3607/40080 [44:09<7:24:41,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3608/40080 [44:09<7:24:37,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3609/40080 [44:10<7:24:17,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3610/40080 [44:11<7:24:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5698, 'grad_norm': 3.203125, 'learning_rate': 2.4513094259947257e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2637.18, 'epoch': 0.36}
+  9%|███████████████▎                                                                                                                                                          | 3610/40080 [44:11<7:24:10,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3611/40080 [44:12<7:24:14,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3612/40080 [44:12<7:24:38,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3613/40080 [44:13<7:23:58,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3614/40080 [44:14<7:23:58,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3615/40080 [44:15<7:23:41,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3616/40080 [44:15<7:23:28,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3617/40080 [44:16<7:22:45,  1.37it/s]  9%|██████████���████▎                                                                                                                                                          | 3618/40080 [44:17<7:22:43,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3619/40080 [44:17<7:22:49,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3620/40080 [44:18<7:22:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5449, 'grad_norm': 3.578125, 'learning_rate': 2.4510379888306458e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2418.55, 'epoch': 0.36}
+  9%|███████████████▎                                                                                                                                                          | 3620/40080 [44:18<7:22:03,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3621/40080 [44:19<7:23:47,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3622/40080 [44:20<7:23:25,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3623/40080 [44:20<7:22:40,  1.37it/s]  9%|███████████████▎                                                                                                                                                          | 3624/40080 [44:21<7:23:37,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3625/40080 [44:22<7:23:37,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3626/40080 [44:23<7:22:51,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3627/40080 [44:23<7:22:49,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3628/40080 [44:24<7:22:45,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3629/40080 [44:25<7:22:39,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3630/40080 [44:25<7:21:43,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5834, 'grad_norm': 3.90625, 'learning_rate': 2.450765812285492e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2663.24, 'epoch': 0.36}
+  9%|███████████████▍                                                                                                                                                          | 3630/40080 [44:25<7:21:43,  1.38it/s]  9%|███████████████▍                                                                                                                                                          | 3631/40080 [44:26<7:22:32,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3632/40080 [44:27<7:23:10,  1.37it/s]  9%|██████████��████▍                                                                                                                                                          | 3633/40080 [44:28<7:21:54,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3634/40080 [44:28<7:21:25,  1.38it/s]  9%|███████████████▍                                                                                                                                                          | 3635/40080 [44:29<7:21:19,  1.38it/s]  9%|███████████████▍                                                                                                                                                          | 3636/40080 [44:30<7:22:04,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3637/40080 [44:31<7:22:06,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3638/40080 [44:31<7:21:57,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3639/40080 [44:32<7:22:13,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3640/40080 [44:33<7:22:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5551, 'grad_norm': 3.6875, 'learning_rate': 2.4504928965268206e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.7, 'epoch': 0.36}
+  9%|███████████████▍                                                                                                                                                          | 3640/40080 [44:33<7:22:24,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3641/40080 [44:33<7:23:07,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3642/40080 [44:34<7:22:47,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3643/40080 [44:35<7:22:27,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3644/40080 [44:36<7:22:35,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3645/40080 [44:36<7:22:44,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3646/40080 [44:37<7:23:18,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3647/40080 [44:38<7:22:57,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3648/40080 [44:39<7:23:18,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3649/40080 [44:39<7:22:46,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3650/40080 [44:40<7:24:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5185, 'grad_norm': 3.265625, 'learning_rate': 2.450219241722644e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2353.01, 'epoch': 0.36}
+  9%|███████████████▍                                                                                                                                                          | 3650/40080 [44:40<7:24:36,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3651/40080 [44:41<7:24:37,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3652/40080 [44:42<7:23:38,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3653/40080 [44:42<7:23:03,  1.37it/s]  9%|███████████████▍                                                                                                                                                          | 3654/40080 [44:43<7:32:48,  1.34it/s]  9%|███████████████▌                                                                                                                                                          | 3655/40080 [44:44<7:29:31,  1.35it/s]  9%|███████████████▌                                                                                                                                                          | 3656/40080 [44:44<7:27:26,  1.36it/s]  9%|███████████████▌                                                                                                                                                          | 3657/40080 [44:45<7:26:32,  1.36it/s]  9%|███████████████▌                                                                                                                                                          | 3658/40080 [44:46<7:24:50,  1.36it/s]  9%|███████████████▌                                                                                                                                                          | 3659/40080 [44:47<7:24:34,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3660/40080 [44:47<7:24:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5041, 'grad_norm': 3.1875, 'learning_rate': 2.4499448480414288e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2539.95, 'epoch': 0.37}
+  9%|███████████████▌                                                                                                                                                          | 3660/40080 [44:47<7:24:02,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3661/40080 [44:48<7:24:44,  1.36it/s]  9%|███████████████▌                                                                                                                                                          | 3662/40080 [44:49<7:23:42,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3663/40080 [44:50<7:23:56,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3664/40080 [44:50<7:23:32,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3665/40080 [44:51<7:22:32,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3666/40080 [44:52<7:21:47,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3667/40080 [44:53<7:22:04,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3668/40080 [44:53<7:22:12,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3669/40080 [44:54<7:22:15,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3670/40080 [44:55<7:22:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5492, 'grad_norm': 3.25, 'learning_rate': 2.449669715652097e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2663.58, 'epoch': 0.37}
+  9%|███████████████▌                                                                                                                                                          | 3670/40080 [44:55<7:22:10,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3671/40080 [44:55<7:22:46,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3672/40080 [44:56<7:23:23,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3673/40080 [44:57<7:22:45,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3674/40080 [44:58<7:22:53,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3675/40080 [44:58<7:22:04,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3676/40080 [44:59<7:22:19,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3677/40080 [45:00<7:22:22,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3678/40080 [45:01<7:23:12,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3679/40080 [45:01<7:23:22,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3680/40080 [45:02<7:23:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4435, 'grad_norm': 2.359375, 'learning_rate': 2.449393844724025e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2529.78, 'epoch': 0.37}
+  9%|███████████████▌                                                                                                                                                          | 3680/40080 [45:02<7:23:19,  1.37it/s]  9%|██��████████████▌                                                                                                                                                          | 3681/40080 [45:03<7:22:59,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3682/40080 [45:03<7:23:05,  1.37it/s]  9%|███████████████▌                                                                                                                                                          | 3683/40080 [45:04<7:23:31,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3684/40080 [45:05<7:22:55,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3685/40080 [45:06<7:23:10,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3686/40080 [45:06<7:22:20,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3687/40080 [45:07<7:22:34,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3688/40080 [45:08<7:23:26,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3689/40080 [45:09<7:23:34,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3690/40080 [45:09<7:23:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4711, 'grad_norm': 3.46875, 'learning_rate': 2.4491172354270443e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2588.91, 'epoch': 0.37}
+  9%|███████████████▋                                                                                                                                                          | 3690/40080 [45:09<7:23:03,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3691/40080 [45:10<7:23:49,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3692/40080 [45:11<7:22:27,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3693/40080 [45:11<7:22:05,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3694/40080 [45:12<7:22:31,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3695/40080 [45:13<7:21:49,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3696/40080 [45:14<7:20:55,  1.38it/s]  9%|███████████████▋                                                                                                                                                          | 3697/40080 [45:14<7:21:10,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3698/40080 [45:15<7:20:49,  1.38it/s]  9%|███████████████▋                                                                                                                                                          | 3699/40080 [45:16<7:20:28,  1.38it/s]  9%|███████████████▋                                                                                                                                                          | 3700/40080 [45:17<7:20:48,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5515, 'grad_norm': 2.96875, 'learning_rate': 2.4488398879314405e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2383.03, 'epoch': 0.37}
+  9%|███████████████▋                                                                                                                                                          | 3700/40080 [45:17<7:20:48,  1.38it/s]  9%|███████████████▋                                                                                                                                                          | 3701/40080 [45:17<7:21:47,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3702/40080 [45:18<7:22:19,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3703/40080 [45:19<7:22:28,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3704/40080 [45:20<7:21:52,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3705/40080 [45:20<7:22:19,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3706/40080 [45:21<7:21:42,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3707/40080 [45:22<7:21:15,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3708/40080 [45:22<7:21:34,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3709/40080 [45:23<7:20:52,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3710/40080 [45:24<7:21:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5084, 'grad_norm': 2.765625, 'learning_rate': 2.4485618024079538e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2404.34, 'epoch': 0.37}
+  9%|███████████████▋                                                                                                                                                          | 3710/40080 [45:24<7:21:03,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3711/40080 [45:25<7:21:59,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3712/40080 [45:25<7:22:19,  1.37it/s]  9%|███████████████▋                                                                                                                                                          | 3713/40080 [45:26<7:22:20,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3714/40080 [45:27<7:22:08,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3715/40080 [45:28<7:22:03,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3716/40080 [45:28<7:21:26,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3717/40080 [45:29<7:22:00,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3718/40080 [45:30<7:20:58,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3719/40080 [45:30<7:21:03,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3720/40080 [45:31<7:21:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6272, 'grad_norm': 2.96875, 'learning_rate': 2.4482829790277784e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.42, 'epoch': 0.37}
+  9%|███████████████▊                                                                                                                                                          | 3720/40080 [45:31<7:21:03,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3721/40080 [45:32<7:22:27,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3722/40080 [45:33<7:22:01,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3723/40080 [45:33<7:21:05,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3724/40080 [45:34<7:20:34,  1.38it/s]  9%|███████████████▊                                                                                                                                                          | 3725/40080 [45:35<7:20:25,  1.38it/s]  9%|███████████████▊                                                                                                                                                          | 3726/40080 [45:36<7:20:26,  1.38it/s]  9%|███████████████▊                                                                                                                                                          | 3727/40080 [45:36<7:20:34,  1.38it/s]  9%|███████████████▊                                                                                                                                                          | 3728/40080 [45:37<7:20:35,  1.38it/s]  9%|███████████████▊                                                                                                                                                          | 3729/40080 [45:38<7:21:30,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3730/40080 [45:38<7:21:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5742, 'grad_norm': 3.203125, 'learning_rate': 2.4480034179625638e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2284.42, 'epoch': 0.37}
+  9%|███████████████▊                                                                                                                                                          | 3730/40080 [45:38<7:21:05,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3731/40080 [45:39<7:21:52,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3732/40080 [45:40<7:21:48,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3733/40080 [45:41<7:20:57,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3734/40080 [45:41<7:22:06,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3735/40080 [45:42<7:23:00,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3736/40080 [45:43<7:22:38,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3737/40080 [45:44<7:22:04,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3738/40080 [45:44<7:21:56,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3739/40080 [45:45<7:22:03,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3740/40080 [45:46<7:21:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5531, 'grad_norm': 3.265625, 'learning_rate': 2.4477231193844125e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2592.06, 'epoch': 0.37}
+  9%|███████████████▊                                                                                                                                                          | 3740/40080 [45:46<7:21:55,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3741/40080 [45:46<7:21:42,  1.37it/s]  9%|███████████████▊                                                                                                                                                          | 3742/40080 [45:47<7:21:58,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3743/40080 [45:48<7:22:49,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3744/40080 [45:49<7:22:33,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3745/40080 [45:49<7:22:43,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3746/40080 [45:50<7:22:31,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3747/40080 [45:51<7:21:49,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3748/40080 [45:52<7:21:57,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3749/40080 [45:52<7:21:43,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3750/40080 [45:53<7:22:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6117, 'grad_norm': 2.453125, 'learning_rate': 2.4474420834658814e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.02, 'epoch': 0.37}
+  9%|███████████████▉                                                                                                                                                          | 3750/40080 [45:53<7:22:06,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3751/40080 [45:54<7:22:55,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3752/40080 [45:55<7:23:09,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3753/40080 [45:55<7:22:43,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3754/40080 [45:56<7:22:34,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3755/40080 [45:57<7:22:15,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3756/40080 [45:57<7:21:42,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3757/40080 [45:58<7:21:42,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3758/40080 [45:59<7:21:34,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3759/40080 [46:00<7:22:30,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3760/40080 [46:00<7:21:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5261, 'grad_norm': 2.78125, 'learning_rate': 2.4471603103799818e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2634.12, 'epoch': 0.38}
+  9%|███████████████▉                                                                                                                                                          | 3760/40080 [46:00<7:21:56,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3761/40080 [46:01<7:22:17,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3762/40080 [46:02<7:21:12,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3763/40080 [46:03<7:21:17,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3764/40080 [46:03<7:22:19,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3765/40080 [46:04<7:22:00,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3766/40080 [46:05<7:21:33,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3767/40080 [46:05<7:21:59,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3768/40080 [46:06<7:21:04,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3769/40080 [46:07<7:21:02,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3770/40080 [46:08<7:21:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.623, 'grad_norm': 3.328125, 'learning_rate': 2.446877800300178e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2470.14, 'epoch': 0.38}
+  9%|███████████████▉                                                                                                                                                          | 3770/40080 [46:08<7:21:15,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3771/40080 [46:08<7:22:14,  1.37it/s]  9%|███████████████▉                                                                                                                                                          | 3772/40080 [46:09<7:21:41,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3773/40080 [46:10<7:21:17,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3774/40080 [46:11<7:21:18,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3775/40080 [46:11<7:21:08,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3776/40080 [46:12<7:21:07,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3777/40080 [46:13<7:22:02,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3778/40080 [46:13<7:21:48,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3779/40080 [46:14<7:22:25,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3780/40080 [46:15<7:21:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5036, 'grad_norm': 2.96875, 'learning_rate': 2.4465945534003887e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2491.46, 'epoch': 0.38}
+  9%|████████████████                                                                                                                                                          | 3780/40080 [46:15<7:21:41,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3781/40080 [46:16<7:22:39,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3782/40080 [46:16<7:21:37,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3783/40080 [46:17<7:20:30,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3784/40080 [46:18<7:20:06,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3785/40080 [46:19<7:20:36,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3786/40080 [46:19<7:20:36,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3787/40080 [46:20<7:20:40,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3788/40080 [46:21<7:21:31,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3789/40080 [46:22<7:21:45,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3790/40080 [46:22<7:22:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5372, 'grad_norm': 2.890625, 'learning_rate': 2.4463105698549854e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2375.22, 'epoch': 0.38}
+  9%|████████████████                                                                                                                                                          | 3790/40080 [46:22<7:22:27,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3791/40080 [46:23<7:22:21,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3792/40080 [46:24<7:21:56,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3793/40080 [46:24<7:21:29,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3794/40080 [46:25<7:21:13,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3795/40080 [46:26<7:20:36,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3796/40080 [46:27<7:20:46,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3797/40080 [46:27<7:20:15,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3798/40080 [46:28<7:20:09,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3799/40080 [46:29<7:20:25,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3800/40080 [46:30<7:20:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5727, 'grad_norm': 2.5625, 'learning_rate': 2.446025849838794e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.78, 'epoch': 0.38}
+  9%|████████████████                                                                                                                                                          | 3800/40080 [46:30<7:20:32,  1.37it/s]  9%|████████████████                                                                                                                                                          | 3801/40080 [46:30<7:20:41,  1.37it/s]  9%|████████████████▏                                                                                                                                                         | 3802/40080 [46:31<7:20:41,  1.37it/s]  9%|████████████████▏                                                                                                                                                         | 3803/40080 [46:32<7:20:20,  1.37it/s]  9%|████████████████▏                                                                                                                                                         | 3804/40080 [46:32<7:20:24,  1.37it/s]  9%|████████████████▏                                                                                                                                                         | 3805/40080 [46:33<7:20:34,  1.37it/s]  9%|████████████████▏                                                                                                                                                         | 3806/40080 [46:34<7:20:33,  1.37it/s]  9%|████████████████▏                                                                                                                                                         | 3807/40080 [46:35<7:20:23,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3808/40080 [46:35<7:20:50,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3809/40080 [46:36<7:21:00,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3810/40080 [46:37<7:21:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5809, 'grad_norm': 2.84375, 'learning_rate': 2.4457403935270933e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2429.02, 'epoch': 0.38}
+ 10%|████████████████▏                                                                                                                                                         | 3810/40080 [46:37<7:21:01,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3811/40080 [46:38<7:22:26,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3812/40080 [46:38<7:21:13,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3813/40080 [46:39<7:20:52,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3814/40080 [46:40<7:20:43,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3815/40080 [46:40<7:19:51,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3816/40080 [46:41<7:20:17,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3817/40080 [46:42<7:20:33,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3818/40080 [46:43<7:20:10,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3819/40080 [46:43<7:19:59,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3820/40080 [46:44<7:20:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5229, 'grad_norm': 3.90625, 'learning_rate': 2.4454542010956157e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2310.42, 'epoch': 0.38}
+ 10%|████████████████▏                                                                                                                                                         | 3820/40080 [46:44<7:20:27,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3821/40080 [46:45<7:21:18,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3822/40080 [46:46<7:20:59,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3823/40080 [46:46<7:21:07,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3824/40080 [46:47<7:21:09,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3825/40080 [46:48<7:21:06,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3826/40080 [46:48<7:21:12,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3827/40080 [46:49<7:22:31,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3828/40080 [46:50<7:21:53,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3829/40080 [46:51<7:21:01,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3830/40080 [46:51<7:20:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5871, 'grad_norm': 3.71875, 'learning_rate': 2.4451672727205465e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.33, 'epoch': 0.38}
+ 10%|████████████████▏                                                                                                                                                         | 3830/40080 [46:51<7:20:34,  1.37it/s] 10%|████████████████▏                                                                                                                                                         | 3831/40080 [46:52<7:20:21,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3832/40080 [46:53<7:20:53,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3833/40080 [46:54<7:21:12,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3834/40080 [46:54<7:21:16,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3835/40080 [46:55<7:20:52,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3836/40080 [46:56<7:20:29,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3837/40080 [46:57<7:19:54,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3838/40080 [46:57<7:19:46,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3839/40080 [46:58<7:19:06,  1.38it/s] 10%|████████████████▎                                                                                                                                                         | 3840/40080 [46:59<7:18:36,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.513, 'grad_norm': 3.890625, 'learning_rate': 2.4448796085785235e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2377.86, 'epoch': 0.38}
+ 10%|████████████████▎                                                                                                                                                         | 3840/40080 [46:59<7:18:36,  1.38it/s] 10%|████████████████▎                                                                                                                                                         | 3841/40080 [46:59<7:18:51,  1.38it/s] 10%|████████████████▎                                                                                                                                                         | 3842/40080 [47:00<7:19:10,  1.38it/s] 10%|████████████████▎                                                                                                                                                         | 3843/40080 [47:01<7:20:07,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3844/40080 [47:02<7:20:53,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3845/40080 [47:02<7:20:48,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3846/40080 [47:03<7:20:55,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3847/40080 [47:04<7:20:26,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3848/40080 [47:05<7:20:40,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3849/40080 [47:05<7:20:06,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3850/40080 [47:06<7:19:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.55, 'grad_norm': 3.21875, 'learning_rate': 2.4445912088466383e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.88, 'epoch': 0.38}
+ 10%|████████████████▎                                                                                                                                                         | 3850/40080 [47:06<7:19:45,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3851/40080 [47:07<7:20:39,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3852/40080 [47:07<7:20:33,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3853/40080 [47:08<7:20:49,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3854/40080 [47:09<7:19:48,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3855/40080 [47:10<7:20:39,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3856/40080 [47:10<7:21:03,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3857/40080 [47:11<7:21:01,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3858/40080 [47:12<7:20:20,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3859/40080 [47:13<7:20:36,  1.37it/s] 10%|████████████████▎                                                                                                                                                         | 3860/40080 [47:13<7:20:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5702, 'grad_norm': 2.46875, 'learning_rate': 2.444302073702435e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2648.06, 'epoch': 0.39}
+ 10%|████████████████▎                                                                                                                                                         | 3860/40080 [47:13<7:20:56,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3861/40080 [47:14<7:21:17,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3862/40080 [47:15<7:20:46,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3863/40080 [47:15<7:21:08,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3864/40080 [47:16<7:20:45,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3865/40080 [47:17<7:21:10,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3866/40080 [47:18<7:21:18,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3867/40080 [47:18<7:20:20,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3868/40080 [47:19<7:20:04,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3869/40080 [47:20<7:20:12,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3870/40080 [47:21<7:20:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.65, 'grad_norm': 3.46875, 'learning_rate': 2.444012203323911e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2429.26, 'epoch': 0.39}
+ 10%|████████████████▍                                                                                                                                                         | 3870/40080 [47:21<7:20:03,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3871/40080 [47:21<7:20:37,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3872/40080 [47:22<7:19:54,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3873/40080 [47:23<7:20:31,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3874/40080 [47:24<7:19:57,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3875/40080 [47:24<7:19:59,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3876/40080 [47:25<7:19:13,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3877/40080 [47:26<7:18:49,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3878/40080 [47:26<7:18:32,  1.38it/s] 10%|████████████████▍                                                                                                                                                         | 3879/40080 [47:27<7:18:19,  1.38it/s] 10%|████████████████▍                                                                                                                                                         | 3880/40080 [47:28<7:18:00,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5737, 'grad_norm': 3.5, 'learning_rate': 2.4437215978895155e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.38, 'epoch': 0.39}
+ 10%|████████████████▍                                                                                                                                                         | 3880/40080 [47:28<7:18:00,  1.38it/s] 10%|████████████████▍                                                                                                                                                         | 3881/40080 [47:29<7:18:58,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3882/40080 [47:29<7:19:05,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3883/40080 [47:30<7:18:25,  1.38it/s] 10%|████████████████▍                                                                                                                                                         | 3884/40080 [47:31<7:19:08,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3885/40080 [47:32<7:18:31,  1.38it/s] 10%|████████████████▍                                                                                                                                                         | 3886/40080 [47:32<7:18:44,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3887/40080 [47:33<7:19:20,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3888/40080 [47:34<7:19:01,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3889/40080 [47:34<7:19:29,  1.37it/s] 10%|████████████████▍                                                                                                                                                         | 3890/40080 [47:35<7:19:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.487, 'grad_norm': 3.453125, 'learning_rate': 2.4434302575781508e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2520.43, 'epoch': 0.39}
+ 10%|████████████████▍                                                                                                                                                         | 3890/40080 [47:35<7:19:22,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3891/40080 [47:36<7:19:21,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3892/40080 [47:37<7:18:51,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3893/40080 [47:37<7:18:09,  1.38it/s] 10%|████████████████▌                                                                                                                                                         | 3894/40080 [47:38<7:18:49,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3895/40080 [47:39<7:19:07,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3896/40080 [47:40<7:18:25,  1.38it/s] 10%|████████████████▌                                                                                                                                                         | 3897/40080 [47:40<7:18:43,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3898/40080 [47:41<7:18:44,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3899/40080 [47:42<7:19:01,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3900/40080 [47:42<7:18:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5012, 'grad_norm': 3.46875, 'learning_rate': 2.4431381825691707e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2466.26, 'epoch': 0.39}
+ 10%|████████████████▌                                                                                                                                                         | 3900/40080 [47:42<7:18:39,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3901/40080 [47:43<7:19:49,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3902/40080 [47:44<7:20:04,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3903/40080 [47:45<7:20:23,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3904/40080 [47:45<7:19:45,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3905/40080 [47:46<7:18:49,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3906/40080 [47:47<7:19:15,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3907/40080 [47:48<7:19:54,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3908/40080 [47:48<7:20:04,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3909/40080 [47:49<7:19:11,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3910/40080 [47:50<7:19:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5715, 'grad_norm': 2.328125, 'learning_rate': 2.442845373042383e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2606.85, 'epoch': 0.39}
+ 10%|████████████████▌                                                                                                                                                         | 3910/40080 [47:50<7:19:24,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3911/40080 [47:50<7:19:23,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3912/40080 [47:51<7:18:58,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3913/40080 [47:52<7:19:07,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3914/40080 [47:53<7:18:46,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3915/40080 [47:53<7:18:35,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3916/40080 [47:54<7:18:37,  1.37it/s] 10%|████████████████▌                                                                                                                                                         | 3917/40080 [47:55<7:18:13,  1.38it/s] 10%|████████████████▌                                                                                                                                                         | 3918/40080 [47:56<7:18:10,  1.38it/s] 10%|████████████████▌                                                                                                                                                         | 3919/40080 [47:56<7:18:01,  1.38it/s] 10%|████████████████▋                                                                                                                                                         | 3920/40080 [47:57<7:17:40,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5278, 'grad_norm': 3.40625, 'learning_rate': 2.4425518291780452e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2637.98, 'epoch': 0.39}
+ 10%|████████████████▋                                                                                                                                                         | 3920/40080 [47:57<7:17:40,  1.38it/s] 10%|████████████████▋                                                                                                                                                         | 3921/40080 [47:58<7:19:14,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3922/40080 [47:58<7:19:02,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3923/40080 [47:59<7:19:20,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3924/40080 [48:00<7:19:12,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3925/40080 [48:01<7:19:01,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3926/40080 [48:01<7:18:58,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3927/40080 [48:02<7:18:28,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3928/40080 [48:03<7:19:09,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3929/40080 [48:04<7:18:11,  1.38it/s] 10%|████████████████▋                                                                                                                                                         | 3930/40080 [48:04<7:18:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5401, 'grad_norm': 3.65625, 'learning_rate': 2.4422575511568697e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.92, 'epoch': 0.39}
+ 10%|████████████████▋                                                                                                                                                         | 3930/40080 [48:04<7:18:57,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3931/40080 [48:05<7:18:36,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3932/40080 [48:06<7:18:10,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3933/40080 [48:06<7:18:33,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3934/40080 [48:07<7:18:42,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3935/40080 [48:08<7:18:35,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3936/40080 [48:09<7:18:41,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3937/40080 [48:09<7:18:13,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3938/40080 [48:10<7:21:08,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3939/40080 [48:11<7:20:37,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3940/40080 [48:12<7:19:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4578, 'grad_norm': 2.75, 'learning_rate': 2.441962539160019e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2370.27, 'epoch': 0.39}
+ 10%|████████████████▋                                                                                                                                                         | 3940/40080 [48:12<7:19:32,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3941/40080 [48:12<7:19:51,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3942/40080 [48:13<7:19:03,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3943/40080 [48:14<7:19:31,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3944/40080 [48:14<7:18:25,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3945/40080 [48:15<7:18:44,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3946/40080 [48:16<7:18:21,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3947/40080 [48:17<7:19:02,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3948/40080 [48:17<7:18:58,  1.37it/s] 10%|████████████████▋                                                                                                                                                         | 3949/40080 [48:18<7:18:39,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3950/40080 [48:19<7:19:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5931, 'grad_norm': 3.6875, 'learning_rate': 2.4416667933691075e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2578.85, 'epoch': 0.39}
+ 10%|████████████████▊                                                                                                                                                         | 3950/40080 [48:19<7:19:10,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3951/40080 [48:20<7:19:08,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3952/40080 [48:20<7:19:57,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3953/40080 [48:21<7:19:19,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3954/40080 [48:22<7:19:45,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3955/40080 [48:23<7:19:40,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3956/40080 [48:23<7:19:15,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3957/40080 [48:24<7:19:42,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3958/40080 [48:25<7:19:46,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3959/40080 [48:25<7:18:25,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3960/40080 [48:26<7:18:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5504, 'grad_norm': 3.3125, 'learning_rate': 2.4413703139662016e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.95, 'epoch': 0.4}
+ 10%|████████████████▊                                                                                                                                                         | 3960/40080 [48:26<7:18:25,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3961/40080 [48:27<7:19:02,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3962/40080 [48:28<7:19:01,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3963/40080 [48:28<7:19:46,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3964/40080 [48:29<7:20:32,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3965/40080 [48:30<7:19:59,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3966/40080 [48:31<7:19:41,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3967/40080 [48:31<7:19:58,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3968/40080 [48:32<7:19:34,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3969/40080 [48:33<7:18:26,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3970/40080 [48:33<7:18:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5592, 'grad_norm': 3.609375, 'learning_rate': 2.4410731011338205e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2423.95, 'epoch': 0.4}
+ 10%|████████████████▊                                                                                                                                                         | 3970/40080 [48:33<7:18:52,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3971/40080 [48:34<7:18:14,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3972/40080 [48:35<7:18:11,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3973/40080 [48:36<7:18:21,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3974/40080 [48:36<7:18:10,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3975/40080 [48:37<7:18:28,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3976/40080 [48:38<7:18:03,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3977/40080 [48:39<7:18:02,  1.37it/s] 10%|████████████████▊                                                                                                                                                         | 3978/40080 [48:39<7:18:06,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3979/40080 [48:40<7:18:30,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3980/40080 [48:41<7:18:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5736, 'grad_norm': 3.59375, 'learning_rate': 2.4407751550549328e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2372.9, 'epoch': 0.4}
+ 10%|████████████████▉                                                                                                                                                         | 3980/40080 [48:41<7:18:53,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3981/40080 [48:41<7:18:34,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3982/40080 [48:42<7:17:56,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3983/40080 [48:43<7:17:58,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3984/40080 [48:44<7:18:02,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3985/40080 [48:44<7:18:26,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3986/40080 [48:45<7:18:09,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3987/40080 [48:46<7:18:48,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3988/40080 [48:47<7:18:49,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3989/40080 [48:47<7:18:54,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3990/40080 [48:48<7:18:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6565, 'grad_norm': 3.5625, 'learning_rate': 2.4404764759129605e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.87, 'epoch': 0.4}
+ 10%|████████████████▉                                                                                                                                                         | 3990/40080 [48:48<7:18:09,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3991/40080 [48:49<7:18:39,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3992/40080 [48:49<7:18:47,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3993/40080 [48:50<7:19:13,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3994/40080 [48:51<7:18:33,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3995/40080 [48:52<7:18:49,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3996/40080 [48:52<7:17:58,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3997/40080 [48:53<7:18:08,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3998/40080 [48:54<7:18:53,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 3999/40080 [48:55<7:18:14,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4000/40080 [48:55<7:17:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5468, 'grad_norm': 2.53125, 'learning_rate': 2.4401770638917754e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2597.7, 'epoch': 0.4}
+ 10%|████████████████▉                                                                                                                                                         | 4000/40080 [48:55<7:17:48,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4001/40080 [48:56<7:18:17,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4002/40080 [48:57<7:18:46,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4003/40080 [48:58<7:18:21,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4004/40080 [48:58<7:18:24,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4005/40080 [48:59<7:18:42,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4006/40080 [49:00<7:18:18,  1.37it/s] 10%|████████████████▉                                                                                                                                                         | 4007/40080 [49:00<7:18:37,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4008/40080 [49:01<7:19:14,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4009/40080 [49:02<7:18:28,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4010/40080 [49:03<7:19:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5964, 'grad_norm': 3.28125, 'learning_rate': 2.4398769191757013e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2362.27, 'epoch': 0.4}
+ 10%|█████████████████                                                                                                                                                         | 4010/40080 [49:03<7:19:37,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4011/40080 [49:03<7:20:07,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4012/40080 [49:04<7:19:30,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4013/40080 [49:05<7:18:31,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4014/40080 [49:06<7:18:28,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4015/40080 [49:06<7:18:10,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4016/40080 [49:07<7:18:01,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4017/40080 [49:08<7:18:12,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4018/40080 [49:08<7:17:52,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4019/40080 [49:09<7:18:27,  1.37it/s] 10%|██��██████████████                                                                                                                                                         | 4020/40080 [49:10<7:18:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5754, 'grad_norm': 4.34375, 'learning_rate': 2.4395760419495125e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2248.82, 'epoch': 0.4}
+ 10%|█████████████████                                                                                                                                                         | 4020/40080 [49:10<7:18:06,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4021/40080 [49:11<7:18:08,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4022/40080 [49:11<7:17:53,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4023/40080 [49:12<7:18:25,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4024/40080 [49:13<7:18:13,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4025/40080 [49:14<7:17:57,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4026/40080 [49:14<7:17:02,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4027/40080 [49:15<7:17:20,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4028/40080 [49:16<7:17:55,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4029/40080 [49:16<7:17:58,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4030/40080 [49:17<7:17:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5514, 'grad_norm': 2.78125, 'learning_rate': 2.439274432398435e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.58, 'epoch': 0.4}
+ 10%|█████████████████                                                                                                                                                         | 4030/40080 [49:17<7:17:23,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4031/40080 [49:18<7:18:33,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4032/40080 [49:19<7:19:02,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4033/40080 [49:19<7:18:35,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4034/40080 [49:20<7:18:37,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4035/40080 [49:21<7:17:20,  1.37it/s] 10%|█████████████████                                                                                                                                                         | 4036/40080 [49:22<7:16:53,  1.38it/s] 10%|█████████████████                                                                                                                                                         | 4037/40080 [49:22<7:17:09,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4038/40080 [49:23<7:17:35,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4039/40080 [49:24<7:18:24,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4040/40080 [49:24<7:18:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6159, 'grad_norm': 2.8125, 'learning_rate': 2.4389720907081447e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.41, 'epoch': 0.4}
+ 10%|█████████████████▏                                                                                                                                                        | 4040/40080 [49:24<7:18:19,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4041/40080 [49:25<7:19:01,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4042/40080 [49:26<7:18:35,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4043/40080 [49:27<7:19:07,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4044/40080 [49:27<7:19:17,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4045/40080 [49:28<7:19:10,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4046/40080 [49:29<7:18:55,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4047/40080 [49:30<7:18:37,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4048/40080 [49:30<7:17:52,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4049/40080 [49:31<7:18:14,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4050/40080 [49:32<7:18:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5052, 'grad_norm': 3.078125, 'learning_rate': 2.438669017064769e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2467.85, 'epoch': 0.4}
+ 10%|█████████████████▏                                                                                                                                                        | 4050/40080 [49:32<7:18:29,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4051/40080 [49:33<7:18:38,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4052/40080 [49:33<7:17:47,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4053/40080 [49:34<7:17:30,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4054/40080 [49:35<7:17:15,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4055/40080 [49:35<7:17:22,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4056/40080 [49:36<7:17:16,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4057/40080 [49:37<7:17:46,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4058/40080 [49:38<7:17:32,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4059/40080 [49:38<7:16:41,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4060/40080 [49:39<7:16:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5493, 'grad_norm': 3.46875, 'learning_rate': 2.4383652116548857e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2605.98, 'epoch': 0.41}
+ 10%|█████████████████▏                                                                                                                                                        | 4060/40080 [49:39<7:16:48,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4061/40080 [49:40<7:17:08,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4062/40080 [49:41<7:17:17,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4063/40080 [49:41<7:17:48,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4064/40080 [49:42<7:17:17,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4065/40080 [49:43<7:17:23,  1.37it/s] 10%|█████████████████▏                                                                                                                                                        | 4066/40080 [49:43<7:17:33,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4067/40080 [49:44<7:17:48,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4068/40080 [49:45<7:17:34,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4069/40080 [49:46<7:17:22,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4070/40080 [49:46<7:16:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5805, 'grad_norm': 2.90625, 'learning_rate': 2.4380606746655228e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2334.34, 'epoch': 0.41}
+ 10%|█████████████████▎                                                                                                                                                        | 4070/40080 [49:46<7:16:52,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4071/40080 [49:47<7:16:27,  1.38it/s] 10%|█████████████████▎                                                                                                                                                        | 4072/40080 [49:48<7:16:30,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4073/40080 [49:49<7:16:49,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4074/40080 [49:49<7:16:14,  1.38it/s] 10%|█████████████████▎                                                                                                                                                        | 4075/40080 [49:50<7:16:53,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4076/40080 [49:51<7:16:12,  1.38it/s] 10%|█████████████████▎                                                                                                                                                        | 4077/40080 [49:51<7:15:47,  1.38it/s] 10%|█████████████████▎                                                                                                                                                        | 4078/40080 [49:52<7:16:51,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4079/40080 [49:53<7:15:46,  1.38it/s] 10%|█████████████████▎                                                                                                                                                        | 4080/40080 [49:54<7:16:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5583, 'grad_norm': 3.125, 'learning_rate': 2.437755406284159e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2321.28, 'epoch': 0.41}
+ 10%|█████████████████▎                                                                                                                                                        | 4080/40080 [49:54<7:16:54,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4081/40080 [49:54<7:17:44,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4082/40080 [49:55<7:17:59,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4083/40080 [49:56<7:17:31,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4084/40080 [49:57<7:17:05,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4085/40080 [49:57<7:16:40,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4086/40080 [49:58<7:16:51,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4087/40080 [49:59<7:16:47,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4088/40080 [49:59<7:17:00,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4089/40080 [50:00<7:17:39,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4090/40080 [50:01<7:16:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6618, 'grad_norm': 3.90625, 'learning_rate': 2.437449406698723e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.02, 'epoch': 0.41}
+ 10%|█████████████████▎                                                                                                                                                        | 4090/40080 [50:01<7:16:32,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4091/40080 [50:02<7:17:54,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4092/40080 [50:02<7:17:48,  1.37it/s] 10%|█████████████████▎                                                                                                                                                        | 4093/40080 [50:04<8:30:41,  1.17it/s] 10%|█████████████████▎                                                                                                                                                        | 4094/40080 [50:04<8:08:32,  1.23it/s] 10%|█████████████████▎                                                                                                                                                        | 4095/40080 [50:05<7:53:26,  1.27it/s] 10%|█████████████████▎                                                                                                                                                        | 4096/40080 [50:06<7:43:26,  1.29it/s] 10%|█████████████████▍                                                                                                                                                        | 4097/40080 [50:06<7:35:07,  1.32it/s] 10%|█████████████████▍                                                                                                                                                        | 4098/40080 [50:07<7:29:05,  1.34it/s] 10%|█████████████████▍                                                                                                                                                        | 4099/40080 [50:08<7:25:28,  1.35it/s] 10%|█████████████████▍                                                                                                                                                        | 4100/40080 [50:09<7:21:58,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5474, 'grad_norm': 4.28125, 'learning_rate': 2.4371426760975934e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.58, 'epoch': 0.41}
+ 10%|█████████████████▍                                                                                                                                                        | 4100/40080 [50:09<7:21:58,  1.36it/s] 10%|█████████████████▍                                                                                                                                                        | 4101/40080 [50:09<7:21:01,  1.36it/s] 10%|█████████████████▍                                                                                                                                                        | 4102/40080 [50:10<7:19:59,  1.36it/s] 10%|█████████████████▍                                                                                                                                                        | 4103/40080 [50:11<7:18:51,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4104/40080 [50:12<7:19:02,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4105/40080 [50:12<7:17:36,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4106/40080 [50:13<7:17:01,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4107/40080 [50:14<7:17:09,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4108/40080 [50:14<7:17:56,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4109/40080 [50:15<7:18:02,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4110/40080 [50:16<7:17:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6462, 'grad_norm': 2.90625, 'learning_rate': 2.4368352146696004e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2479.24, 'epoch': 0.41}
+ 10%|█████████████████▍                                                                                                                                                        | 4110/40080 [50:16<7:17:02,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4111/40080 [50:17<7:17:45,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4112/40080 [50:17<7:17:08,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4113/40080 [50:18<7:16:57,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4114/40080 [50:19<7:16:24,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4115/40080 [50:20<7:16:21,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4116/40080 [50:20<7:16:17,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4117/40080 [50:21<7:16:22,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4118/40080 [50:22<7:16:32,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4119/40080 [50:22<7:16:35,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4120/40080 [50:23<7:16:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5162, 'grad_norm': 2.640625, 'learning_rate': 2.4365270226040215e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2587.72, 'epoch': 0.41}
+ 10%|█████████████████▍                                                                                                                                                        | 4120/40080 [50:23<7:16:40,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4121/40080 [50:24<7:16:42,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4122/40080 [50:25<7:17:05,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4123/40080 [50:25<7:16:45,  1.37it/s] 10%|█████████████████▍                                                                                                                                                        | 4124/40080 [50:26<7:15:48,  1.38it/s] 10%|█████████████████▍                                                                                                                                                        | 4125/40080 [50:27<7:16:43,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4126/40080 [50:28<7:15:45,  1.38it/s] 10%|█████████████████▌                                                                                                                                                        | 4127/40080 [50:28<7:16:19,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4128/40080 [50:29<7:16:26,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4129/40080 [50:30<7:16:50,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4130/40080 [50:30<7:16:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5806, 'grad_norm': 3.3125, 'learning_rate': 2.4362181000905864e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2513.64, 'epoch': 0.41}
+ 10%|█████████████████▌                                                                                                                                                        | 4130/40080 [50:30<7:16:38,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4131/40080 [50:31<7:17:32,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4132/40080 [50:32<7:17:27,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4133/40080 [50:33<7:17:11,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4134/40080 [50:33<7:16:11,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4135/40080 [50:34<7:15:31,  1.38it/s] 10%|█████████████████▌                                                                                                                                                        | 4136/40080 [50:35<7:15:38,  1.38it/s] 10%|█████████████████▌                                                                                                                                                        | 4137/40080 [50:36<7:15:46,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4138/40080 [50:36<7:16:17,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4139/40080 [50:37<7:16:20,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4140/40080 [50:38<7:15:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5458, 'grad_norm': 2.546875, 'learning_rate': 2.435908447319473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2371.01, 'epoch': 0.41}
+ 10%|█████████████████▌                                                                                                                                                        | 4140/40080 [50:38<7:15:41,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4141/40080 [50:39<7:17:22,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4142/40080 [50:39<7:16:23,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4143/40080 [50:40<7:15:38,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4144/40080 [50:41<7:16:50,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4145/40080 [50:41<7:16:05,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4146/40080 [50:42<7:15:52,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4147/40080 [50:43<7:15:53,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4148/40080 [50:44<7:15:59,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4149/40080 [50:44<7:15:58,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4150/40080 [50:45<7:15:25,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.587, 'grad_norm': 2.78125, 'learning_rate': 2.435598064481309e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.3, 'epoch': 0.41}
+ 10%|█████████████████▌                                                                                                                                                        | 4150/40080 [50:45<7:15:25,  1.38it/s] 10%|█████████████████▌                                                                                                                                                        | 4151/40080 [50:46<7:16:12,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4152/40080 [50:47<7:15:18,  1.38it/s] 10%|█████████████████▌                                                                                                                                                        | 4153/40080 [50:47<7:15:51,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4154/40080 [50:48<7:15:49,  1.37it/s] 10%|█████████████████▌                                                                                                                                                        | 4155/40080 [50:49<7:15:47,  1.37it/s] 10%|█████████████████▋                                                                                                                                                        | 4156/40080 [50:49<7:15:54,  1.37it/s] 10%|█████████████████▋                                                                                                                                                        | 4157/40080 [50:50<7:15:40,  1.37it/s] 10%|█████████████████▋                                                                                                                                                        | 4158/40080 [50:51<7:14:44,  1.38it/s] 10%|█████████████████▋                                                                                                                                                        | 4159/40080 [50:52<7:15:40,  1.37it/s] 10%|█████████████████▋                                                                                                                                                        | 4160/40080 [50:52<7:16:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5834, 'grad_norm': 2.609375, 'learning_rate': 2.4352869517671728e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2405.91, 'epoch': 0.42}
+ 10%|█████████████████▋                                                                                                                                                        | 4160/40080 [50:52<7:16:07,  1.37it/s] 10%|█████████████████▋                                                                                                                                                        | 4161/40080 [50:53<7:18:06,  1.37it/s] 10%|█████████████████▋                                                                                                                                                        | 4162/40080 [50:54<7:20:15,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4163/40080 [50:55<7:20:33,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4164/40080 [50:55<7:28:19,  1.34it/s] 10%|█████████████████▋                                                                                                                                                        | 4165/40080 [50:56<7:25:45,  1.34it/s] 10%|█████████████████▋                                                                                                                                                        | 4166/40080 [50:57<7:25:45,  1.34it/s] 10%|█████████████████▋                                                                                                                                                        | 4167/40080 [50:58<7:23:01,  1.35it/s] 10%|█████████████████▋                                                                                                                                                        | 4168/40080 [50:58<7:21:52,  1.35it/s] 10%|█████████████████▋                                                                                                                                                        | 4169/40080 [50:59<7:29:48,  1.33it/s] 10%|█████████████████▋                                                                                                                                                        | 4170/40080 [51:00<7:29:33,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.5347, 'grad_norm': 3.390625, 'learning_rate': 2.43497510936859e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2445.15, 'epoch': 0.42}
+ 10%|█████████████████▋                                                                                                                                                        | 4170/40080 [51:00<7:29:33,  1.33it/s] 10%|█████████████████▋                                                                                                                                                        | 4171/40080 [51:01<7:29:27,  1.33it/s] 10%|█████████████████▋                                                                                                                                                        | 4172/40080 [51:01<7:30:13,  1.33it/s] 10%|█████████████████▋                                                                                                                                                        | 4173/40080 [51:02<7:31:07,  1.33it/s] 10%|█████████████████▋                                                                                                                                                        | 4174/40080 [51:03<7:26:12,  1.34it/s] 10%|█████████████████▋                                                                                                                                                        | 4175/40080 [51:04<7:22:53,  1.35it/s] 10%|█████████████████▋                                                                                                                                                        | 4176/40080 [51:04<7:20:28,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4177/40080 [51:05<7:18:46,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4178/40080 [51:06<7:18:58,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4179/40080 [51:06<7:18:39,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4180/40080 [51:07<7:18:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5869, 'grad_norm': 3.296875, 'learning_rate': 2.4346625374775372e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2506.63, 'epoch': 0.42}
+ 10%|█████████████████▋                                                                                                                                                        | 4180/40080 [51:07<7:18:08,  1.37it/s] 10%|█████████████████▋                                                                                                                                                        | 4181/40080 [51:08<7:21:23,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4182/40080 [51:09<7:20:09,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4183/40080 [51:09<7:19:29,  1.36it/s] 10%|█████████████████▋                                                                                                                                                        | 4184/40080 [51:10<7:18:46,  1.36it/s] 10%|█████████████████▊                                                                                                                                                        | 4185/40080 [51:11<7:18:55,  1.36it/s] 10%|█████████████████▊                                                                                                                                                        | 4186/40080 [51:12<7:18:22,  1.36it/s] 10%|█████████████████▊                                                                                                                                                        | 4187/40080 [51:12<7:17:23,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4188/40080 [51:13<7:17:21,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4189/40080 [51:14<7:16:50,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4190/40080 [51:14<7:16:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4689, 'grad_norm': 2.671875, 'learning_rate': 2.4343492362864395e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.72, 'epoch': 0.42}
+ 10%|█████████████████▊                                                                                                                                                        | 4190/40080 [51:15<7:16:52,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4191/40080 [51:15<7:16:16,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4192/40080 [51:16<7:16:10,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4193/40080 [51:17<7:16:00,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4194/40080 [51:17<7:14:59,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4195/40080 [51:18<7:14:46,  1.38it/s] 10%|█████████████████▊                                                                                                                                                        | 4196/40080 [51:19<7:14:52,  1.38it/s] 10%|█████████████████▊                                                                                                                                                        | 4197/40080 [51:20<7:14:46,  1.38it/s] 10%|█████████████████▊                                                                                                                                                        | 4198/40080 [51:20<7:15:22,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4199/40080 [51:21<7:15:50,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4200/40080 [51:22<7:15:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5893, 'grad_norm': 3.765625, 'learning_rate': 2.43403520598817e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2395.07, 'epoch': 0.42}
+ 10%|█████████████████▊                                                                                                                                                        | 4200/40080 [51:22<7:15:46,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4201/40080 [51:23<7:16:35,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4202/40080 [51:23<7:16:19,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4203/40080 [51:24<7:15:26,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4204/40080 [51:25<7:15:06,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4205/40080 [51:25<7:15:43,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4206/40080 [51:26<7:16:02,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4207/40080 [51:27<7:15:32,  1.37it/s] 10%|█████████████████▊                                                                                                                                                        | 4208/40080 [51:28<7:15:12,  1.37it/s] 11%|█████████████████▊                                                                                                                                                        | 4209/40080 [51:28<7:15:46,  1.37it/s] 11%|█████████████████▊                                                                                                                                                        | 4210/40080 [51:29<7:15:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5039, 'grad_norm': 2.875, 'learning_rate': 2.433720446776052e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2406.24, 'epoch': 0.42}
+ 11%|█████████████████▊                                                                                                                                                        | 4210/40080 [51:29<7:15:31,  1.37it/s] 11%|█████████████████▊                                                                                                                                                        | 4211/40080 [51:30<7:15:56,  1.37it/s] 11%|█████████████████▊                                                                                                                                                        | 4212/40080 [51:31<7:15:11,  1.37it/s] 11%|█████████████████▊                                                                                                                                                        | 4213/40080 [51:31<7:15:25,  1.37it/s] 11%|█████████████████▊                                                                                                                                                        | 4214/40080 [51:32<7:15:30,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4215/40080 [51:33<7:16:02,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4216/40080 [51:33<7:15:12,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4217/40080 [51:34<7:15:49,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4218/40080 [51:35<7:15:00,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4219/40080 [51:36<7:15:35,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4220/40080 [51:36<7:15:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5541, 'grad_norm': 2.734375, 'learning_rate': 2.4334049588438578e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2260.91, 'epoch': 0.42}
+ 11%|█████████████████▉                                                                                                                                                        | 4220/40080 [51:36<7:15:38,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4221/40080 [51:37<7:16:06,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4222/40080 [51:38<7:15:22,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4223/40080 [51:39<7:15:27,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4224/40080 [51:39<7:15:04,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4225/40080 [51:40<7:14:49,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4226/40080 [51:41<7:14:58,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4227/40080 [51:41<7:14:19,  1.38it/s] 11%|█████████████████▉                                                                                                                                                        | 4228/40080 [51:42<7:14:12,  1.38it/s] 11%|█████████████████▉                                                                                                                                                        | 4229/40080 [51:43<7:15:28,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4230/40080 [51:44<7:15:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5895, 'grad_norm': 4.0, 'learning_rate': 2.433088742385806e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2364.37, 'epoch': 0.42}
+ 11%|█████████████████▉                                                                                                                                                        | 4230/40080 [51:44<7:15:18,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4231/40080 [51:44<7:16:35,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4232/40080 [51:45<7:15:20,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4233/40080 [51:46<7:15:20,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4234/40080 [51:47<7:15:45,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4235/40080 [51:47<7:15:29,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4236/40080 [51:48<7:15:22,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4237/40080 [51:49<7:15:53,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4238/40080 [51:49<7:15:13,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4239/40080 [51:50<7:15:56,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4240/40080 [51:51<7:15:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4817, 'grad_norm': 3.171875, 'learning_rate': 2.432771797596567e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2583.05, 'epoch': 0.42}
+ 11%|█████████████████▉                                                                                                                                                        | 4240/40080 [51:51<7:15:41,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4241/40080 [51:52<7:15:53,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4242/40080 [51:52<7:15:51,  1.37it/s] 11%|█████████████████▉                                                                                                                                                        | 4243/40080 [51:53<7:15:58,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4244/40080 [51:54<7:15:32,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4245/40080 [51:55<7:18:47,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4246/40080 [51:55<7:21:48,  1.35it/s] 11%|██████████████████                                                                                                                                                        | 4247/40080 [51:56<7:22:30,  1.35it/s] 11%|██████████████████                                                                                                                                                        | 4248/40080 [51:57<7:19:51,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4249/40080 [51:58<7:19:09,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4250/40080 [51:58<7:18:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4883, 'grad_norm': 3.21875, 'learning_rate': 2.432454124671257e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.78, 'epoch': 0.42}
+ 11%|██████████████████                                                                                                                                                        | 4250/40080 [51:58<7:18:04,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4251/40080 [51:59<7:17:35,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4252/40080 [52:00<7:16:36,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4253/40080 [52:00<7:15:54,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4254/40080 [52:01<7:15:33,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4255/40080 [52:02<7:15:21,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4256/40080 [52:03<7:16:53,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4257/40080 [52:03<7:15:50,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4258/40080 [52:04<7:15:16,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4259/40080 [52:05<7:15:26,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4260/40080 [52:06<7:18:57,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5259, 'grad_norm': 2.890625, 'learning_rate': 2.4321357238054408e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.14, 'epoch': 0.43}
+ 11%|██████████████████                                                                                                                                                        | 4260/40080 [52:06<7:18:57,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4261/40080 [52:06<7:22:11,  1.35it/s] 11%|██████████████████                                                                                                                                                        | 4262/40080 [52:07<7:19:57,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4263/40080 [52:08<7:17:50,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4264/40080 [52:09<7:17:18,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4265/40080 [52:09<7:16:18,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4266/40080 [52:10<7:19:50,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4267/40080 [52:11<7:21:13,  1.35it/s] 11%|██████████████████                                                                                                                                                        | 4268/40080 [52:11<7:19:38,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4269/40080 [52:12<7:18:27,  1.36it/s] 11%|██████████████████                                                                                                                                                        | 4270/40080 [52:13<7:16:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5294, 'grad_norm': 3.328125, 'learning_rate': 2.4318165951951325e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.56, 'epoch': 0.43}
+ 11%|██████████████████                                                                                                                                                        | 4270/40080 [52:13<7:16:42,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4271/40080 [52:14<7:16:41,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4272/40080 [52:14<7:15:35,  1.37it/s] 11%|██████████████████                                                                                                                                                        | 4273/40080 [52:15<7:15:22,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4274/40080 [52:16<7:15:14,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4275/40080 [52:17<7:15:22,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4276/40080 [52:17<7:15:08,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4277/40080 [52:18<7:15:20,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4278/40080 [52:19<7:15:04,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4279/40080 [52:19<7:15:18,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4280/40080 [52:20<7:14:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5458, 'grad_norm': 2.75, 'learning_rate': 2.431496739036793e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.33, 'epoch': 0.43}
+ 11%|██████████████████▏                                                                                                                                                       | 4280/40080 [52:20<7:14:53,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4281/40080 [52:21<7:15:05,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4282/40080 [52:22<7:14:09,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4283/40080 [52:22<7:14:28,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4284/40080 [52:23<7:13:39,  1.38it/s] 11%|██████████████████▏                                                                                                                                                       | 4285/40080 [52:24<7:12:32,  1.38it/s] 11%|██████████████████▏                                                                                                                                                       | 4286/40080 [52:25<7:12:52,  1.38it/s] 11%|██████████████████▏                                                                                                                                                       | 4287/40080 [52:25<7:13:03,  1.38it/s] 11%|██████████████████▏                                                                                                                                                       | 4288/40080 [52:26<7:12:18,  1.38it/s] 11%|██████████████████▏                                                                                                                                                       | 4289/40080 [52:27<7:13:24,  1.38it/s] 11%|██████████████████▏                                                                                                                                                       | 4290/40080 [52:27<7:13:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5095, 'grad_norm': 2.6875, 'learning_rate': 2.4311761555273326e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2250.36, 'epoch': 0.43}
+ 11%|██████████████████▏                                                                                                                                                       | 4290/40080 [52:27<7:13:29,  1.38it/s] 11%|██████████████████▏                                                                                                                                                       | 4291/40080 [52:28<7:15:34,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4292/40080 [52:29<7:15:34,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4293/40080 [52:30<7:15:05,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4294/40080 [52:30<7:15:20,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4295/40080 [52:31<7:15:17,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4296/40080 [52:32<7:15:28,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4297/40080 [52:33<7:15:41,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4298/40080 [52:33<7:14:35,  1.37it/s] 11%|██████████████████▏                                                                                                                                                       | 4299/40080 [52:34<7:17:40,  1.36it/s] 11%|██████████████████▏                                                                                                                                                       | 4300/40080 [52:35<7:21:40,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5322, 'grad_norm': 3.328125, 'learning_rate': 2.4308548448641078e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2285.98, 'epoch': 0.43}
+ 11%|██████████████████▏                                                                                                                                                       | 4300/40080 [52:35<7:21:40,  1.35it/s] 11%|██████████████████▏                                                                                                                                                       | 4301/40080 [52:36<7:25:58,  1.34it/s] 11%|██████████████████▏                                                                                                                                                       | 4302/40080 [52:36<7:23:09,  1.35it/s] 11%|██████████████████▎                                                                                                                                                       | 4303/40080 [52:37<7:20:24,  1.35it/s] 11%|██████████████████▎                                                                                                                                                       | 4304/40080 [52:38<7:18:45,  1.36it/s] 11%|██��███████████████▎                                                                                                                                                       | 4305/40080 [52:39<7:17:30,  1.36it/s] 11%|██████████████████▎                                                                                                                                                       | 4306/40080 [52:39<7:17:43,  1.36it/s] 11%|██████████████████▎                                                                                                                                                       | 4307/40080 [52:40<7:21:25,  1.35it/s] 11%|██████████████████▎                                                                                                                                                       | 4308/40080 [52:41<7:23:07,  1.35it/s] 11%|██████████████████▎                                                                                                                                                       | 4309/40080 [52:42<7:24:53,  1.34it/s] 11%|██████████████████▎                                                                                                                                                       | 4310/40080 [52:42<7:24:55,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.551, 'grad_norm': 2.71875, 'learning_rate': 2.430532807244923e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2347.4, 'epoch': 0.43}
+ 11%|██████████████████▎                                                                                                                                                       | 4310/40080 [52:42<7:24:55,  1.34it/s] 11%|██████████████████▎                                                                                                                                                       | 4311/40080 [52:43<7:25:49,  1.34it/s] 11%|██████████████████▎                                                                                                                                                       | 4312/40080 [52:44<7:25:27,  1.34it/s] 11%|██████████████████▎                                                                                                                                                       | 4313/40080 [52:44<7:22:00,  1.35it/s] 11%|██████████████████▎                                                                                                                                                       | 4314/40080 [52:45<7:19:50,  1.36it/s] 11%|██████████████████▎                                                                                                                                                       | 4315/40080 [52:46<7:18:31,  1.36it/s] 11%|██████████████████▎                                                                                                                                                       | 4316/40080 [52:47<7:16:27,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4317/40080 [52:47<7:15:16,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4318/40080 [52:48<7:14:46,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4319/40080 [52:49<7:14:47,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4320/40080 [52:50<7:15:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4959, 'grad_norm': 2.421875, 'learning_rate': 2.4302100428680314e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2469.96, 'epoch': 0.43}
+ 11%|██████████████████▎                                                                                                                                                       | 4320/40080 [52:50<7:15:16,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4321/40080 [52:50<7:14:03,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4322/40080 [52:51<7:13:14,  1.38it/s] 11%|██████████████████▎                                                                                                                                                       | 4323/40080 [52:52<7:13:29,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4324/40080 [52:52<7:13:50,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4325/40080 [52:53<7:13:02,  1.38it/s] 11%|██████████████████▎                                                                                                                                                       | 4326/40080 [52:54<7:12:54,  1.38it/s] 11%|██████████████████▎                                                                                                                                                       | 4327/40080 [52:55<7:13:24,  1.37it/s] 11%|██████████████████▎                                                                                                                                                       | 4328/40080 [52:55<7:12:51,  1.38it/s] 11%|██████████████████▎                                                                                                                                                       | 4329/40080 [52:56<7:12:46,  1.38it/s] 11%|██████████████████▎                                                                                                                                                       | 4330/40080 [52:57<7:17:27,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5482, 'grad_norm': 3.046875, 'learning_rate': 2.4298865519321317e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2174.4, 'epoch': 0.43}
+ 11%|██████████████████▎                                                                                                                                                       | 4330/40080 [52:57<7:17:27,  1.36it/s] 11%|██████████████████▎                                                                                                                                                       | 4331/40080 [52:58<7:21:05,  1.35it/s] 11%|██████████████████▎                                                                                                                                                       | 4332/40080 [52:58<7:18:59,  1.36it/s] 11%|██████████████████▍                                                                                                                                                       | 4333/40080 [52:59<7:17:19,  1.36it/s] 11%|██████████████████▍                                                                                                                                                       | 4334/40080 [53:00<7:17:21,  1.36it/s] 11%|██████████████████▍                                                                                                                                                       | 4335/40080 [53:01<7:16:06,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4336/40080 [53:01<7:15:25,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4337/40080 [53:02<7:17:52,  1.36it/s] 11%|██████████████████▍                                                                                                                                                       | 4338/40080 [53:03<7:17:41,  1.36it/s] 11%|██████████████████▍                                                                                                                                                       | 4339/40080 [53:03<7:16:58,  1.36it/s] 11%|██████████████████▍                                                                                                                                                       | 4340/40080 [53:04<7:16:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5648, 'grad_norm': 3.625, 'learning_rate': 2.4295623346363713e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2500.3, 'epoch': 0.43}
+ 11%|██████████████████▍                                                                                                                                                       | 4340/40080 [53:04<7:16:22,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4341/40080 [53:05<7:16:33,  1.36it/s] 11%|██████████████████▍                                                                                                                                                       | 4342/40080 [53:06<7:16:10,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4343/40080 [53:06<7:15:17,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4344/40080 [53:07<7:14:31,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4345/40080 [53:08<7:14:00,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4346/40080 [53:09<7:12:43,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4347/40080 [53:09<7:12:49,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4348/40080 [53:10<7:13:02,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4349/40080 [53:11<7:13:18,  1.37it/s] 11%|██████████████████▍                                                                                                                                                       | 4350/40080 [53:11<7:13:03,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5281, 'grad_norm': 3.734375, 'learning_rate': 2.4292373911803447e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2461.61, 'epoch': 0.43}
+ 11%|██████████████████▍                                                                                                                                                       | 4350/40080 [53:11<7:13:03,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4351/40080 [53:12<7:12:47,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4352/40080 [53:13<7:12:28,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4353/40080 [53:14<7:12:06,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4354/40080 [53:14<7:11:51,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4355/40080 [53:15<7:12:00,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4356/40080 [53:16<7:12:00,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4357/40080 [53:17<7:12:07,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4358/40080 [53:17<7:12:34,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4359/40080 [53:18<7:11:46,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4360/40080 [53:19<7:12:25,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4731, 'grad_norm': 3.21875, 'learning_rate': 2.4289117217640922e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2301.74, 'epoch': 0.44}
+ 11%|██████████████████▍                                                                                                                                                       | 4360/40080 [53:19<7:12:25,  1.38it/s] 11%|██████████████████▍                                                                                                                                                       | 4361/40080 [53:19<7:12:55,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4362/40080 [53:20<7:12:31,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4363/40080 [53:21<7:12:52,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4364/40080 [53:22<7:12:13,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4365/40080 [53:22<7:11:28,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4366/40080 [53:23<7:11:58,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4367/40080 [53:24<7:12:07,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4368/40080 [53:25<7:12:05,  1.38it/s] 11%|███████���██████████▌                                                                                                                                                       | 4369/40080 [53:25<7:11:52,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4370/40080 [53:26<7:11:28,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6016, 'grad_norm': 3.15625, 'learning_rate': 2.428585326588103e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.79, 'epoch': 0.44}
+ 11%|██████████████████▌                                                                                                                                                       | 4370/40080 [53:26<7:11:28,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4371/40080 [53:27<7:16:14,  1.36it/s] 11%|██████████████████▌                                                                                                                                                       | 4372/40080 [53:27<7:18:06,  1.36it/s] 11%|██████████████████▌                                                                                                                                                       | 4373/40080 [53:28<7:18:25,  1.36it/s] 11%|██████████████████▌                                                                                                                                                       | 4374/40080 [53:29<7:17:04,  1.36it/s] 11%|██████████████████▌                                                                                                                                                       | 4375/40080 [53:30<7:15:13,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4376/40080 [53:30<7:14:38,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4377/40080 [53:31<7:14:31,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4378/40080 [53:32<7:13:40,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4379/40080 [53:33<7:13:56,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4380/40080 [53:33<7:13:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5505, 'grad_norm': 3.484375, 'learning_rate': 2.4282582058533108e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.33, 'epoch': 0.44}
+ 11%|██████████████████▌                                                                                                                                                       | 4380/40080 [53:33<7:13:52,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4381/40080 [53:34<7:13:48,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4382/40080 [53:35<7:13:23,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4383/40080 [53:36<7:13:02,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4384/40080 [53:36<7:12:38,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4385/40080 [53:37<7:12:16,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4386/40080 [53:38<7:12:09,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4387/40080 [53:38<7:12:01,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4388/40080 [53:39<7:12:13,  1.38it/s] 11%|██████████████████▌                                                                                                                                                       | 4389/40080 [53:40<7:13:03,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4390/40080 [53:41<7:14:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5635, 'grad_norm': 2.921875, 'learning_rate': 2.4279303597610982e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2540.72, 'epoch': 0.44}
+ 11%|██████████████████▌                                                                                                                                                       | 4390/40080 [53:41<7:14:17,  1.37it/s] 11%|██████████████████▌                                                                                                                                                       | 4391/40080 [53:41<7:14:45,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4392/40080 [53:42<7:14:34,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4393/40080 [53:43<7:15:52,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4394/40080 [53:44<7:16:14,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4395/40080 [53:44<7:16:01,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4396/40080 [53:45<7:15:57,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4397/40080 [53:46<7:16:22,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4398/40080 [53:46<7:16:16,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4399/40080 [53:47<7:16:15,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4400/40080 [53:48<7:16:51,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5223, 'grad_norm': 3.359375, 'learning_rate': 2.4276017885132922e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.28, 'epoch': 0.44}
+ 11%|██████████████████▋                                                                                                                                                       | 4400/40080 [53:48<7:16:51,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4401/40080 [53:49<7:16:41,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4402/40080 [53:49<7:16:39,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4403/40080 [53:50<7:16:35,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4404/40080 [53:51<7:17:15,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4405/40080 [53:52<7:17:54,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4406/40080 [53:52<7:16:18,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4407/40080 [53:53<7:16:24,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4408/40080 [53:54<7:15:43,  1.36it/s] 11%|██████████████████▋                                                                                                                                                       | 4409/40080 [53:55<7:15:07,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4410/40080 [53:55<7:15:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6017, 'grad_norm': 3.125, 'learning_rate': 2.427272492312168e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2663.91, 'epoch': 0.44}
+ 11%|██████████████████▋                                                                                                                                                       | 4410/40080 [53:55<7:15:03,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4411/40080 [53:56<7:14:30,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4412/40080 [53:57<7:14:51,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4413/40080 [53:57<7:14:11,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4414/40080 [53:58<7:13:43,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4415/40080 [53:59<7:13:50,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4416/40080 [54:00<7:14:06,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4417/40080 [54:00<7:13:43,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4418/40080 [54:01<7:13:15,  1.37it/s] 11%|██████████████████▋                                                                                                                                                       | 4419/40080 [54:02<7:12:10,  1.38it/s] 11%|██████████████████▋                                                                                                                                                       | 4420/40080 [54:03<7:13:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5381, 'grad_norm': 3.1875, 'learning_rate': 2.426942471360447e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2389.82, 'epoch': 0.44}
+ 11%|██████████████████▋                                                                                                                                                       | 4420/40080 [54:03<7:13:56,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4421/40080 [54:03<7:14:26,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4422/40080 [54:04<7:13:41,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4423/40080 [54:05<7:13:35,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4424/40080 [54:05<7:13:42,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4425/40080 [54:06<7:13:19,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4426/40080 [54:07<7:13:54,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4427/40080 [54:08<7:13:27,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4428/40080 [54:08<7:13:30,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4429/40080 [54:09<7:12:47,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4430/40080 [54:10<7:12:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4874, 'grad_norm': 3.390625, 'learning_rate': 2.4266117258612946e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2590.38, 'epoch': 0.44}
+ 11%|██████████████████▊                                                                                                                                                       | 4430/40080 [54:10<7:12:28,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4431/40080 [54:11<7:11:57,  1.38it/s] 11%|██████████████████▊                                                                                                                                                       | 4432/40080 [54:11<7:12:50,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4433/40080 [54:12<7:12:53,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4434/40080 [54:13<7:12:24,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4435/40080 [54:14<7:15:42,  1.36it/s] 11%|██████████████████▊                                                                                                                                                       | 4436/40080 [54:14<7:18:25,  1.36it/s] 11%|██████████████████▊                                                                                                                                                       | 4437/40080 [54:15<7:16:21,  1.36it/s] 11%|██████████████████▊                                                                                                                                                       | 4438/40080 [54:16<7:15:12,  1.36it/s] 11%|██████████████████▊                                                                                                                                                       | 4439/40080 [54:16<7:13:54,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4440/40080 [54:17<7:13:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.553, 'grad_norm': 2.453125, 'learning_rate': 2.426280256018325e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2351.79, 'epoch': 0.44}
+ 11%|██████████████████▊                                                                                                                                                       | 4440/40080 [54:17<7:13:02,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4441/40080 [54:18<7:12:50,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4442/40080 [54:19<7:12:03,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4443/40080 [54:19<7:12:01,  1.37it/s] 11%|██████████████████▊                                                                                                                                                       | 4444/40080 [54:20<7:11:18,  1.38it/s] 11%|██████████████████▊                                                                                                                                                       | 4445/40080 [54:21<7:10:58,  1.38it/s] 11%|██████████████████▊                                                                                                                                                       | 4446/40080 [54:22<7:10:06,  1.38it/s] 11%|██████████████████▊                                                                                                                                                       | 4447/40080 [54:22<7:10:51,  1.38it/s] 11%|██████████████████▊                                                                                                                                                       | 4448/40080 [54:23<7:10:52,  1.38it/s] 11%|██████████████████▊                                                                                                                                                       | 4449/40080 [54:24<7:11:43,  1.38it/s] 11%|██████████████████▊                                                                                                                                                       | 4450/40080 [54:24<7:10:52,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5712, 'grad_norm': 3.0625, 'learning_rate': 2.425948062035597e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.89, 'epoch': 0.44}
+ 11%|██████████████████▊                                                                                                                                                       | 4450/40080 [54:24<7:10:52,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4451/40080 [54:25<7:11:34,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4452/40080 [54:26<7:11:26,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4453/40080 [54:27<7:11:19,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4454/40080 [54:27<7:11:30,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4455/40080 [54:28<7:11:24,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4456/40080 [54:29<7:10:54,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4457/40080 [54:30<7:12:01,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4458/40080 [54:30<7:12:09,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4459/40080 [54:31<7:12:35,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4460/40080 [54:32<7:12:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5696, 'grad_norm': 3.828125, 'learning_rate': 2.425615144117615e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2414.88, 'epoch': 0.45}
+ 11%|██████████████████▉                                                                                                                                                       | 4460/40080 [54:32<7:12:33,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4461/40080 [54:32<7:12:15,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4462/40080 [54:33<7:13:02,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4463/40080 [54:34<7:11:40,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4464/40080 [54:35<7:11:17,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4465/40080 [54:35<7:11:45,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4466/40080 [54:36<7:11:29,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4467/40080 [54:37<7:10:54,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4468/40080 [54:38<7:10:44,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4469/40080 [54:38<7:11:31,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4470/40080 [54:39<7:11:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5249, 'grad_norm': 2.859375, 'learning_rate': 2.4252815024693294e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2376.92, 'epoch': 0.45}
+ 11%|██████████████████▉                                                                                                                                                       | 4470/40080 [54:39<7:11:49,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4471/40080 [54:40<7:12:07,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4472/40080 [54:40<7:11:44,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4473/40080 [54:41<7:11:51,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4474/40080 [54:42<7:11:53,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4475/40080 [54:43<7:11:27,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4476/40080 [54:43<7:12:01,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4477/40080 [54:44<7:11:40,  1.37it/s] 11%|██████████████████▉                                                                                                                                                       | 4478/40080 [54:45<7:11:29,  1.38it/s] 11%|██████████████████▉                                                                                                                                                       | 4479/40080 [54:46<7:12:15,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4480/40080 [54:46<7:11:21,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5048, 'grad_norm': 2.703125, 'learning_rate': 2.4249471372961362e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.72, 'epoch': 0.45}
+ 11%|███████████████████                                                                                                                                                       | 4480/40080 [54:46<7:11:21,  1.38it/s] 11%|███████████████████                                                                                                                                                       | 4481/40080 [54:47<7:12:30,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4482/40080 [54:48<7:12:43,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4483/40080 [54:48<7:12:49,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4484/40080 [54:49<7:12:09,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4485/40080 [54:50<7:11:15,  1.38it/s] 11%|███████████████████                                                                                                                                                       | 4486/40080 [54:51<7:11:30,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4487/40080 [54:51<7:12:04,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4488/40080 [54:52<7:11:59,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4489/40080 [54:53<7:12:02,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4490/40080 [54:54<7:12:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5668, 'grad_norm': 3.484375, 'learning_rate': 2.424612048803877e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2544.45, 'epoch': 0.45}
+ 11%|███████████████████                                                                                                                                                       | 4490/40080 [54:54<7:12:27,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4491/40080 [54:54<7:12:13,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4492/40080 [54:55<7:12:41,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4493/40080 [54:56<7:13:06,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4494/40080 [54:56<7:13:19,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4495/40080 [54:57<7:12:49,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4496/40080 [54:58<7:12:51,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4497/40080 [54:59<7:12:57,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4498/40080 [54:59<7:14:11,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4499/40080 [55:00<7:13:54,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4500/40080 [55:01<7:14:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5316, 'grad_norm': 2.859375, 'learning_rate': 2.424276237198838e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.85, 'epoch': 0.45}
+ 11%|███████████████████                                                                                                                                                       | 4500/40080 [55:01<7:14:03,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4501/40080 [55:02<7:14:30,  1.36it/s] 11%|███████████████████                                                                                                                                                       | 4502/40080 [55:02<7:13:52,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4503/40080 [55:03<7:13:29,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4504/40080 [55:04<7:12:37,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4505/40080 [55:05<7:12:32,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4506/40080 [55:05<7:12:38,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4507/40080 [55:06<7:12:48,  1.37it/s] 11%|███████████████████                                                                                                                                                       | 4508/40080 [55:07<7:12:48,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4509/40080 [55:07<7:12:26,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4510/40080 [55:08<7:12:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5216, 'grad_norm': 2.34375, 'learning_rate': 2.4239397026877516e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2419.56, 'epoch': 0.45}
+ 11%|███████████████████▏                                                                                                                                                      | 4510/40080 [55:08<7:12:13,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4511/40080 [55:09<7:12:57,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4512/40080 [55:10<7:12:37,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4513/40080 [55:10<7:12:03,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4514/40080 [55:11<7:12:02,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4515/40080 [55:12<7:11:51,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4516/40080 [55:13<7:12:07,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4517/40080 [55:13<7:12:25,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4518/40080 [55:14<7:12:18,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4519/40080 [55:15<7:12:30,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4520/40080 [55:15<7:12:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4876, 'grad_norm': 2.640625, 'learning_rate': 2.4236024454777938e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.45, 'epoch': 0.45}
+ 11%|███████████████████▏                                                                                                                                                      | 4520/40080 [55:15<7:12:24,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4521/40080 [55:16<7:13:24,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4522/40080 [55:17<7:12:32,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4523/40080 [55:18<7:13:05,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4524/40080 [55:18<7:12:18,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4525/40080 [55:19<7:12:32,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4526/40080 [55:20<7:12:50,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4527/40080 [55:21<7:13:31,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4528/40080 [55:21<7:12:22,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4529/40080 [55:22<7:12:34,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4530/40080 [55:23<7:12:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5669, 'grad_norm': 3.140625, 'learning_rate': 2.4232644657765874e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.96, 'epoch': 0.45}
+ 11%|███████████████████▏                                                                                                                                                      | 4530/40080 [55:23<7:12:02,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4531/40080 [55:23<7:12:12,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4532/40080 [55:24<7:11:46,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4533/40080 [55:25<7:11:54,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4534/40080 [55:26<7:12:03,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4535/40080 [55:26<7:11:50,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4536/40080 [55:27<7:12:27,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4537/40080 [55:28<7:12:25,  1.37it/s] 11%|███████████████████▏                                                                                                                                                      | 4538/40080 [55:29<7:12:48,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4539/40080 [55:29<7:13:15,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4540/40080 [55:30<7:13:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6136, 'grad_norm': 2.375, 'learning_rate': 2.422925763792198e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2387.65, 'epoch': 0.45}
+ 11%|███████████████████▎                                                                                                                                                      | 4540/40080 [55:30<7:13:15,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4541/40080 [55:31<7:13:35,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4542/40080 [55:32<7:12:58,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4543/40080 [55:32<7:13:19,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4544/40080 [55:33<7:12:29,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4545/40080 [55:34<7:11:38,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4546/40080 [55:34<7:11:36,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4547/40080 [55:35<7:10:36,  1.38it/s] 11%|███████████████████▎                                                                                                                                                      | 4548/40080 [55:36<7:10:27,  1.38it/s] 11%|███████████████████▎                                                                                                                                                      | 4549/40080 [55:37<7:11:00,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4550/40080 [55:37<7:10:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5344, 'grad_norm': 3.578125, 'learning_rate': 2.422586339733137e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.13, 'epoch': 0.45}
+ 11%|███████████████████▎                                                                                                                                                      | 4550/40080 [55:37<7:10:48,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4551/40080 [55:38<7:12:36,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4552/40080 [55:39<7:12:49,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4553/40080 [55:40<7:12:12,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4554/40080 [55:40<7:11:09,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4555/40080 [55:41<7:11:32,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4556/40080 [55:42<7:11:08,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4557/40080 [55:42<7:10:53,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4558/40080 [55:43<7:11:39,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4559/40080 [55:44<7:11:31,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4560/40080 [55:45<7:12:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6354, 'grad_norm': 3.453125, 'learning_rate': 2.4222461938083606e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2456.26, 'epoch': 0.46}
+ 11%|███████████████████▎                                                                                                                                                      | 4560/40080 [55:45<7:12:17,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4561/40080 [55:45<7:13:11,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4562/40080 [55:46<7:13:30,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4563/40080 [55:47<7:13:10,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4564/40080 [55:48<7:13:15,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4565/40080 [55:48<7:12:26,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4566/40080 [55:49<7:11:29,  1.37it/s] 11%|███████████████████▎                                                                                                                                                      | 4567/40080 [55:50<7:11:42,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4568/40080 [55:50<7:11:37,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4569/40080 [55:51<7:11:34,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4570/40080 [55:52<7:11:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5671, 'grad_norm': 2.59375, 'learning_rate': 2.4219053262272678e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.45, 'epoch': 0.46}
+ 11%|███████████████████▍                                                                                                                                                      | 4570/40080 [55:52<7:11:35,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4571/40080 [55:53<7:11:21,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4572/40080 [55:53<7:11:23,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4573/40080 [55:54<7:10:43,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4574/40080 [55:55<7:11:18,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4575/40080 [55:56<7:11:09,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4576/40080 [55:56<7:11:42,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4577/40080 [55:57<7:11:18,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4578/40080 [55:58<7:11:33,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4579/40080 [55:58<7:10:58,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4580/40080 [55:59<7:11:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5183, 'grad_norm': 3.6875, 'learning_rate': 2.421563737199704e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.28, 'epoch': 0.46}
+ 11%|███████████████████▍                                                                                                                                                      | 4580/40080 [55:59<7:11:12,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4581/40080 [56:00<7:12:04,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4582/40080 [56:01<7:12:01,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4583/40080 [56:01<7:12:32,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4584/40080 [56:02<7:12:54,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4585/40080 [56:03<7:13:00,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4586/40080 [56:04<7:13:34,  1.36it/s] 11%|███████████████████▍                                                                                                                                                      | 4587/40080 [56:04<7:13:41,  1.36it/s] 11%|███████████████████▍                                                                                                                                                      | 4588/40080 [56:05<7:12:50,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4589/40080 [56:06<7:11:45,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4590/40080 [56:07<7:12:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6117, 'grad_norm': 3.421875, 'learning_rate': 2.4212214269359577e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2611.44, 'epoch': 0.46}
+ 11%|███████████████████▍                                                                                                                                                      | 4590/40080 [56:07<7:12:20,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4591/40080 [56:07<7:12:24,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4592/40080 [56:08<7:11:05,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4593/40080 [56:09<7:11:27,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4594/40080 [56:09<7:11:15,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4595/40080 [56:10<7:11:22,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4596/40080 [56:11<7:11:10,  1.37it/s] 11%|███████████████████▍                                                                                                                                                      | 4597/40080 [56:12<7:11:17,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4598/40080 [56:12<7:11:22,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4599/40080 [56:13<7:11:24,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4600/40080 [56:14<7:11:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5579, 'grad_norm': 3.546875, 'learning_rate': 2.4208783956467606e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2472.43, 'epoch': 0.46}
+ 11%|███████████████████▌                                                                                                                                                      | 4600/40080 [56:14<7:11:18,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4601/40080 [56:15<7:12:18,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4602/40080 [56:15<7:12:09,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4603/40080 [56:16<7:11:56,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4604/40080 [56:17<7:10:58,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4605/40080 [56:17<7:10:46,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4606/40080 [56:18<7:11:39,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4607/40080 [56:19<7:11:36,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4608/40080 [56:20<7:11:04,  1.37it/s] 11%|███████████████████▌                                                                                                                                                      | 4609/40080 [56:20<7:10:52,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4610/40080 [56:21<7:11:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.629, 'grad_norm': 3.09375, 'learning_rate': 2.4205346435432895e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2377.02, 'epoch': 0.46}
+ 12%|███████████████████▌                                                                                                                                                      | 4610/40080 [56:21<7:11:05,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4611/40080 [56:22<7:11:31,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4612/40080 [56:23<7:11:34,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4613/40080 [56:23<7:10:52,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4614/40080 [56:24<7:10:54,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4615/40080 [56:25<7:10:25,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4616/40080 [56:26<7:10:29,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4617/40080 [56:26<7:10:25,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4618/40080 [56:27<7:10:44,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4619/40080 [56:28<7:10:46,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4620/40080 [56:28<7:10:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5716, 'grad_norm': 2.890625, 'learning_rate': 2.420190170837165e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2566.22, 'epoch': 0.46}
+ 12%|███████████████████▌                                                                                                                                                      | 4620/40080 [56:28<7:10:56,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4621/40080 [56:29<7:11:28,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4622/40080 [56:30<7:11:47,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4623/40080 [56:31<7:11:42,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4624/40080 [56:31<7:11:59,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4625/40080 [56:32<7:12:25,  1.37it/s] 12%|███████████████████▌                                                                                                                                                      | 4626/40080 [56:33<7:11:48,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4627/40080 [56:34<7:11:38,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4628/40080 [56:34<7:10:47,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4629/40080 [56:35<7:10:56,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4630/40080 [56:36<7:09:38,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5158, 'grad_norm': 3.484375, 'learning_rate': 2.4198449777404497e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2220.8, 'epoch': 0.46}
+ 12%|███████████████████▋                                                                                                                                                      | 4630/40080 [56:36<7:09:38,  1.38it/s] 12%|███████████████████▋                                                                                                                                                      | 4631/40080 [56:36<7:10:10,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4632/40080 [56:37<7:09:57,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4633/40080 [56:38<7:09:34,  1.38it/s] 12%|███████████████████▋                                                                                                                                                      | 4634/40080 [56:39<7:10:05,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4635/40080 [56:39<7:11:04,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4636/40080 [56:40<7:10:50,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4637/40080 [56:41<7:10:31,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4638/40080 [56:42<7:11:21,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4639/40080 [56:42<7:11:01,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4640/40080 [56:43<7:10:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6126, 'grad_norm': 3.3125, 'learning_rate': 2.419499064465652e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2309.71, 'epoch': 0.46}
+ 12%|███████████████████▋                                                                                                                                                      | 4640/40080 [56:43<7:10:54,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4641/40080 [56:44<7:11:30,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4642/40080 [56:44<7:11:28,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4643/40080 [56:45<7:11:36,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4644/40080 [56:46<7:11:13,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4645/40080 [56:47<7:11:01,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4646/40080 [56:47<7:10:44,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4647/40080 [56:48<7:11:36,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4648/40080 [56:49<7:11:26,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4649/40080 [56:50<7:12:11,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4650/40080 [56:50<7:12:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5655, 'grad_norm': 3.265625, 'learning_rate': 2.4191524312257215e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2538.15, 'epoch': 0.46}
+ 12%|███████████████████▋                                                                                                                                                      | 4650/40080 [56:50<7:12:31,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4651/40080 [56:51<7:12:49,  1.36it/s] 12%|███████████████████▋                                                                                                                                                      | 4652/40080 [56:52<7:11:53,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4653/40080 [56:53<7:10:42,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4654/40080 [56:53<7:09:52,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4655/40080 [56:54<7:09:56,  1.37it/s] 12%|███████████████████▋                                                                                                                                                      | 4656/40080 [56:55<7:10:03,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4657/40080 [56:55<7:10:05,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4658/40080 [56:56<7:09:23,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4659/40080 [56:57<7:09:17,  1.38it/s] 12%|███████████████████▊                                                                                                                                                      | 4660/40080 [56:58<7:10:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5663, 'grad_norm': 3.90625, 'learning_rate': 2.418805078234052e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2333.92, 'epoch': 0.47}
+ 12%|███████████████████▊                                                                                                                                                      | 4660/40080 [56:58<7:10:39,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4661/40080 [56:58<7:11:13,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4662/40080 [56:59<7:12:15,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4663/40080 [57:00<7:11:10,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4664/40080 [57:01<7:11:03,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4665/40080 [57:01<7:10:34,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4666/40080 [57:02<7:11:04,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4667/40080 [57:03<7:11:30,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4668/40080 [57:03<7:11:39,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4669/40080 [57:04<7:11:33,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4670/40080 [57:05<7:11:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6321, 'grad_norm': 3.015625, 'learning_rate': 2.4184570057044816e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.95, 'epoch': 0.47}
+ 12%|███████████████████▊                                                                                                                                                      | 4670/40080 [57:05<7:11:04,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4671/40080 [57:06<7:10:29,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4672/40080 [57:06<7:10:35,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4673/40080 [57:07<7:10:10,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4674/40080 [57:08<7:10:40,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4675/40080 [57:09<7:10:41,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4676/40080 [57:09<7:10:27,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4677/40080 [57:10<7:10:03,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4678/40080 [57:11<7:10:21,  1.37it/s] 12%|███████████████████▊                                                                                                                                                      | 4679/40080 [57:12<8:17:29,  1.19it/s] 12%|███████████████████▊                                                                                                                                                      | 4680/40080 [57:13<7:56:43,  1.24it/s]                                                                                                                                                                                                                      {'loss': 0.5627, 'grad_norm': 4.4375, 'learning_rate': 2.418108213851289e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2467.4, 'epoch': 0.47}
+ 12%|███████████████████▊                                                                                                                                                      | 4680/40080 [57:13<7:56:43,  1.24it/s] 12%|███████████████████▊                                                                                                                                                      | 4681/40080 [57:13<7:42:40,  1.28it/s] 12%|██████████████���████▊                                                                                                                                                      | 4682/40080 [57:14<7:32:19,  1.30it/s] 12%|███████████████████▊                                                                                                                                                      | 4683/40080 [57:15<7:25:33,  1.32it/s] 12%|███████████████████▊                                                                                                                                                      | 4684/40080 [57:15<7:20:12,  1.34it/s] 12%|███████████████████▊                                                                                                                                                      | 4685/40080 [57:16<7:17:42,  1.35it/s] 12%|███████████████████▉                                                                                                                                                      | 4686/40080 [57:17<7:15:55,  1.35it/s] 12%|███████████████████▉                                                                                                                                                      | 4687/40080 [57:18<7:14:41,  1.36it/s] 12%|███████████████████▉                                                                                                                                                      | 4688/40080 [57:18<7:14:07,  1.36it/s] 12%|███████████████████▉                                                                                                                                                      | 4689/40080 [57:19<7:12:58,  1.36it/s] 12%|███████████████████▉                                                                                                                                                      | 4690/40080 [57:20<7:12:22,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5177, 'grad_norm': 2.875, 'learning_rate': 2.4177587028891973e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2407.5, 'epoch': 0.47}
+ 12%|███████████████████▉                                                                                                                                                      | 4690/40080 [57:20<7:12:22,  1.36it/s] 12%|███████████████████▉                                                                                                                                                      | 4691/40080 [57:21<7:12:24,  1.36it/s] 12%|███████████████████▉                                                                                                                                                      | 4692/40080 [57:21<7:11:41,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4693/40080 [57:22<7:10:08,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4694/40080 [57:23<7:09:52,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4695/40080 [57:24<7:10:38,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4696/40080 [57:24<7:11:00,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4697/40080 [57:25<7:10:34,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4698/40080 [57:26<7:10:20,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4699/40080 [57:26<7:10:12,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4700/40080 [57:27<7:08:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4718, 'grad_norm': 3.1875, 'learning_rate': 2.4174084730333724e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2512.93, 'epoch': 0.47}
+ 12%|███████████████████▉                                                                                                                                                      | 4700/40080 [57:27<7:08:59,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4701/40080 [57:28<7:09:55,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4702/40080 [57:29<7:09:39,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4703/40080 [57:29<7:10:14,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4704/40080 [57:30<7:09:29,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4705/40080 [57:31<7:09:38,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4706/40080 [57:32<7:10:02,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4707/40080 [57:32<7:10:19,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4708/40080 [57:33<7:10:31,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4709/40080 [57:34<7:09:37,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4710/40080 [57:34<7:10:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.488, 'grad_norm': 2.390625, 'learning_rate': 2.417057524499421e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.95, 'epoch': 0.47}
+ 12%|███████████████████▉                                                                                                                                                      | 4710/40080 [57:34<7:10:21,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4711/40080 [57:35<7:09:37,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4712/40080 [57:36<7:08:56,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4713/40080 [57:37<7:09:40,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4714/40080 [57:37<7:10:16,  1.37it/s] 12%|███████████████████▉                                                                                                                                                      | 4715/40080 [57:38<7:09:51,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4716/40080 [57:39<7:10:33,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4717/40080 [57:40<7:10:14,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4718/40080 [57:40<7:09:33,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4719/40080 [57:41<7:09:16,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4720/40080 [57:42<7:09:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5131, 'grad_norm': 3.640625, 'learning_rate': 2.416705857503394e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2330.08, 'epoch': 0.47}
+ 12%|████████████████████                                                                                                                                                      | 4720/40080 [57:42<7:09:18,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4721/40080 [57:42<7:09:49,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4722/40080 [57:43<7:09:31,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4723/40080 [57:44<7:09:34,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4724/40080 [57:45<7:08:57,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4725/40080 [57:45<7:08:51,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4726/40080 [57:46<7:08:42,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4727/40080 [57:47<7:08:22,  1.38it/s] 12%|████████████████████                                                                                                                                                      | 4728/40080 [57:48<7:08:18,  1.38it/s] 12%|████████████████████                                                                                                                                                      | 4729/40080 [57:48<7:09:09,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4730/40080 [57:49<7:09:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5353, 'grad_norm': 2.8125, 'learning_rate': 2.4163534722617847e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2498.29, 'epoch': 0.47}
+ 12%|████████████████████                                                                                                                                                      | 4730/40080 [57:49<7:09:03,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4731/40080 [57:50<7:09:44,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4732/40080 [57:51<7:10:20,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4733/40080 [57:51<7:09:39,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4734/40080 [57:52<7:09:16,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4735/40080 [57:53<7:10:11,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4736/40080 [57:53<7:09:54,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4737/40080 [57:54<7:09:59,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4738/40080 [57:55<7:09:58,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4739/40080 [57:56<7:10:09,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4740/40080 [57:56<7:10:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5322, 'grad_norm': 3.5625, 'learning_rate': 2.416000368991527e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2445.76, 'epoch': 0.47}
+ 12%|████████████████████                                                                                                                                                      | 4740/40080 [57:56<7:10:51,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4741/40080 [57:57<7:11:07,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4742/40080 [57:58<7:11:03,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4743/40080 [57:59<7:10:40,  1.37it/s] 12%|████████████████████                                                                                                                                                      | 4744/40080 [57:59<7:10:50,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4745/40080 [58:00<7:10:44,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4746/40080 [58:01<7:09:39,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4747/40080 [58:01<7:09:02,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4748/40080 [58:02<7:09:09,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4749/40080 [58:03<7:09:28,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4750/40080 [58:04<7:08:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5458, 'grad_norm': 3.4375, 'learning_rate': 2.4156465479099988e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2424.4, 'epoch': 0.47}
+ 12%|████████████████████▏                                                                                                                                                     | 4750/40080 [58:04<7:08:46,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4751/40080 [58:04<7:08:56,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4752/40080 [58:05<7:08:51,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4753/40080 [58:06<7:09:15,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4754/40080 [58:07<7:09:06,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4755/40080 [58:07<7:08:38,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4756/40080 [58:08<7:08:44,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4757/40080 [58:09<7:08:10,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4758/40080 [58:09<7:08:05,  1.38it/s] 12%|████████████████████▏                                                                                                                                                     | 4759/40080 [58:10<7:08:12,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4760/40080 [58:11<7:09:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5389, 'grad_norm': 2.859375, 'learning_rate': 2.4152920092350178e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2373.17, 'epoch': 0.48}
+ 12%|██��█████████████████▏                                                                                                                                                     | 4760/40080 [58:11<7:09:08,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4761/40080 [58:12<7:09:25,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4762/40080 [58:12<7:09:32,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4763/40080 [58:13<7:09:43,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4764/40080 [58:14<7:09:50,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4765/40080 [58:15<7:09:04,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4766/40080 [58:15<7:09:27,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4767/40080 [58:16<7:08:57,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4768/40080 [58:17<7:09:25,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4769/40080 [58:17<7:09:02,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4770/40080 [58:18<7:08:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5211, 'grad_norm': 3.171875, 'learning_rate': 2.4149367531848453e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2600.46, 'epoch': 0.48}
+ 12%|████████████████████▏                                                                                                                                                     | 4770/40080 [58:18<7:08:03,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4771/40080 [58:19<7:08:27,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4772/40080 [58:20<7:09:26,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4773/40080 [58:20<7:09:39,  1.37it/s] 12%|████████████████████▏                                                                                                                                                     | 4774/40080 [58:21<7:09:28,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4775/40080 [58:22<7:08:42,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4776/40080 [58:23<7:09:06,  1.37it/s] 12%|█████████████��██████▎                                                                                                                                                     | 4777/40080 [58:23<7:09:51,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4778/40080 [58:24<7:09:45,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4779/40080 [58:25<7:10:22,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4780/40080 [58:26<7:10:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5741, 'grad_norm': 2.984375, 'learning_rate': 2.4145807799781832e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.23, 'epoch': 0.48}
+ 12%|████████████████████▎                                                                                                                                                     | 4780/40080 [58:26<7:10:13,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4781/40080 [58:26<7:11:18,  1.36it/s] 12%|████████████████████▎                                                                                                                                                     | 4782/40080 [58:27<7:10:25,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4783/40080 [58:28<7:10:05,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4784/40080 [58:28<7:09:56,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4785/40080 [58:29<7:09:58,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4786/40080 [58:30<7:09:25,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4787/40080 [58:31<7:09:00,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4788/40080 [58:31<7:08:55,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4789/40080 [58:32<7:08:56,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4790/40080 [58:33<7:09:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5601, 'grad_norm': 2.421875, 'learning_rate': 2.4142240898341748e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2572.8, 'epoch': 0.48}
+ 12%|████████████████████▎                                                                                                                                                     | 4790/40080 [58:33<7:09:35,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4791/40080 [58:34<7:09:52,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4792/40080 [58:34<7:09:40,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4793/40080 [58:35<7:09:48,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4794/40080 [58:36<7:09:22,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4795/40080 [58:36<7:09:20,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4796/40080 [58:37<7:09:13,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4797/40080 [58:38<7:09:03,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4798/40080 [58:39<7:09:25,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4799/40080 [58:39<7:09:06,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4800/40080 [58:40<7:08:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5544, 'grad_norm': 3.015625, 'learning_rate': 2.4138666829724056e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.82, 'epoch': 0.48}
+ 12%|████████████████████▎                                                                                                                                                     | 4800/40080 [58:40<7:08:57,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4801/40080 [58:41<7:09:48,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4802/40080 [58:42<7:09:17,  1.37it/s] 12%|████████████████████▎                                                                                                                                                     | 4803/40080 [58:42<7:09:28,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4804/40080 [58:43<7:09:06,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4805/40080 [58:44<7:08:35,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4806/40080 [58:45<7:08:41,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4807/40080 [58:45<7:08:35,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4808/40080 [58:46<7:07:53,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4809/40080 [58:47<7:07:36,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4810/40080 [58:47<7:08:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5956, 'grad_norm': 2.875, 'learning_rate': 2.4135085596129016e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.72, 'epoch': 0.48}
+ 12%|████████████████████▍                                                                                                                                                     | 4810/40080 [58:47<7:08:09,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4811/40080 [58:48<7:08:44,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4812/40080 [58:49<7:07:58,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4813/40080 [58:50<7:07:22,  1.38it/s] 12%|████████████████████▍                                                                                                                                                     | 4814/40080 [58:50<7:08:20,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4815/40080 [58:51<7:07:21,  1.38it/s] 12%|████████████████████▍                                                                                                                                                     | 4816/40080 [58:52<7:08:28,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4817/40080 [58:53<7:08:28,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4818/40080 [58:53<7:08:18,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4819/40080 [58:54<7:08:52,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4820/40080 [58:55<7:08:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5668, 'grad_norm': 2.5, 'learning_rate': 2.41314971997613e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.99, 'epoch': 0.48}
+ 12%|████████████████████▍                                                                                                                                                     | 4820/40080 [58:55<7:08:49,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4821/40080 [58:55<7:08:53,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4822/40080 [58:56<7:08:55,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4823/40080 [58:57<7:09:18,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4824/40080 [58:58<7:09:49,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4825/40080 [58:58<7:10:34,  1.36it/s] 12%|████████████████████▍                                                                                                                                                     | 4826/40080 [58:59<7:10:32,  1.36it/s] 12%|████████████████████▍                                                                                                                                                     | 4827/40080 [59:00<7:10:42,  1.36it/s] 12%|████████████████████▍                                                                                                                                                     | 4828/40080 [59:01<7:09:35,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4829/40080 [59:01<7:09:34,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4830/40080 [59:02<7:09:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5941, 'grad_norm': 3.625, 'learning_rate': 2.4127901642829996e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.64, 'epoch': 0.48}
+ 12%|████████████████████▍                                                                                                                                                     | 4830/40080 [59:02<7:09:06,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4831/40080 [59:03<7:10:39,  1.36it/s] 12%|████████████████████▍                                                                                                                                                     | 4832/40080 [59:03<7:10:04,  1.37it/s] 12%|████████████████████▍                                                                                                                                                     | 4833/40080 [59:04<7:09:25,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4834/40080 [59:05<7:09:59,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4835/40080 [59:06<7:09:17,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4836/40080 [59:06<7:09:31,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4837/40080 [59:07<7:09:06,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4838/40080 [59:08<7:09:18,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4839/40080 [59:09<7:08:51,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4840/40080 [59:09<7:08:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5743, 'grad_norm': 3.859375, 'learning_rate': 2.412429892754859e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2584.3, 'epoch': 0.48}
+ 12%|████████████████████▌                                                                                                                                                     | 4840/40080 [59:09<7:08:42,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4841/40080 [59:10<7:08:45,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4842/40080 [59:11<7:09:01,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4843/40080 [59:12<7:09:33,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4844/40080 [59:12<7:09:31,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4845/40080 [59:13<7:09:49,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4846/40080 [59:14<7:08:53,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4847/40080 [59:14<7:08:35,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4848/40080 [59:15<7:07:37,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4849/40080 [59:16<7:07:50,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4850/40080 [59:17<7:07:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5397, 'grad_norm': 2.984375, 'learning_rate': 2.4120689056134982e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2359.69, 'epoch': 0.48}
+ 12%|████████████████████▌                                                                                                                                                     | 4850/40080 [59:17<7:07:24,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4851/40080 [59:17<7:07:49,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4852/40080 [59:18<7:07:36,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4853/40080 [59:19<7:07:45,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4854/40080 [59:20<7:07:31,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4855/40080 [59:20<7:08:14,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4856/40080 [59:21<7:07:31,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4857/40080 [59:22<7:08:01,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4858/40080 [59:22<7:07:57,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4859/40080 [59:23<7:08:20,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4860/40080 [59:24<7:07:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.564, 'grad_norm': 3.046875, 'learning_rate': 2.4117072030811474e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2459.11, 'epoch': 0.49}
+ 12%|████████████████████▌                                                                                                                                                     | 4860/40080 [59:24<7:07:40,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4861/40080 [59:25<7:07:48,  1.37it/s] 12%|████████████████████▌                                                                                                                                                     | 4862/40080 [59:25<7:07:51,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4863/40080 [59:26<7:08:31,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4864/40080 [59:27<7:07:52,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4865/40080 [59:28<7:07:38,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4866/40080 [59:28<7:08:08,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4867/40080 [59:29<7:08:55,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4868/40080 [59:30<7:08:28,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4869/40080 [59:30<7:07:46,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4870/40080 [59:31<7:07:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5758, 'grad_norm': 3.140625, 'learning_rate': 2.4113447853804776e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2461.79, 'epoch': 0.49}
+ 12%|████████████████████▋                                                                                                                                                     | 4870/40080 [59:31<7:07:48,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4871/40080 [59:32<7:08:40,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4872/40080 [59:33<7:08:25,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4873/40080 [59:33<7:08:10,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4874/40080 [59:34<7:07:58,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4875/40080 [59:35<7:07:45,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4876/40080 [59:36<7:07:50,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4877/40080 [59:36<7:07:44,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4878/40080 [59:37<7:07:22,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4879/40080 [59:38<7:07:37,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4880/40080 [59:39<7:07:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6419, 'grad_norm': 2.734375, 'learning_rate': 2.4109816527345994e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.32, 'epoch': 0.49}
+ 12%|████████████████████▋                                                                                                                                                     | 4880/40080 [59:39<7:07:21,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4881/40080 [59:39<7:08:38,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4882/40080 [59:40<7:07:52,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4883/40080 [59:41<7:07:34,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4884/40080 [59:41<7:08:29,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4885/40080 [59:42<7:08:20,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4886/40080 [59:43<7:08:20,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4887/40080 [59:44<7:08:07,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4888/40080 [59:44<7:07:59,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4889/40080 [59:45<7:07:53,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4890/40080 [59:46<7:07:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5302, 'grad_norm': 2.90625, 'learning_rate': 2.4106178053670643e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2362.72, 'epoch': 0.49}
+ 12%|████████████████████▋                                                                                                                                                     | 4890/40080 [59:46<7:07:32,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4891/40080 [59:47<7:08:01,  1.37it/s] 12%|████████████████████▋                                                                                                                                                     | 4892/40080 [59:47<7:07:23,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4893/40080 [59:48<7:07:36,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4894/40080 [59:49<7:07:44,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4895/40080 [59:49<7:08:49,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4896/40080 [59:50<7:08:08,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4897/40080 [59:51<7:07:54,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4898/40080 [59:52<7:07:00,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4899/40080 [59:52<7:06:33,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4900/40080 [59:53<7:07:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5507, 'grad_norm': 4.0625, 'learning_rate': 2.410253243501863e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2235.29, 'epoch': 0.49}
+ 12%|████████████████████▊                                                                                                                                                     | 4900/40080 [59:53<7:07:03,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4901/40080 [59:54<7:07:10,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4902/40080 [59:55<7:07:13,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4903/40080 [59:55<7:07:04,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4904/40080 [59:56<7:07:14,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4905/40080 [59:57<7:06:58,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4906/40080 [59:57<7:06:50,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4907/40080 [59:58<7:07:26,  1.37it/s] 12%|████████████████████▊                                                                                                                                                     | 4908/40080 [59:59<7:07:18,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4909/40080 [1:00:00<7:07:56,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4910/40080 [1:00:00<7:08:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5862, 'grad_norm': 3.34375, 'learning_rate': 2.409887967363427e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.31, 'epoch': 0.49}
+ 12%|████████████████████▌                                                                                                                                                   | 4910/40080 [1:00:00<7:08:21,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4911/40080 [1:00:01<7:08:07,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4912/40080 [1:00:02<7:08:30,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4913/40080 [1:00:03<7:08:59,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4914/40080 [1:00:03<7:08:16,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4915/40080 [1:00:04<7:07:31,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4916/40080 [1:00:05<7:07:39,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4917/40080 [1:00:05<7:07:39,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4918/40080 [1:00:06<7:08:10,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4919/40080 [1:00:07<7:07:40,  1.37it/s] 12%|████████████████████▌                                                                                                                                                   | 4920/40080 [1:00:08<7:07:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5617, 'grad_norm': 2.96875, 'learning_rate': 2.409521977176627e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.59, 'epoch': 0.49}
+ 12%|████████████████████▌                                                                                                                                                   | 4920/40080 [1:00:08<7:07:51,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4921/40080 [1:00:08<7:08:06,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4922/40080 [1:00:09<7:08:10,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4923/40080 [1:00:10<7:07:11,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4924/40080 [1:00:11<7:07:24,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4925/40080 [1:00:11<7:07:07,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4926/40080 [1:00:12<7:07:03,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4927/40080 [1:00:13<7:06:27,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4928/40080 [1:00:14<7:06:59,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4929/40080 [1:00:14<7:07:40,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4930/40080 [1:00:15<7:06:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5003, 'grad_norm': 3.640625, 'learning_rate': 2.4091552731667724e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2278.58, 'epoch': 0.49}
+ 12%|████████████████████▋                                                                                                                                                   | 4930/40080 [1:00:15<7:06:10,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4931/40080 [1:00:16<7:07:07,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4932/40080 [1:00:16<7:06:54,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4933/40080 [1:00:17<7:07:13,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4934/40080 [1:00:18<7:06:31,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4935/40080 [1:00:19<7:06:35,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4936/40080 [1:00:19<7:07:07,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4937/40080 [1:00:20<7:07:48,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4938/40080 [1:00:21<7:07:34,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4939/40080 [1:00:22<7:06:21,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4940/40080 [1:00:22<7:06:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4769, 'grad_norm': 2.90625, 'learning_rate': 2.4087878555596137e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2406.03, 'epoch': 0.49}
+ 12%|████████████████████▋                                                                                                                                                   | 4940/40080 [1:00:22<7:06:09,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4941/40080 [1:00:23<7:07:26,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4942/40080 [1:00:24<7:07:08,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4943/40080 [1:00:24<7:07:08,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4944/40080 [1:00:25<7:07:53,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4945/40080 [1:00:26<7:07:15,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4946/40080 [1:00:27<7:07:27,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4947/40080 [1:00:27<7:07:18,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4948/40080 [1:00:28<7:07:19,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4949/40080 [1:00:29<7:06:49,  1.37it/s] 12%|████████████████████▋                                                                                                                                                   | 4950/40080 [1:00:30<7:06:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5552, 'grad_norm': 2.71875, 'learning_rate': 2.4084197245813404e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2631.77, 'epoch': 0.49}
+ 12%|████████████████████▋                                                                                                                                                   | 4950/40080 [1:00:30<7:06:13,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4951/40080 [1:00:30<7:06:50,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4952/40080 [1:00:31<7:06:49,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4953/40080 [1:00:32<7:07:19,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4954/40080 [1:00:32<7:07:40,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4955/40080 [1:00:33<7:07:41,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4956/40080 [1:00:34<7:08:08,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4957/40080 [1:00:35<7:07:12,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4958/40080 [1:00:35<7:07:28,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4959/40080 [1:00:36<7:07:32,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4960/40080 [1:00:37<7:07:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4799, 'grad_norm': 3.34375, 'learning_rate': 2.4080508804585798e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.99, 'epoch': 0.5}
+ 12%|████████████████████▊                                                                                                                                                   | 4960/40080 [1:00:37<7:07:24,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4961/40080 [1:00:38<7:07:44,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4962/40080 [1:00:38<7:07:41,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4963/40080 [1:00:39<7:07:17,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4964/40080 [1:00:40<7:07:41,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4965/40080 [1:00:41<7:07:19,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4966/40080 [1:00:41<7:06:55,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4967/40080 [1:00:42<7:06:58,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4968/40080 [1:00:43<7:07:03,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4969/40080 [1:00:43<7:06:28,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4970/40080 [1:00:44<7:06:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5167, 'grad_norm': 4.0625, 'learning_rate': 2.407681323418399e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2569.42, 'epoch': 0.5}
+ 12%|████████████████████▊                                                                                                                                                   | 4970/40080 [1:00:44<7:06:59,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4971/40080 [1:00:45<7:07:15,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4972/40080 [1:00:46<7:07:35,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4973/40080 [1:00:46<7:06:31,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4974/40080 [1:00:47<7:06:33,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4975/40080 [1:00:48<7:06:33,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4976/40080 [1:00:49<7:06:33,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4977/40080 [1:00:49<7:07:23,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4978/40080 [1:00:50<7:07:40,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4979/40080 [1:00:51<7:07:55,  1.37it/s] 12%|████████████████████▊                                                                                                                                                   | 4980/40080 [1:00:51<7:07:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5434, 'grad_norm': 3.296875, 'learning_rate': 2.4073110536883054e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.73, 'epoch': 0.5}
+ 12%|████████████████████▊                                                                                                                                                   | 4980/40080 [1:00:51<7:07:16,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4981/40080 [1:00:52<7:07:08,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4982/40080 [1:00:53<7:07:10,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4983/40080 [1:00:54<7:07:35,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4984/40080 [1:00:54<7:07:46,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4985/40080 [1:00:55<7:07:13,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4986/40080 [1:00:56<7:07:39,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4987/40080 [1:00:57<7:07:15,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4988/40080 [1:00:57<7:06:52,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4989/40080 [1:00:58<7:06:47,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4990/40080 [1:00:59<7:07:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6331, 'grad_norm': 4.21875, 'learning_rate': 2.4069400714962425e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.54, 'epoch': 0.5}
+ 12%|████████████████████▉                                                                                                                                                   | 4990/40080 [1:00:59<7:07:01,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4991/40080 [1:01:00<7:07:26,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4992/40080 [1:01:00<7:07:20,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4993/40080 [1:01:01<7:07:40,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4994/40080 [1:01:02<7:06:38,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4995/40080 [1:01:02<7:06:23,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4996/40080 [1:01:03<7:05:59,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4997/40080 [1:01:04<7:05:44,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 4998/40080 [1:01:05<7:05:01,  1.38it/s] 12%|████████████████████▉                                                                                                                                                   | 4999/40080 [1:01:05<7:05:20,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5000/40080 [1:01:06<7:05:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5372, 'grad_norm': 3.390625, 'learning_rate': 2.4065683770705944e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2274.09, 'epoch': 0.5}
+ 12%|████████████████████▉                                                                                                                                                   | 5000/40080 [1:01:06<7:05:34,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5001/40080 [1:01:07<7:06:46,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5002/40080 [1:01:08<7:06:13,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5003/40080 [1:01:08<7:05:43,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5004/40080 [1:01:09<7:05:42,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5005/40080 [1:01:10<7:05:37,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5006/40080 [1:01:10<7:05:47,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5007/40080 [1:01:11<7:05:24,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5008/40080 [1:01:12<7:05:48,  1.37it/s] 12%|████████████████████▉                                                                                                                                                   | 5009/40080 [1:01:13<7:05:10,  1.37it/s] 12%|█████████████████████                                                                                                                                                   | 5010/40080 [1:01:13<7:05:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4883, 'grad_norm': 3.453125, 'learning_rate': 2.4061959706401828e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2333.26, 'epoch': 0.5}
+ 12%|█████████████████████                                                                                                                                                   | 5010/40080 [1:01:13<7:05:34,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5011/40080 [1:01:14<7:06:13,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5012/40080 [1:01:15<7:05:42,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5013/40080 [1:01:16<7:05:16,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5014/40080 [1:01:16<7:05:33,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5015/40080 [1:01:17<7:06:12,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5016/40080 [1:01:18<7:06:42,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5017/40080 [1:01:18<7:07:18,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5018/40080 [1:01:19<7:07:12,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5019/40080 [1:01:20<7:07:19,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5020/40080 [1:01:21<7:06:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5563, 'grad_norm': 3.4375, 'learning_rate': 2.4058228524342684e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.31, 'epoch': 0.5}
+ 13%|█████████████████████                                                                                                                                                   | 5020/40080 [1:01:21<7:06:52,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5021/40080 [1:01:21<7:07:12,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5022/40080 [1:01:22<7:08:07,  1.36it/s] 13%|█████████████████████                                                                                                                                                   | 5023/40080 [1:01:23<7:06:59,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5024/40080 [1:01:24<7:06:03,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5025/40080 [1:01:24<7:05:40,  1.37it/s] 13%|███████████████████��█                                                                                                                                                   | 5026/40080 [1:01:25<7:05:58,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5027/40080 [1:01:26<7:05:58,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5028/40080 [1:01:26<7:05:27,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5029/40080 [1:01:27<7:05:25,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5030/40080 [1:01:28<7:05:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5188, 'grad_norm': 3.703125, 'learning_rate': 2.4054490226825487e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2215.03, 'epoch': 0.5}
+ 13%|█████████████████████                                                                                                                                                   | 5030/40080 [1:01:28<7:05:52,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5031/40080 [1:01:29<7:06:09,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5032/40080 [1:01:29<7:06:04,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5033/40080 [1:01:30<7:06:23,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5034/40080 [1:01:31<7:06:06,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5035/40080 [1:01:32<7:06:42,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5036/40080 [1:01:32<7:06:38,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5037/40080 [1:01:33<7:06:53,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5038/40080 [1:01:34<7:05:51,  1.37it/s] 13%|█████████████████████                                                                                                                                                   | 5039/40080 [1:01:35<7:05:20,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5040/40080 [1:01:35<7:05:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5939, 'grad_norm': 3.765625, 'learning_rate': 2.405074481615161e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2538.45, 'epoch': 0.5}
+ 13%|█████████████████████▏                                                                                                                                                  | 5040/40080 [1:01:35<7:05:58,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5041/40080 [1:01:36<7:06:48,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5042/40080 [1:01:37<7:06:33,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5043/40080 [1:01:37<7:06:43,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5044/40080 [1:01:38<7:05:31,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5045/40080 [1:01:39<7:05:11,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5046/40080 [1:01:40<7:05:36,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5047/40080 [1:01:40<7:04:38,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5048/40080 [1:01:41<7:05:39,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5049/40080 [1:01:42<7:05:14,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5050/40080 [1:01:43<7:05:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6671, 'grad_norm': 3.328125, 'learning_rate': 2.4046992294626797e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2375.83, 'epoch': 0.5}
+ 13%|█████████████████████▏                                                                                                                                                  | 5050/40080 [1:01:43<7:05:10,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5051/40080 [1:01:43<7:05:15,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5052/40080 [1:01:44<7:05:20,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5053/40080 [1:01:45<7:05:22,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5054/40080 [1:01:45<7:05:13,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5055/40080 [1:01:46<7:04:33,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5056/40080 [1:01:47<7:05:14,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5057/40080 [1:01:48<7:05:07,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5058/40080 [1:01:48<7:05:03,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5059/40080 [1:01:49<7:06:02,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5060/40080 [1:01:50<7:06:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5268, 'grad_norm': 3.640625, 'learning_rate': 2.4043232664561164e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2412.54, 'epoch': 0.51}
+ 13%|█████████████████████▏                                                                                                                                                  | 5060/40080 [1:01:50<7:06:18,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5061/40080 [1:01:51<7:06:49,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5062/40080 [1:01:51<7:05:37,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5063/40080 [1:01:52<7:05:18,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5064/40080 [1:01:53<7:05:44,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5065/40080 [1:01:53<7:05:20,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5066/40080 [1:01:54<7:05:49,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5067/40080 [1:01:55<7:05:55,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5068/40080 [1:01:56<7:06:21,  1.37it/s] 13%|█████████████████████▏                                                                                                                                                  | 5069/40080 [1:01:56<7:06:34,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5070/40080 [1:01:57<7:07:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5084, 'grad_norm': 2.53125, 'learning_rate': 2.403946592826921e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.83, 'epoch': 0.51}
+ 13%|█████████████████████▎                                                                                                                                                  | 5070/40080 [1:01:57<7:07:02,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5071/40080 [1:01:58<7:07:39,  1.36it/s] 13%|█████████████████████▎                                                                                                                                                  | 5072/40080 [1:01:59<7:07:26,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5073/40080 [1:01:59<7:06:05,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5074/40080 [1:02:00<7:05:32,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5075/40080 [1:02:01<7:05:33,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5076/40080 [1:02:01<7:05:40,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5077/40080 [1:02:02<7:06:32,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5078/40080 [1:02:03<7:05:16,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5079/40080 [1:02:04<7:05:06,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5080/40080 [1:02:04<7:05:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5108, 'grad_norm': 3.265625, 'learning_rate': 2.4035692088069813e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2333.46, 'epoch': 0.51}
+ 13%|█████████████████████▎                                                                                                                                                  | 5080/40080 [1:02:04<7:05:03,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5081/40080 [1:02:05<7:05:58,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5082/40080 [1:02:06<7:05:30,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5083/40080 [1:02:07<7:06:12,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5084/40080 [1:02:07<7:05:49,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5085/40080 [1:02:08<7:05:03,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5086/40080 [1:02:09<7:05:46,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5087/40080 [1:02:10<7:05:16,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5088/40080 [1:02:10<7:06:07,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5089/40080 [1:02:11<7:08:21,  1.36it/s] 13%|█████████████████████▎                                                                                                                                                  | 5090/40080 [1:02:12<7:07:35,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.59, 'grad_norm': 3.453125, 'learning_rate': 2.4031911146286208e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.0, 'epoch': 0.51}
+ 13%|█████████████████████▎                                                                                                                                                  | 5090/40080 [1:02:12<7:07:35,  1.36it/s] 13%|█████████████████████▎                                                                                                                                                  | 5091/40080 [1:02:12<7:07:05,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5092/40080 [1:02:13<7:06:52,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5093/40080 [1:02:14<7:05:35,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5094/40080 [1:02:15<7:04:59,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5095/40080 [1:02:15<7:05:24,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5096/40080 [1:02:16<7:05:43,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5097/40080 [1:02:17<7:05:31,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5098/40080 [1:02:18<7:05:35,  1.37it/s] 13%|█████████████████████▎                                                                                                                                                  | 5099/40080 [1:02:18<7:07:50,  1.36it/s] 13%|█████████████████████▍                                                                                                                                                  | 5100/40080 [1:02:19<7:06:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5588, 'grad_norm': 3.234375, 'learning_rate': 2.4028123105246016e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.85, 'epoch': 0.51}
+ 13%|█████████████████████▍                                                                                                                                                  | 5100/40080 [1:02:19<7:06:41,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5101/40080 [1:02:20<7:07:03,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5102/40080 [1:02:21<7:07:04,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5103/40080 [1:02:21<7:07:10,  1.36it/s] 13%|█████████████████████▍                                                                                                                                                  | 5104/40080 [1:02:22<7:07:01,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5105/40080 [1:02:23<7:06:10,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5106/40080 [1:02:23<7:06:48,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5107/40080 [1:02:24<7:06:17,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5108/40080 [1:02:25<7:05:40,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5109/40080 [1:02:26<7:05:39,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5110/40080 [1:02:26<7:05:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5887, 'grad_norm': 3.125, 'learning_rate': 2.402432796728123e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2506.2, 'epoch': 0.51}
+ 13%|█████████████████████▍                                                                                                                                                  | 5110/40080 [1:02:26<7:05:51,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5111/40080 [1:02:27<7:06:09,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5112/40080 [1:02:28<7:05:42,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5113/40080 [1:02:29<7:04:33,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5114/40080 [1:02:29<7:04:15,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5115/40080 [1:02:30<7:04:12,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5116/40080 [1:02:31<7:04:38,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5117/40080 [1:02:31<7:05:13,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5118/40080 [1:02:32<7:04:13,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5119/40080 [1:02:33<7:04:30,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5120/40080 [1:02:34<7:04:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5968, 'grad_norm': 2.8125, 'learning_rate': 2.4020525734728206e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2355.71, 'epoch': 0.51}
+ 13%|█████████████████████▍                                                                                                                                                  | 5120/40080 [1:02:34<7:04:13,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5121/40080 [1:02:34<7:04:47,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5122/40080 [1:02:35<7:04:55,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5123/40080 [1:02:36<7:04:30,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5124/40080 [1:02:37<7:04:58,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5125/40080 [1:02:37<7:05:18,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5126/40080 [1:02:38<7:05:15,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5127/40080 [1:02:39<7:04:06,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5128/40080 [1:02:39<7:03:54,  1.37it/s] 13%|█████████████████████▍                                                                                                                                                  | 5129/40080 [1:02:40<7:03:22,  1.38it/s] 13%|█████████████████████▌                                                                                                                                                  | 5130/40080 [1:02:41<7:03:13,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5221, 'grad_norm': 3.625, 'learning_rate': 2.401671640992766e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.5, 'epoch': 0.51}
+ 13%|█████████████████████▌                                                                                                                                                  | 5130/40080 [1:02:41<7:03:13,  1.38it/s] 13%|█████████████████████▌                                                                                                                                                  | 5131/40080 [1:02:42<7:04:16,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5132/40080 [1:02:42<7:04:09,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5133/40080 [1:02:43<7:04:16,  1.37it/s] 13%|███████████████████���█▌                                                                                                                                                  | 5134/40080 [1:02:44<7:04:15,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5135/40080 [1:02:45<7:04:18,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5136/40080 [1:02:45<7:04:41,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5137/40080 [1:02:46<7:04:42,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5138/40080 [1:02:47<7:04:17,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5139/40080 [1:02:47<7:04:29,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5140/40080 [1:02:48<7:03:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5342, 'grad_norm': 4.40625, 'learning_rate': 2.401289999522469e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2431.84, 'epoch': 0.51}
+ 13%|█████████████████████▌                                                                                                                                                  | 5140/40080 [1:02:48<7:03:58,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5141/40080 [1:02:49<7:04:45,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5142/40080 [1:02:50<7:05:28,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5143/40080 [1:02:50<7:05:20,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5144/40080 [1:02:51<7:05:04,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5145/40080 [1:02:52<7:04:48,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5146/40080 [1:02:53<7:05:02,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5147/40080 [1:02:53<7:04:52,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5148/40080 [1:02:54<7:05:34,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5149/40080 [1:02:55<7:05:22,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5150/40080 [1:02:56<7:05:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5455, 'grad_norm': 3.515625, 'learning_rate': 2.4009076492968748e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2411.93, 'epoch': 0.51}
+ 13%|█████████████████████▌                                                                                                                                                  | 5150/40080 [1:02:56<7:05:39,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5151/40080 [1:02:56<7:04:56,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5152/40080 [1:02:57<7:05:02,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5153/40080 [1:02:58<7:04:46,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5154/40080 [1:02:58<7:04:33,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5155/40080 [1:02:59<7:04:03,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5156/40080 [1:03:00<7:04:24,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5157/40080 [1:03:01<7:03:45,  1.37it/s] 13%|█████████████████████▌                                                                                                                                                  | 5158/40080 [1:03:01<7:03:08,  1.38it/s] 13%|█████████████████████▌                                                                                                                                                  | 5159/40080 [1:03:02<7:03:02,  1.38it/s] 13%|█████████████████████▋                                                                                                                                                  | 5160/40080 [1:03:03<7:04:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5442, 'grad_norm': 2.5625, 'learning_rate': 2.4005245905513655e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2429.42, 'epoch': 0.52}
+ 13%|█████████████████████▋                                                                                                                                                  | 5160/40080 [1:03:03<7:04:34,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5161/40080 [1:03:04<7:05:06,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5162/40080 [1:03:04<7:04:37,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5163/40080 [1:03:05<7:04:38,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5164/40080 [1:03:06<7:05:15,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5165/40080 [1:03:06<7:04:14,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5166/40080 [1:03:07<7:04:29,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5167/40080 [1:03:08<7:04:23,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5168/40080 [1:03:09<7:04:04,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5169/40080 [1:03:09<7:03:52,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5170/40080 [1:03:10<7:03:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6137, 'grad_norm': 3.640625, 'learning_rate': 2.400140823521759e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2337.28, 'epoch': 0.52}
+ 13%|█████████████████████▋                                                                                                                                                  | 5170/40080 [1:03:10<7:03:58,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5171/40080 [1:03:11<7:03:25,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5172/40080 [1:03:12<7:03:54,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5173/40080 [1:03:12<7:03:46,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5174/40080 [1:03:13<7:03:21,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5175/40080 [1:03:14<7:03:24,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5176/40080 [1:03:14<7:03:42,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5177/40080 [1:03:15<7:05:08,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5178/40080 [1:03:16<7:04:41,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5179/40080 [1:03:17<7:04:53,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5180/40080 [1:03:17<7:04:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.598, 'grad_norm': 2.78125, 'learning_rate': 2.399756348444309e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.73, 'epoch': 0.52}
+ 13%|█████████████████████▋                                                                                                                                                  | 5180/40080 [1:03:17<7:04:19,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5181/40080 [1:03:18<7:05:08,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5182/40080 [1:03:19<7:05:09,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5183/40080 [1:03:20<7:04:45,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5184/40080 [1:03:20<7:03:54,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5185/40080 [1:03:21<7:03:54,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5186/40080 [1:03:22<7:03:02,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5187/40080 [1:03:22<7:03:49,  1.37it/s] 13%|█████████████████████▋                                                                                                                                                  | 5188/40080 [1:03:23<7:03:18,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5189/40080 [1:03:24<7:03:15,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5190/40080 [1:03:25<7:03:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5828, 'grad_norm': 3.484375, 'learning_rate': 2.399371165555706e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2276.22, 'epoch': 0.52}
+ 13%|█████████████████████▊                                                                                                                                                  | 5190/40080 [1:03:25<7:03:56,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5191/40080 [1:03:25<7:04:51,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5192/40080 [1:03:26<7:03:47,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5193/40080 [1:03:27<7:03:57,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5194/40080 [1:03:28<7:03:57,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5195/40080 [1:03:28<7:03:31,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5196/40080 [1:03:29<7:03:38,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5197/40080 [1:03:30<7:03:45,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5198/40080 [1:03:31<7:03:49,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5199/40080 [1:03:31<7:03:19,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5200/40080 [1:03:32<7:03:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5385, 'grad_norm': 3.015625, 'learning_rate': 2.398985275093075e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.48, 'epoch': 0.52}
+ 13%|█████████████████████▊                                                                                                                                                  | 5200/40080 [1:03:32<7:03:03,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5201/40080 [1:03:33<7:04:22,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5202/40080 [1:03:33<7:04:23,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5203/40080 [1:03:34<7:04:34,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5204/40080 [1:03:35<7:04:23,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5205/40080 [1:03:36<7:04:03,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5206/40080 [1:03:36<7:04:01,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5207/40080 [1:03:37<7:07:31,  1.36it/s] 13%|█████████████████████▊                                                                                                                                                  | 5208/40080 [1:03:38<7:05:27,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5209/40080 [1:03:39<7:04:07,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5210/40080 [1:03:39<7:04:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5646, 'grad_norm': 3.84375, 'learning_rate': 2.398598677293978e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2286.72, 'epoch': 0.52}
+ 13%|█████████████████████▊                                                                                                                                                  | 5210/40080 [1:03:39<7:04:11,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5211/40080 [1:03:40<7:03:58,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5212/40080 [1:03:41<7:04:39,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5213/40080 [1:03:41<7:04:06,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5214/40080 [1:03:42<7:03:44,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5215/40080 [1:03:43<7:03:04,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5216/40080 [1:03:44<7:03:40,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5217/40080 [1:03:44<7:04:06,  1.37it/s] 13%|█████████████████████▊                                                                                                                                                  | 5218/40080 [1:03:45<7:03:59,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5219/40080 [1:03:46<7:03:48,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5220/40080 [1:03:47<7:02:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5604, 'grad_norm': 2.609375, 'learning_rate': 2.3982113723964113e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2479.19, 'epoch': 0.52}
+ 13%|█████████████████████▉                                                                                                                                                  | 5220/40080 [1:03:47<7:02:53,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5221/40080 [1:03:47<7:03:40,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5222/40080 [1:03:48<7:04:10,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5223/40080 [1:03:49<7:04:25,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5224/40080 [1:03:49<7:04:07,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5225/40080 [1:03:50<7:03:44,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5226/40080 [1:03:51<7:04:23,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5227/40080 [1:03:52<7:04:26,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5228/40080 [1:03:52<7:04:29,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5229/40080 [1:03:53<7:03:45,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5230/40080 [1:03:54<7:02:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5133, 'grad_norm': 3.6875, 'learning_rate': 2.397823360638807e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.43, 'epoch': 0.52}
+ 13%|█████████████████████▉                                                                                                                                                  | 5230/40080 [1:03:54<7:02:38,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5231/40080 [1:03:55<7:03:43,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5232/40080 [1:03:55<7:02:56,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5233/40080 [1:03:56<7:02:30,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5234/40080 [1:03:57<7:02:57,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5235/40080 [1:03:57<7:02:28,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5236/40080 [1:03:58<7:02:30,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5237/40080 [1:03:59<7:03:37,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5238/40080 [1:04:00<7:03:45,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5239/40080 [1:04:00<7:04:26,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5240/40080 [1:04:01<7:04:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5446, 'grad_norm': 3.21875, 'learning_rate': 2.397434642260032e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2366.96, 'epoch': 0.52}
+ 13%|█████████████████████▉                                                                                                                                                  | 5240/40080 [1:04:01<7:04:30,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5241/40080 [1:04:02<7:05:14,  1.37it/s] 13%|███████��█████████████▉                                                                                                                                                  | 5242/40080 [1:04:03<7:05:25,  1.36it/s] 13%|█████████████████████▉                                                                                                                                                  | 5243/40080 [1:04:03<7:04:52,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5244/40080 [1:04:04<7:03:57,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5245/40080 [1:04:05<7:04:08,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5246/40080 [1:04:06<7:03:35,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5247/40080 [1:04:06<7:03:55,  1.37it/s] 13%|█████████████████████▉                                                                                                                                                  | 5248/40080 [1:04:07<7:02:56,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5249/40080 [1:04:08<7:03:53,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5250/40080 [1:04:08<7:04:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5931, 'grad_norm': 3.65625, 'learning_rate': 2.3970452174993885e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2459.65, 'epoch': 0.52}
+ 13%|██████████████████████                                                                                                                                                  | 5250/40080 [1:04:08<7:04:04,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5251/40080 [1:04:09<7:04:50,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5252/40080 [1:04:10<7:03:46,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5253/40080 [1:04:11<7:03:52,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5254/40080 [1:04:11<7:03:19,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5255/40080 [1:04:12<7:03:09,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5256/40080 [1:04:13<7:02:27,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5257/40080 [1:04:14<7:02:04,  1.38it/s] 13%|██████████████████████                                                                                                                                                  | 5258/40080 [1:04:14<7:02:49,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5259/40080 [1:04:15<7:03:24,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5260/40080 [1:04:16<7:03:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5185, 'grad_norm': 3.109375, 'learning_rate': 2.396655086596614e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2486.66, 'epoch': 0.53}
+ 13%|██████████████████████                                                                                                                                                  | 5260/40080 [1:04:16<7:03:25,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5261/40080 [1:04:16<7:03:36,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5262/40080 [1:04:17<7:02:51,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5263/40080 [1:04:18<8:11:23,  1.18it/s] 13%|██████████████████████                                                                                                                                                  | 5264/40080 [1:04:19<7:50:56,  1.23it/s] 13%|██████████████████████                                                                                                                                                  | 5265/40080 [1:04:20<7:37:28,  1.27it/s] 13%|██████████████████████                                                                                                                                                  | 5266/40080 [1:04:21<7:27:06,  1.30it/s] 13%|██████████████████████                                                                                                                                                  | 5267/40080 [1:04:21<7:20:18,  1.32it/s] 13%|██████████████████████                                                                                                                                                  | 5268/40080 [1:04:22<7:14:47,  1.33it/s] 13%|██████████████████████                                                                                                                                                  | 5269/40080 [1:04:23<7:11:01,  1.35it/s] 13%|██████████████████████                                                                                                                                                  | 5270/40080 [1:04:23<7:07:56,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.7091, 'grad_norm': 4.0, 'learning_rate': 2.3962642497918802e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2393.16, 'epoch': 0.53}
+ 13%|██████████████████████                                                                                                                                                  | 5270/40080 [1:04:23<7:07:56,  1.36it/s] 13%|██████████████████████                                                                                                                                                  | 5271/40080 [1:04:24<7:06:59,  1.36it/s] 13%|██████████████████████                                                                                                                                                  | 5272/40080 [1:04:25<7:05:52,  1.36it/s] 13%|██████████████████████                                                                                                                                                  | 5273/40080 [1:04:26<7:06:08,  1.36it/s] 13%|██████████████████████                                                                                                                                                  | 5274/40080 [1:04:26<7:05:13,  1.36it/s] 13%|██████████████████████                                                                                                                                                  | 5275/40080 [1:04:27<7:04:58,  1.36it/s] 13%|██████████████████████                                                                                                                                                  | 5276/40080 [1:04:28<7:04:14,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5277/40080 [1:04:29<7:04:27,  1.37it/s] 13%|██████████████████████                                                                                                                                                  | 5278/40080 [1:04:29<7:03:42,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5279/40080 [1:04:30<7:03:07,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5280/40080 [1:04:31<7:03:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5092, 'grad_norm': 2.015625, 'learning_rate': 2.3958727073257937e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.0, 'epoch': 0.53}
+ 13%|██████████████████████▏                                                                                                                                                 | 5280/40080 [1:04:31<7:03:39,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5281/40080 [1:04:31<7:03:43,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5282/40080 [1:04:32<7:03:26,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5283/40080 [1:04:33<7:03:07,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5284/40080 [1:04:34<7:02:37,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5285/40080 [1:04:34<7:03:10,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5286/40080 [1:04:35<7:03:04,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5287/40080 [1:04:36<7:03:26,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5288/40080 [1:04:37<7:03:01,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5289/40080 [1:04:37<7:03:27,  1.37it/s] 13%|██████████████████���███▏                                                                                                                                                 | 5290/40080 [1:04:38<7:03:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5459, 'grad_norm': 3.0, 'learning_rate': 2.3954804594393943e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.94, 'epoch': 0.53}
+ 13%|██████████████████████▏                                                                                                                                                 | 5290/40080 [1:04:38<7:03:08,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5291/40080 [1:04:39<7:03:24,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5292/40080 [1:04:39<7:02:57,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5293/40080 [1:04:40<7:02:56,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5294/40080 [1:04:41<7:02:54,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5295/40080 [1:04:42<7:01:57,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5296/40080 [1:04:42<7:02:27,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5297/40080 [1:04:43<7:02:37,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5298/40080 [1:04:44<7:02:09,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5299/40080 [1:04:45<7:02:42,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5300/40080 [1:04:45<7:03:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5546, 'grad_norm': 3.140625, 'learning_rate': 2.3950875063741573e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2529.08, 'epoch': 0.53}
+ 13%|██████████████████████▏                                                                                                                                                 | 5300/40080 [1:04:45<7:03:22,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5301/40080 [1:04:46<7:04:00,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5302/40080 [1:04:47<7:03:08,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5303/40080 [1:04:48<7:02:23,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5304/40080 [1:04:48<7:01:39,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5305/40080 [1:04:49<7:02:37,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5306/40080 [1:04:50<7:02:57,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5307/40080 [1:04:50<7:03:12,  1.37it/s] 13%|██████████████████████▏                                                                                                                                                 | 5308/40080 [1:04:51<7:02:50,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5309/40080 [1:04:52<7:03:24,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5310/40080 [1:04:53<7:03:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5281, 'grad_norm': 2.265625, 'learning_rate': 2.3946938483719923e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.53, 'epoch': 0.53}
+ 13%|██████████████████████▎                                                                                                                                                 | 5310/40080 [1:04:53<7:03:49,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5311/40080 [1:04:53<7:04:10,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5312/40080 [1:04:54<7:03:45,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5313/40080 [1:04:55<7:02:28,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5314/40080 [1:04:56<7:02:39,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5315/40080 [1:04:56<7:03:17,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5316/40080 [1:04:57<7:03:17,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5317/40080 [1:04:58<7:02:09,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5318/40080 [1:04:58<7:02:42,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5319/40080 [1:04:59<7:02:03,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5320/40080 [1:05:00<7:01:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5782, 'grad_norm': 3.421875, 'learning_rate': 2.394299485675242e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2392.17, 'epoch': 0.53}
+ 13%|██████████████████████▎                                                                                                                                                 | 5320/40080 [1:05:00<7:01:48,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5321/40080 [1:05:01<7:02:37,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5322/40080 [1:05:01<7:02:23,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5323/40080 [1:05:02<7:02:30,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5324/40080 [1:05:03<7:03:49,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5325/40080 [1:05:04<7:03:12,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5326/40080 [1:05:04<7:02:59,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5327/40080 [1:05:05<7:02:25,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5328/40080 [1:05:06<7:02:15,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5329/40080 [1:05:06<7:01:25,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5330/40080 [1:05:07<7:01:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5397, 'grad_norm': 4.21875, 'learning_rate': 2.3939044185266837e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2232.2, 'epoch': 0.53}
+ 13%|██████████████████████▎                                                                                                                                                 | 5330/40080 [1:05:07<7:01:23,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5331/40080 [1:05:08<7:01:19,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5332/40080 [1:05:09<7:00:45,  1.38it/s] 13%|██████████████████████▎                                                                                                                                                 | 5333/40080 [1:05:09<7:01:19,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5334/40080 [1:05:10<7:01:54,  1.37it/s] 13%|██████████████████████��                                                                                                                                                 | 5335/40080 [1:05:11<7:02:16,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5336/40080 [1:05:12<7:03:05,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5337/40080 [1:05:12<7:02:20,  1.37it/s] 13%|██████████████████████▎                                                                                                                                                 | 5338/40080 [1:05:13<7:02:35,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5339/40080 [1:05:14<7:04:58,  1.36it/s] 13%|██████████████████████▍                                                                                                                                                 | 5340/40080 [1:05:15<7:04:27,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5584, 'grad_norm': 3.09375, 'learning_rate': 2.393508647169528e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2289.8, 'epoch': 0.53}
+ 13%|██████████████████████▍                                                                                                                                                 | 5340/40080 [1:05:15<7:04:27,  1.36it/s] 13%|██████████████████████▍                                                                                                                                                 | 5341/40080 [1:05:15<7:04:28,  1.36it/s] 13%|██████████████████████▍                                                                                                                                                 | 5342/40080 [1:05:16<7:03:55,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5343/40080 [1:05:17<7:03:37,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5344/40080 [1:05:17<7:03:17,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5345/40080 [1:05:18<7:02:43,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5346/40080 [1:05:19<7:01:54,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5347/40080 [1:05:20<7:02:55,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5348/40080 [1:05:20<7:03:24,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5349/40080 [1:05:21<7:03:28,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5350/40080 [1:05:22<7:03:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5214, 'grad_norm': 4.0, 'learning_rate': 2.3931121718474182e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2614.37, 'epoch': 0.53}
+ 13%|██████████████████████▍                                                                                                                                                 | 5350/40080 [1:05:22<7:03:21,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5351/40080 [1:05:23<7:02:54,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5352/40080 [1:05:23<7:02:36,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5353/40080 [1:05:24<7:01:55,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5354/40080 [1:05:25<7:02:24,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5355/40080 [1:05:25<7:01:21,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5356/40080 [1:05:26<7:01:47,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5357/40080 [1:05:27<7:01:49,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5358/40080 [1:05:28<7:01:29,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5359/40080 [1:05:28<7:01:48,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5360/40080 [1:05:29<7:02:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5758, 'grad_norm': 3.296875, 'learning_rate': 2.3927149928044328e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.7, 'epoch': 0.54}
+ 13%|██████████████████████▍                                                                                                                                                 | 5360/40080 [1:05:29<7:02:30,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5361/40080 [1:05:30<7:03:16,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5362/40080 [1:05:31<7:02:10,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5363/40080 [1:05:31<7:02:05,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5364/40080 [1:05:32<7:02:20,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5365/40080 [1:05:33<7:01:20,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5366/40080 [1:05:33<7:01:44,  1.37it/s] 13%|██████████████████████▍                                                                                                                                                 | 5367/40080 [1:05:34<7:00:57,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5368/40080 [1:05:35<7:01:44,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5369/40080 [1:05:36<7:01:50,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5370/40080 [1:05:36<7:01:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5795, 'grad_norm': 3.15625, 'learning_rate': 2.392317110285082e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.27, 'epoch': 0.54}
+ 13%|██████████████████████▌                                                                                                                                                 | 5370/40080 [1:05:36<7:01:40,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5371/40080 [1:05:37<7:02:12,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5372/40080 [1:05:38<7:02:09,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5373/40080 [1:05:39<7:01:27,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5374/40080 [1:05:39<7:01:47,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5375/40080 [1:05:40<7:01:29,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5376/40080 [1:05:41<7:01:53,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5377/40080 [1:05:42<7:01:24,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5378/40080 [1:05:42<7:01:05,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5379/40080 [1:05:43<7:01:33,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5380/40080 [1:05:44<7:01:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5365, 'grad_norm': 2.984375, 'learning_rate': 2.3919185245343095e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.43, 'epoch': 0.54}
+ 13%|██████████████████████▌                                                                                                                                                 | 5380/40080 [1:05:44<7:01:02,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5381/40080 [1:05:44<7:02:05,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5382/40080 [1:05:45<7:01:26,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5383/40080 [1:05:46<7:02:01,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5384/40080 [1:05:47<7:01:56,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5385/40080 [1:05:47<7:00:33,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5386/40080 [1:05:48<7:01:06,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5387/40080 [1:05:49<7:00:50,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5388/40080 [1:05:50<7:01:07,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5389/40080 [1:05:50<7:01:09,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5390/40080 [1:05:51<7:00:26,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6324, 'grad_norm': 3.359375, 'learning_rate': 2.3915192357974927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2501.65, 'epoch': 0.54}
+ 13%|██████████████████████▌                                                                                                                                                 | 5390/40080 [1:05:51<7:00:26,  1.38it/s] 13%|██████████████████████▌                                                                                                                                                 | 5391/40080 [1:05:52<7:00:17,  1.38it/s] 13%|██████████████████████▌                                                                                                                                                 | 5392/40080 [1:05:52<7:00:32,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5393/40080 [1:05:53<7:00:48,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5394/40080 [1:05:54<7:00:25,  1.38it/s] 13%|██████████████████████▌                                                                                                                                                 | 5395/40080 [1:05:55<7:01:01,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5396/40080 [1:05:55<7:01:24,  1.37it/s] 13%|██████████████████████▌                                                                                                                                                 | 5397/40080 [1:05:56<7:01:21,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5398/40080 [1:05:57<7:01:28,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5399/40080 [1:05:58<7:01:46,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5400/40080 [1:05:58<7:01:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5911, 'grad_norm': 4.03125, 'learning_rate': 2.3911192443204407e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2271.73, 'epoch': 0.54}
+ 13%|██████████████████████▋                                                                                                                                                 | 5400/40080 [1:05:58<7:01:32,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5401/40080 [1:05:59<7:02:45,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5402/40080 [1:06:00<7:02:42,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5403/40080 [1:06:00<7:02:47,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5404/40080 [1:06:01<7:01:35,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5405/40080 [1:06:02<7:01:24,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5406/40080 [1:06:03<7:02:22,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5407/40080 [1:06:03<7:01:59,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5408/40080 [1:06:04<7:01:34,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5409/40080 [1:06:05<7:01:47,  1.37it/s] 13%|██████████████████████▋                                                                                                                                                 | 5410/40080 [1:06:06<7:01:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5488, 'grad_norm': 3.125, 'learning_rate': 2.390718550349395e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2594.14, 'epoch': 0.54}
+ 13%|██████████████████████▋                                                                                                                                                 | 5410/40080 [1:06:06<7:01:59,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5411/40080 [1:06:06<7:01:44,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5412/40080 [1:06:07<7:01:32,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5413/40080 [1:06:08<7:00:48,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5414/40080 [1:06:08<7:01:07,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5415/40080 [1:06:09<7:00:59,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5416/40080 [1:06:10<7:01:07,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5417/40080 [1:06:11<7:01:16,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5418/40080 [1:06:11<7:01:55,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5419/40080 [1:06:12<7:00:45,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5420/40080 [1:06:13<7:00:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6199, 'grad_norm': 4.0, 'learning_rate': 2.390317154131031e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2421.96, 'epoch': 0.54}
+ 14%|██████████████████████▋                                                                                                                                                 | 5420/40080 [1:06:13<7:00:09,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5421/40080 [1:06:14<7:00:34,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5422/40080 [1:06:14<7:00:35,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5423/40080 [1:06:15<7:00:44,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5424/40080 [1:06:16<7:01:32,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5425/40080 [1:06:17<7:00:25,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5426/40080 [1:06:17<7:00:44,  1.37it/s] 14%|██████████████████████▋                                                                                                                                                 | 5427/40080 [1:06:18<7:01:12,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5428/40080 [1:06:19<7:01:21,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5429/40080 [1:06:19<7:01:43,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5430/40080 [1:06:20<7:02:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5541, 'grad_norm': 3.171875, 'learning_rate': 2.3899150559124554e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.47, 'epoch': 0.54}
+ 14%|██████████████████████▊                                                                                                                                                 | 5430/40080 [1:06:20<7:02:04,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5431/40080 [1:06:21<7:01:32,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5432/40080 [1:06:22<7:01:09,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5433/40080 [1:06:22<7:00:52,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5434/40080 [1:06:23<7:01:36,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5435/40080 [1:06:24<7:02:08,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5436/40080 [1:06:25<7:01:48,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5437/40080 [1:06:25<7:02:10,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5438/40080 [1:06:26<7:01:17,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5439/40080 [1:06:27<7:00:41,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5440/40080 [1:06:27<7:01:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5335, 'grad_norm': 3.3125, 'learning_rate': 2.389512255941207e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.69, 'epoch': 0.54}
+ 14%|██████████████████████▊                                                                                                                                                 | 5440/40080 [1:06:27<7:01:08,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5441/40080 [1:06:28<7:01:04,  1.37it/s] 14%|█████████████████████���▊                                                                                                                                                 | 5442/40080 [1:06:29<7:00:44,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5443/40080 [1:06:30<7:00:51,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5444/40080 [1:06:30<7:01:14,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5445/40080 [1:06:31<7:01:35,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5446/40080 [1:06:32<7:01:26,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5447/40080 [1:06:33<7:01:03,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5448/40080 [1:06:33<7:00:17,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5449/40080 [1:06:34<7:00:07,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5450/40080 [1:06:35<7:00:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5144, 'grad_norm': 3.046875, 'learning_rate': 2.3891087544652573e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2543.43, 'epoch': 0.54}
+ 14%|██████████████████████▊                                                                                                                                                 | 5450/40080 [1:06:35<7:00:14,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5451/40080 [1:06:35<7:00:58,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5452/40080 [1:06:36<6:59:59,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5453/40080 [1:06:37<6:59:27,  1.38it/s] 14%|██████████████████████▊                                                                                                                                                 | 5454/40080 [1:06:38<7:00:38,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5455/40080 [1:06:38<7:00:55,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5456/40080 [1:06:39<7:00:47,  1.37it/s] 14%|██████████████████████▊                                                                                                                                                 | 5457/40080 [1:06:40<7:00:12,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5458/40080 [1:06:41<6:59:53,  1.37it/s] 14%|████████���█████████████▉                                                                                                                                                 | 5459/40080 [1:06:41<7:00:26,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5460/40080 [1:06:42<6:59:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5859, 'grad_norm': 3.859375, 'learning_rate': 2.3887045517330085e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2364.21, 'epoch': 0.55}
+ 14%|██████████████████████▉                                                                                                                                                 | 5460/40080 [1:06:42<6:59:52,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5461/40080 [1:06:43<7:00:51,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5462/40080 [1:06:43<7:00:48,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5463/40080 [1:06:44<7:00:55,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5464/40080 [1:06:45<7:00:32,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5465/40080 [1:06:46<7:00:09,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5466/40080 [1:06:46<7:02:37,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5467/40080 [1:06:47<7:01:39,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5468/40080 [1:06:48<7:03:16,  1.36it/s] 14%|██████████████████████▉                                                                                                                                                 | 5469/40080 [1:06:49<7:06:23,  1.35it/s] 14%|██████████████████████▉                                                                                                                                                 | 5470/40080 [1:06:49<7:04:40,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5521, 'grad_norm': 3.0625, 'learning_rate': 2.388299647993296e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.25, 'epoch': 0.55}
+ 14%|██████████████████████▉                                                                                                                                                 | 5470/40080 [1:06:49<7:04:40,  1.36it/s] 14%|██████████████████████▉                                                                                                                                                 | 5471/40080 [1:06:50<7:03:44,  1.36it/s] 14%|██████████████████████▉                                                                                                                                                 | 5472/40080 [1:06:51<7:02:54,  1.36it/s] 14%|████████████████��█████▉                                                                                                                                                 | 5473/40080 [1:06:52<7:02:54,  1.36it/s] 14%|██████████████████████▉                                                                                                                                                 | 5474/40080 [1:06:52<7:01:51,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5475/40080 [1:06:53<7:02:41,  1.36it/s] 14%|██████████████████████▉                                                                                                                                                 | 5476/40080 [1:06:54<7:05:41,  1.35it/s] 14%|██████████████████████▉                                                                                                                                                 | 5477/40080 [1:06:55<7:07:40,  1.35it/s] 14%|██████████████████████▉                                                                                                                                                 | 5478/40080 [1:06:55<7:09:05,  1.34it/s] 14%|██████████████████████▉                                                                                                                                                 | 5479/40080 [1:06:56<7:10:01,  1.34it/s] 14%|██████████████████████▉                                                                                                                                                 | 5480/40080 [1:06:57<7:11:51,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.5718, 'grad_norm': 3.015625, 'learning_rate': 2.387894043495386e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2283.55, 'epoch': 0.55}
+ 14%|██████████████████████▉                                                                                                                                                 | 5480/40080 [1:06:57<7:11:51,  1.34it/s] 14%|██████████████████████▉                                                                                                                                                 | 5481/40080 [1:06:58<7:13:25,  1.33it/s] 14%|██████████████████████▉                                                                                                                                                 | 5482/40080 [1:06:58<7:09:24,  1.34it/s] 14%|██████████████████████▉                                                                                                                                                 | 5483/40080 [1:06:59<7:07:16,  1.35it/s] 14%|██████████████████████▉                                                                                                                                                 | 5484/40080 [1:07:00<7:05:01,  1.36it/s] 14%|██████████████████████▉                                                                                                                                                 | 5485/40080 [1:07:00<7:03:15,  1.36it/s] 14%|██████████████████████▉                                                                                                                                                 | 5486/40080 [1:07:01<7:02:02,  1.37it/s] 14%|██████████████████████▉                                                                                                                                                 | 5487/40080 [1:07:02<7:01:32,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5488/40080 [1:07:03<7:01:03,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5489/40080 [1:07:03<7:00:43,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5490/40080 [1:07:04<6:59:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5917, 'grad_norm': 3.4375, 'learning_rate': 2.3874877384889756e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2275.5, 'epoch': 0.55}
+ 14%|███████████████████████                                                                                                                                                 | 5490/40080 [1:07:04<6:59:57,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5491/40080 [1:07:05<7:01:11,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5492/40080 [1:07:06<7:00:27,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5493/40080 [1:07:06<7:00:21,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5494/40080 [1:07:07<7:00:16,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5495/40080 [1:07:08<7:00:13,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5496/40080 [1:07:08<7:00:07,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5497/40080 [1:07:09<7:00:19,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5498/40080 [1:07:10<6:59:44,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5499/40080 [1:07:11<6:59:56,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5500/40080 [1:07:11<6:59:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6264, 'grad_norm': 3.640625, 'learning_rate': 2.387080733224194e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2620.18, 'epoch': 0.55}
+ 14%|███████████████████████                                                                                                                                                 | 5500/40080 [1:07:11<6:59:30,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5501/40080 [1:07:12<7:01:37,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5502/40080 [1:07:13<7:00:42,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5503/40080 [1:07:14<7:00:10,  1.37it/s] 14%|████████████��██████████                                                                                                                                                 | 5504/40080 [1:07:14<6:59:41,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5505/40080 [1:07:15<6:59:59,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5506/40080 [1:07:16<6:59:44,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5507/40080 [1:07:16<6:59:26,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5508/40080 [1:07:17<6:59:12,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5509/40080 [1:07:18<6:58:37,  1.38it/s] 14%|███████████████████████                                                                                                                                                 | 5510/40080 [1:07:19<6:58:23,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5682, 'grad_norm': 3.359375, 'learning_rate': 2.3866730279516006e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2320.04, 'epoch': 0.55}
+ 14%|███████████████████████                                                                                                                                                 | 5510/40080 [1:07:19<6:58:23,  1.38it/s] 14%|███████████████████████                                                                                                                                                 | 5511/40080 [1:07:19<6:59:38,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5512/40080 [1:07:20<7:02:36,  1.36it/s] 14%|███████████████████████                                                                                                                                                 | 5513/40080 [1:07:21<7:02:05,  1.36it/s] 14%|███████████████████████                                                                                                                                                 | 5514/40080 [1:07:22<7:01:01,  1.37it/s] 14%|███████████████████████                                                                                                                                                 | 5515/40080 [1:07:22<7:02:53,  1.36it/s] 14%|███████████████████████                                                                                                                                                 | 5516/40080 [1:07:23<7:06:04,  1.35it/s] 14%|███████████████████████▏                                                                                                                                                | 5517/40080 [1:07:24<7:08:05,  1.35it/s] 14%|███████████████████████▏                                                                                                                                                | 5518/40080 [1:07:25<7:09:44,  1.34it/s] 14%|███████████████████████▏                                                                                                                                                | 5519/40080 [1:07:25<7:06:29,  1.35it/s] 14%|███████████████████████▏                                                                                                                                                | 5520/40080 [1:07:26<7:03:30,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5858, 'grad_norm': 2.90625, 'learning_rate': 2.3862646229221867e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2584.93, 'epoch': 0.55}
+ 14%|███████████████████████▏                                                                                                                                                | 5520/40080 [1:07:26<7:03:30,  1.36it/s] 14%|███████████████████████▏                                                                                                                                                | 5521/40080 [1:07:27<7:03:41,  1.36it/s] 14%|███████████████████████▏                                                                                                                                                | 5522/40080 [1:07:28<7:02:22,  1.36it/s] 14%|███████████████████████▏                                                                                                                                                | 5523/40080 [1:07:28<7:01:45,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5524/40080 [1:07:29<7:01:15,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5525/40080 [1:07:30<7:00:02,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5526/40080 [1:07:30<6:59:01,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5527/40080 [1:07:31<6:58:42,  1.38it/s] 14%|███████████████████████▏                                                                                                                                                | 5528/40080 [1:07:32<6:58:57,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5529/40080 [1:07:33<6:58:39,  1.38it/s] 14%|███████████████████████▏                                                                                                                                                | 5530/40080 [1:07:33<6:57:47,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5627, 'grad_norm': 3.9375, 'learning_rate': 2.385855518387374e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2356.73, 'epoch': 0.55}
+ 14%|███████████████████████▏                                                                                                                                                | 5530/40080 [1:07:33<6:57:47,  1.38it/s] 14%|███████████████████████▏                                                                                                                                                | 5531/40080 [1:07:34<6:58:49,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5532/40080 [1:07:35<6:58:29,  1.38it/s] 14%|███████████████████████▏                                                                                                                                                | 5533/40080 [1:07:36<6:58:38,  1.38it/s] 14%|███████████████████████▏                                                                                                                                                | 5534/40080 [1:07:36<6:58:55,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5535/40080 [1:07:37<6:59:12,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5536/40080 [1:07:38<6:58:52,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5537/40080 [1:07:38<6:58:22,  1.38it/s] 14%|███████████████████████▏                                                                                                                                                | 5538/40080 [1:07:39<6:58:12,  1.38it/s] 14%|███████████████████████▏                                                                                                                                                | 5539/40080 [1:07:40<6:59:29,  1.37it/s] 14%|███████████████████████▏                                                                                                                                                | 5540/40080 [1:07:41<7:03:46,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5535, 'grad_norm': 3.25, 'learning_rate': 2.3854457145990146e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2260.76, 'epoch': 0.55}
+ 14%|███████████████████████▏                                                                                                                                                | 5540/40080 [1:07:41<7:03:46,  1.36it/s] 14%|███████████████████████▏                                                                                                                                                | 5541/40080 [1:07:41<7:06:38,  1.35it/s] 14%|███████████████████████▏                                                                                                                                                | 5542/40080 [1:07:42<7:06:34,  1.35it/s] 14%|███████████████████████▏                                                                                                                                                | 5543/40080 [1:07:43<7:04:05,  1.36it/s] 14%|███████████████████████▏                                                                                                                                                | 5544/40080 [1:07:44<7:05:10,  1.35it/s] 14%|███████████████████████▏                                                                                                                                                | 5545/40080 [1:07:44<7:03:50,  1.36it/s] 14%|███████████████████████▏                                                                                                                                                | 5546/40080 [1:07:45<7:02:40,  1.36it/s] 14%|███████████████████████▎                                                                                                                                                | 5547/40080 [1:07:46<7:05:31,  1.35it/s] 14%|███████████████████████▎                                                                                                                                                | 5548/40080 [1:07:47<7:03:09,  1.36it/s] 14%|███████████████████████▎                                                                                                                                                | 5549/40080 [1:07:47<7:01:35,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5550/40080 [1:07:48<7:00:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5486, 'grad_norm': 2.875, 'learning_rate': 2.385035211809391e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.77, 'epoch': 0.55}
+ 14%|███████████████████████▎                                                                                                                                                | 5550/40080 [1:07:48<7:00:13,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5551/40080 [1:07:49<7:00:06,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5552/40080 [1:07:49<6:59:22,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5553/40080 [1:07:50<6:59:20,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5554/40080 [1:07:51<6:59:55,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5555/40080 [1:07:52<6:59:23,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5556/40080 [1:07:52<6:59:04,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5557/40080 [1:07:53<6:58:34,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5558/40080 [1:07:54<6:57:38,  1.38it/s] 14%|███████████████████████▎                                                                                                                                                | 5559/40080 [1:07:55<6:57:23,  1.38it/s] 14%|███████████████████████▎                                                                                                                                                | 5560/40080 [1:07:55<6:58:00,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5493, 'grad_norm': 2.625, 'learning_rate': 2.384624010271217e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2385.14, 'epoch': 0.56}
+ 14%|███████████████████████▎                                                                                                                                                | 5560/40080 [1:07:55<6:58:00,  1.38it/s] 14%|███████████████████████▎                                                                                                                                                | 5561/40080 [1:07:56<6:58:27,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5562/40080 [1:07:57<6:58:33,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5563/40080 [1:07:57<6:59:45,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5564/40080 [1:07:58<6:58:36,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5565/40080 [1:07:59<6:58:08,  1.38it/s] 14%|███████████████████████▎                                                                                                                                                | 5566/40080 [1:08:00<6:58:50,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5567/40080 [1:08:00<6:59:02,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5568/40080 [1:08:01<6:58:38,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5569/40080 [1:08:02<6:58:46,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5570/40080 [1:08:03<6:58:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5923, 'grad_norm': 3.984375, 'learning_rate': 2.384212110237635e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.04, 'epoch': 0.56}
+ 14%|███████████████████████▎                                                                                                                                                | 5570/40080 [1:08:03<6:58:39,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5571/40080 [1:08:03<6:59:51,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5572/40080 [1:08:04<6:59:08,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5573/40080 [1:08:05<6:58:41,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5574/40080 [1:08:05<6:58:53,  1.37it/s] 14%|███████████████████████▎                                                                                                                                                | 5575/40080 [1:08:06<7:02:02,  1.36it/s] 14%|███████████████████████▎                                                                                                                                                | 5576/40080 [1:08:07<7:02:52,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5577/40080 [1:08:08<7:03:31,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5578/40080 [1:08:08<7:06:21,  1.35it/s] 14%|███████████████████████▍                                                                                                                                                | 5579/40080 [1:08:09<7:04:25,  1.35it/s] 14%|███████████████████████▍                                                                                                                                                | 5580/40080 [1:08:10<7:02:34,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.546, 'grad_norm': 4.28125, 'learning_rate': 2.3837995119622185e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.71, 'epoch': 0.56}
+ 14%|███████████████████████▍                                                                                                                                                | 5580/40080 [1:08:10<7:02:34,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5581/40080 [1:08:11<7:02:27,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5582/40080 [1:08:11<7:03:07,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5583/40080 [1:08:12<7:04:23,  1.35it/s] 14%|███████████████████████▍                                                                                                                                                | 5584/40080 [1:08:13<7:04:31,  1.35it/s] 14%|███████████████████████▍                                                                                                                                                | 5585/40080 [1:08:14<7:01:28,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5586/40080 [1:08:14<7:00:06,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5587/40080 [1:08:15<6:59:40,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5588/40080 [1:08:16<6:58:59,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5589/40080 [1:08:16<6:58:15,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5590/40080 [1:08:17<6:58:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5881, 'grad_norm': 3.484375, 'learning_rate': 2.383386215698971e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2304.25, 'epoch': 0.56}
+ 14%|███████████████████████▍                                                                                                                                                | 5590/40080 [1:08:17<6:58:09,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5591/40080 [1:08:18<6:59:10,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5592/40080 [1:08:19<6:58:46,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5593/40080 [1:08:19<6:59:02,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5594/40080 [1:08:20<7:00:45,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5595/40080 [1:08:21<6:59:51,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5596/40080 [1:08:22<6:59:26,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5597/40080 [1:08:22<6:58:36,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5598/40080 [1:08:23<6:58:59,  1.37it/s] 14%|███████████████████████▍                                                                                                                                                | 5599/40080 [1:08:24<7:01:29,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5600/40080 [1:08:25<7:04:43,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5402, 'grad_norm': 3.578125, 'learning_rate': 2.3829722217023255e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.77, 'epoch': 0.56}
+ 14%|███████████████████████▍                                                                                                                                                | 5600/40080 [1:08:25<7:04:43,  1.35it/s] 14%|███████████████████████▍                                                                                                                                                | 5601/40080 [1:08:25<7:08:29,  1.34it/s] 14%|███████████████████████▍                                                                                                                                                | 5602/40080 [1:08:26<7:09:58,  1.34it/s] 14%|███████████████████████▍                                                                                                                                                | 5603/40080 [1:08:27<7:10:36,  1.33it/s] 14%|███████████████████████▍                                                                                                                                                | 5604/40080 [1:08:28<7:06:20,  1.35it/s] 14%|███████████████████████▍                                                                                                                                                | 5605/40080 [1:08:28<7:03:52,  1.36it/s] 14%|███████████████████████▍                                                                                                                                                | 5606/40080 [1:08:29<7:01:46,  1.36it/s] 14%|███████████████████████▌                                                                                                                                                | 5607/40080 [1:08:30<7:00:21,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5608/40080 [1:08:30<6:58:28,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5609/40080 [1:08:31<6:57:50,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5610/40080 [1:08:32<6:57:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5821, 'grad_norm': 3.796875, 'learning_rate': 2.382557530227143e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.1, 'epoch': 0.56}
+ 14%|███████████████████████▌                                                                                                                                                | 5610/40080 [1:08:32<6:57:52,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5611/40080 [1:08:33<6:58:48,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5612/40080 [1:08:33<6:58:26,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5613/40080 [1:08:34<6:58:14,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5614/40080 [1:08:35<6:57:37,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5615/40080 [1:08:36<6:57:48,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5616/40080 [1:08:36<6:57:35,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5617/40080 [1:08:37<6:57:39,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5618/40080 [1:08:38<6:58:17,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5619/40080 [1:08:38<6:58:19,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5620/40080 [1:08:39<6:58:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.524, 'grad_norm': 3.515625, 'learning_rate': 2.3821421415287162e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.49, 'epoch': 0.56}
+ 14%|███████████████████████▌                                                                                                                                                | 5620/40080 [1:08:39<6:58:16,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5621/40080 [1:08:40<6:58:26,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5622/40080 [1:08:41<6:57:50,  1.37it/s] 14%|███████████████████████▌                                                                                                                                                | 5623/40080 [1:08:41<6:57:28,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5624/40080 [1:08:42<6:57:01,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5625/40080 [1:08:43<6:55:59,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5626/40080 [1:08:44<6:55:58,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5627/40080 [1:08:44<6:56:11,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5628/40080 [1:08:45<6:56:14,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5629/40080 [1:08:46<6:56:32,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5630/40080 [1:08:46<6:56:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5359, 'grad_norm': 2.859375, 'learning_rate': 2.3817260558627658e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.38, 'epoch': 0.56}
+ 14%|███████████████████████▌                                                                                                                                                | 5630/40080 [1:08:46<6:56:09,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5631/40080 [1:08:47<6:56:37,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5632/40080 [1:08:48<6:55:51,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5633/40080 [1:08:49<6:56:31,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5634/40080 [1:08:49<6:56:46,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5635/40080 [1:08:50<6:56:45,  1.38it/s] 14%|███████████████████████▌                                                                                                                                                | 5636/40080 [1:08:51<6:56:39,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5637/40080 [1:08:51<6:56:27,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5638/40080 [1:08:52<6:56:38,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5639/40080 [1:08:53<6:56:43,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5640/40080 [1:08:54<6:56:30,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6084, 'grad_norm': 2.90625, 'learning_rate': 2.381309273485442e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2383.39, 'epoch': 0.56}
+ 14%|███████████████████████▋                                                                                                                                                | 5640/40080 [1:08:54<6:56:30,  1.38it/s] 14%|█���█████████████████████▋                                                                                                                                                | 5641/40080 [1:08:54<6:57:19,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5642/40080 [1:08:55<6:57:31,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5643/40080 [1:08:56<6:56:57,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5644/40080 [1:08:57<6:56:25,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5645/40080 [1:08:57<6:56:28,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5646/40080 [1:08:58<6:57:07,  1.38it/s] 14%|███████████████████████▋                                                                                                                                                | 5647/40080 [1:08:59<6:57:59,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5648/40080 [1:09:00<7:01:03,  1.36it/s] 14%|███████████████████████▋                                                                                                                                                | 5649/40080 [1:09:00<7:01:39,  1.36it/s] 14%|███████████████████████▋                                                                                                                                                | 5650/40080 [1:09:01<7:02:39,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5132, 'grad_norm': 2.78125, 'learning_rate': 2.380891794653323e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.67, 'epoch': 0.56}
+ 14%|███████████████████████▋                                                                                                                                                | 5650/40080 [1:09:01<7:02:39,  1.36it/s] 14%|███████████████████████▋                                                                                                                                                | 5651/40080 [1:09:02<7:03:56,  1.35it/s] 14%|███████████████████████▋                                                                                                                                                | 5652/40080 [1:09:02<7:03:57,  1.35it/s] 14%|███████████████████████▋                                                                                                                                                | 5653/40080 [1:09:03<7:02:31,  1.36it/s] 14%|███████████████████████▋                                                                                                                                                | 5654/40080 [1:09:04<7:01:12,  1.36it/s] 14%|███████████████████████▋                                                                                                                                                | 5655/40080 [1:09:05<7:00:07,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5656/40080 [1:09:05<6:59:43,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5657/40080 [1:09:06<7:00:01,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5658/40080 [1:09:07<6:59:29,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5659/40080 [1:09:08<6:59:48,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5660/40080 [1:09:08<6:59:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5258, 'grad_norm': 3.34375, 'learning_rate': 2.3804736196234177e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2580.38, 'epoch': 0.57}
+ 14%|███████████████████████▋                                                                                                                                                | 5660/40080 [1:09:08<6:59:19,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5661/40080 [1:09:09<6:59:36,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5662/40080 [1:09:10<6:58:20,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5663/40080 [1:09:10<6:58:56,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5664/40080 [1:09:11<6:58:35,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5665/40080 [1:09:12<6:57:38,  1.37it/s] 14%|███████████████████████▋                                                                                                                                                | 5666/40080 [1:09:13<6:57:12,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5667/40080 [1:09:13<6:57:27,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5668/40080 [1:09:14<6:56:35,  1.38it/s] 14%|███████████████████████▊                                                                                                                                                | 5669/40080 [1:09:15<6:56:47,  1.38it/s] 14%|███████████████████████▊                                                                                                                                                | 5670/40080 [1:09:16<6:57:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5578, 'grad_norm': 3.0, 'learning_rate': 2.3800547486531614e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2421.23, 'epoch': 0.57}
+ 14%|███████████████████████▊                                                                                                                                                | 5670/40080 [1:09:16<6:57:21,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5671/40080 [1:09:16<6:59:36,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5672/40080 [1:09:17<7:01:14,  1.36it/s] 14%|███████████████████████▊                                                                                                                                                | 5673/40080 [1:09:18<7:01:15,  1.36it/s] 14%|███████████████████████▊                                                                                                                                                | 5674/40080 [1:09:19<6:59:03,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5675/40080 [1:09:19<6:57:28,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5676/40080 [1:09:20<6:58:21,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5677/40080 [1:09:21<6:57:48,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5678/40080 [1:09:21<6:56:58,  1.38it/s] 14%|███████████████████████▊                                                                                                                                                | 5679/40080 [1:09:22<6:57:23,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5680/40080 [1:09:23<6:57:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5441, 'grad_norm': 3.296875, 'learning_rate': 2.3796351820004188e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.33, 'epoch': 0.57}
+ 14%|███████████████████████▊                                                                                                                                                | 5680/40080 [1:09:23<6:57:06,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5681/40080 [1:09:24<6:57:48,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5682/40080 [1:09:24<6:57:09,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5683/40080 [1:09:25<6:56:10,  1.38it/s] 14%|███████████████████████▊                                                                                                                                                | 5684/40080 [1:09:26<6:58:14,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5685/40080 [1:09:27<7:02:04,  1.36it/s] 14%|███████████████████████▊                                                                                                                                                | 5686/40080 [1:09:27<7:02:40,  1.36it/s] 14%|███████████████████████▊                                                                                                                                                | 5687/40080 [1:09:28<7:00:19,  1.36it/s] 14%|███████████████████████▊                                                                                                                                                | 5688/40080 [1:09:29<6:58:47,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5689/40080 [1:09:29<6:58:26,  1.37it/s] 14%|███████████████████████▊                                                                                                                                                | 5690/40080 [1:09:30<7:01:28,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6666, 'grad_norm': 3.59375, 'learning_rate': 2.379214919923483e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2168.69, 'epoch': 0.57}
+ 14%|███████████████████████▊                                                                                                                                                | 5690/40080 [1:09:30<7:01:28,  1.36it/s] 14%|███████████████████████▊                                                                                                                                                | 5691/40080 [1:09:31<7:04:34,  1.35it/s] 14%|███████████████████████▊                                                                                                                                                | 5692/40080 [1:09:32<7:07:32,  1.34it/s] 14%|███████████████████████▊                                                                                                                                                | 5693/40080 [1:09:32<7:07:12,  1.34it/s] 14%|███████████████████████▊                                                                                                                                                | 5694/40080 [1:09:33<7:03:12,  1.35it/s] 14%|███████████████████████▊                                                                                                                                                | 5695/40080 [1:09:34<7:01:27,  1.36it/s] 14%|███████████████████████▉                                                                                                                                                | 5696/40080 [1:09:35<7:00:34,  1.36it/s] 14%|███████████████████████▉                                                                                                                                                | 5697/40080 [1:09:35<6:59:41,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5698/40080 [1:09:36<6:59:10,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5699/40080 [1:09:37<6:58:59,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5700/40080 [1:09:38<6:58:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5647, 'grad_norm': 2.90625, 'learning_rate': 2.378793962681075e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.56, 'epoch': 0.57}
+ 14%|███████████████████████▉                                                                                                                                                | 5700/40080 [1:09:38<6:58:08,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5701/40080 [1:09:38<6:58:19,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5702/40080 [1:09:39<6:57:17,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5703/40080 [1:09:40<6:57:33,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5704/40080 [1:09:40<6:57:09,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5705/40080 [1:09:41<6:57:31,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5706/40080 [1:09:42<6:58:07,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5707/40080 [1:09:43<6:58:22,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5708/40080 [1:09:43<6:57:51,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5709/40080 [1:09:44<6:57:19,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5710/40080 [1:09:45<6:57:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5448, 'grad_norm': 3.40625, 'learning_rate': 2.378372310532344e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.81, 'epoch': 0.57}
+ 14%|███████████████████████▉                                                                                                                                                | 5710/40080 [1:09:45<6:57:36,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5711/40080 [1:09:46<6:58:05,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5712/40080 [1:09:46<6:56:51,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5713/40080 [1:09:47<6:56:24,  1.38it/s] 14%|███████████████████████▉                                                                                                                                                | 5714/40080 [1:09:48<6:56:24,  1.38it/s] 14%|███████████████████████▉                                                                                                                                                | 5715/40080 [1:09:48<6:55:52,  1.38it/s] 14%|███████████████████████▉                                                                                                                                                | 5716/40080 [1:09:49<6:56:29,  1.38it/s] 14%|███████████████████████▉                                                                                                                                                | 5717/40080 [1:09:50<6:56:31,  1.38it/s] 14%|███████████████████████▉                                                                                                                                                | 5718/40080 [1:09:51<6:57:16,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5719/40080 [1:09:51<6:56:48,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5720/40080 [1:09:52<6:57:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5739, 'grad_norm': 3.8125, 'learning_rate': 2.377949963736867e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2300.7, 'epoch': 0.57}
+ 14%|███████████████████████▉                                                                                                                                                | 5720/40080 [1:09:52<6:57:23,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5721/40080 [1:09:53<6:56:59,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5722/40080 [1:09:54<6:57:47,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5723/40080 [1:09:54<6:57:47,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5724/40080 [1:09:55<6:57:37,  1.37it/s] 14%|███████████████████████▉                                                                                                                                                | 5725/40080 [1:09:56<6:57:02,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5726/40080 [1:09:57<6:57:32,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5727/40080 [1:09:57<6:57:05,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5728/40080 [1:09:58<6:57:07,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5729/40080 [1:09:59<6:57:31,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5730/40080 [1:09:59<6:57:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5776, 'grad_norm': 3.421875, 'learning_rate': 2.3775269225546477e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.96, 'epoch': 0.57}
+ 14%|████████████████████████                                                                                                                                                | 5730/40080 [1:09:59<6:57:12,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5731/40080 [1:10:00<6:57:56,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5732/40080 [1:10:01<6:57:51,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5733/40080 [1:10:02<7:01:24,  1.36it/s] 14%|████████████████████████                                                                                                                                                | 5734/40080 [1:10:02<7:04:06,  1.35it/s] 14%|████████████████████████                                                                                                                                                | 5735/40080 [1:10:03<7:07:28,  1.34it/s] 14%|████████████████████████                                                                                                                                                | 5736/40080 [1:10:04<7:08:25,  1.34it/s] 14%|████████████████████████                                                                                                                                                | 5737/40080 [1:10:05<7:09:03,  1.33it/s] 14%|████████████████████████                                                                                                                                                | 5738/40080 [1:10:05<7:08:27,  1.34it/s] 14%|████████████████████████                                                                                                                                                | 5739/40080 [1:10:06<7:04:38,  1.35it/s] 14%|████████████████████████                                                                                                                                                | 5740/40080 [1:10:07<7:02:32,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5555, 'grad_norm': 2.828125, 'learning_rate': 2.3771031872461186e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2466.16, 'epoch': 0.57}
+ 14%|████████████████████████                                                                                                                                                | 5740/40080 [1:10:07<7:02:32,  1.35it/s] 14%|████████████████████████                                                                                                                                                | 5741/40080 [1:10:08<7:01:10,  1.36it/s] 14%|████████████████████████                                                                                                                                                | 5742/40080 [1:10:08<6:59:54,  1.36it/s] 14%|████████████████████████                                                                                                                                                | 5743/40080 [1:10:09<6:59:45,  1.36it/s] 14%|████████████████████████                                                                                                                                                | 5744/40080 [1:10:10<6:58:48,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5745/40080 [1:10:10<6:57:35,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5746/40080 [1:10:11<6:57:02,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5747/40080 [1:10:12<6:56:12,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5748/40080 [1:10:13<6:56:08,  1.38it/s] 14%|████████████████████████                                                                                                                                                | 5749/40080 [1:10:13<6:55:47,  1.38it/s] 14%|████████████████████████                                                                                                                                                | 5750/40080 [1:10:14<6:56:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.551, 'grad_norm': 2.859375, 'learning_rate': 2.376678758072139e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.07, 'epoch': 0.57}
+ 14%|████████████████████████                                                                                                                                                | 5750/40080 [1:10:14<6:56:12,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5751/40080 [1:10:15<6:58:56,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5752/40080 [1:10:16<6:59:03,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5753/40080 [1:10:16<6:58:24,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5754/40080 [1:10:17<6:57:26,  1.37it/s] 14%|████████████████████████                                                                                                                                                | 5755/40080 [1:10:18<6:57:39,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5756/40080 [1:10:19<6:57:21,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5757/40080 [1:10:19<6:56:38,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5758/40080 [1:10:20<6:57:18,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5759/40080 [1:10:21<6:56:44,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5760/40080 [1:10:21<6:57:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5041, 'grad_norm': 3.15625, 'learning_rate': 2.376253635293995e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.54, 'epoch': 0.58}
+ 14%|████████████████████████▏                                                                                                                                               | 5760/40080 [1:10:21<6:57:28,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5761/40080 [1:10:22<6:58:39,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5762/40080 [1:10:23<6:57:52,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5763/40080 [1:10:24<6:57:26,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5764/40080 [1:10:24<6:57:03,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5765/40080 [1:10:25<6:57:17,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5766/40080 [1:10:26<6:56:57,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5767/40080 [1:10:27<6:56:17,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5768/40080 [1:10:27<6:56:56,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5769/40080 [1:10:28<6:56:44,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5770/40080 [1:10:29<6:56:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5486, 'grad_norm': 3.328125, 'learning_rate': 2.3758278191734004e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.79, 'epoch': 0.58}
+ 14%|████████████████████████▏                                                                                                                                               | 5770/40080 [1:10:29<6:56:40,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5771/40080 [1:10:29<6:56:49,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5772/40080 [1:10:30<6:55:47,  1.38it/s] 14%|████████████████████████▏                                                                                                                                               | 5773/40080 [1:10:31<6:56:22,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5774/40080 [1:10:32<6:56:35,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5775/40080 [1:10:32<6:56:42,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5776/40080 [1:10:33<6:57:12,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5777/40080 [1:10:34<6:57:08,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5778/40080 [1:10:35<6:57:05,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5779/40080 [1:10:35<6:57:34,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5780/40080 [1:10:36<6:57:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5194, 'grad_norm': 2.84375, 'learning_rate': 2.3754013099724952e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.88, 'epoch': 0.58}
+ 14%|████████████████████████▏                                                                                                                                               | 5780/40080 [1:10:36<6:57:13,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5781/40080 [1:10:37<6:57:35,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5782/40080 [1:10:37<6:57:18,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5783/40080 [1:10:38<6:57:06,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5784/40080 [1:10:39<6:56:37,  1.37it/s] 14%|████████████████████████▏                                                                                                                                               | 5785/40080 [1:10:40<6:56:35,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5786/40080 [1:10:40<6:56:50,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5787/40080 [1:10:41<6:56:50,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5788/40080 [1:10:42<6:56:26,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5789/40080 [1:10:43<6:56:32,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5790/40080 [1:10:43<6:57:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5631, 'grad_norm': 2.53125, 'learning_rate': 2.3749741079538463e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2678.98, 'epoch': 0.58}
+ 14%|████████████████████████▎                                                                                                                                               | 5790/40080 [1:10:43<6:57:26,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5791/40080 [1:10:44<6:58:39,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5792/40080 [1:10:45<6:57:23,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5793/40080 [1:10:46<6:57:30,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5794/40080 [1:10:46<6:56:41,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5795/40080 [1:10:47<6:56:51,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5796/40080 [1:10:48<6:56:22,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5797/40080 [1:10:48<6:56:31,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5798/40080 [1:10:49<6:55:52,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5799/40080 [1:10:50<6:58:18,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5800/40080 [1:10:51<6:57:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5004, 'grad_norm': 2.6875, 'learning_rate': 2.3745462133804468e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2481.67, 'epoch': 0.58}
+ 14%|████████████████████████▎                                                                                                                                               | 5800/40080 [1:10:51<6:57:49,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5801/40080 [1:10:51<6:58:00,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5802/40080 [1:10:52<6:56:59,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5803/40080 [1:10:53<6:56:42,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5804/40080 [1:10:54<6:56:49,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5805/40080 [1:10:54<6:56:03,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5806/40080 [1:10:55<6:56:23,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5807/40080 [1:10:56<6:55:53,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5808/40080 [1:10:56<6:55:32,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5809/40080 [1:10:57<6:54:55,  1.38it/s] 14%|████████████████████████▎                                                                                                                                               | 5810/40080 [1:10:58<6:55:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4748, 'grad_norm': 2.53125, 'learning_rate': 2.374117626515717e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2458.91, 'epoch': 0.58}
+ 14%|████████████████████████▎                                                                                                                                               | 5810/40080 [1:10:58<6:55:49,  1.37it/s] 14%|████████████████████████▎                                                                                                                                               | 5811/40080 [1:10:59<6:56:28,  1.37it/s] 15%|████████████████████████▎                                                                                                                                               | 5812/40080 [1:10:59<6:57:22,  1.37it/s] 15%|████████████████████████▎                                                                                                                                               | 5813/40080 [1:11:00<6:56:59,  1.37it/s] 15%|████████████████████████▎                                                                                                                                               | 5814/40080 [1:11:01<6:56:14,  1.37it/s] 15%|████████████████████████▎                                                                                                                                               | 5815/40080 [1:11:02<6:55:56,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5816/40080 [1:11:02<6:56:22,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5817/40080 [1:11:03<6:56:21,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5818/40080 [1:11:04<6:57:02,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5819/40080 [1:11:04<6:57:31,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5820/40080 [1:11:05<6:56:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4887, 'grad_norm': 3.40625, 'learning_rate': 2.3736883476235025e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2547.53, 'epoch': 0.58}
+ 15%|████████████████████████▍                                                                                                                                               | 5820/40080 [1:11:05<6:56:22,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5821/40080 [1:11:06<6:56:37,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5822/40080 [1:11:07<6:56:08,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5823/40080 [1:11:07<6:55:58,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5824/40080 [1:11:08<6:55:54,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5825/40080 [1:11:09<6:55:14,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5826/40080 [1:11:10<6:55:19,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5827/40080 [1:11:10<6:55:17,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5828/40080 [1:11:11<6:55:08,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5829/40080 [1:11:12<6:54:30,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5830/40080 [1:11:12<6:55:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5811, 'grad_norm': 2.875, 'learning_rate': 2.3732583769680754e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2409.01, 'epoch': 0.58}
+ 15%|████████████████████████▍                                                                                                                                               | 5830/40080 [1:11:12<6:55:21,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5831/40080 [1:11:13<6:54:44,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5832/40080 [1:11:14<6:54:57,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5833/40080 [1:11:15<6:54:37,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5834/40080 [1:11:15<6:55:08,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5835/40080 [1:11:16<6:55:08,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5836/40080 [1:11:17<6:55:13,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5837/40080 [1:11:18<6:54:48,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5838/40080 [1:11:18<6:54:59,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5839/40080 [1:11:19<6:55:10,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5840/40080 [1:11:20<6:54:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5326, 'grad_norm': 4.0625, 'learning_rate': 2.3728277148141338e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2469.02, 'epoch': 0.58}
+ 15%|████████████████████████▍                                                                                                                                               | 5840/40080 [1:11:20<6:54:56,  1.38it/s] 15%|████████████████████████▍                                                                                                                                               | 5841/40080 [1:11:20<6:55:59,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5842/40080 [1:11:21<6:55:52,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5843/40080 [1:11:22<6:56:42,  1.37it/s] 15%|████████████████████████▍                                                                                                                                               | 5844/40080 [1:11:23<6:56:24,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5845/40080 [1:11:23<6:56:17,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5846/40080 [1:11:24<6:55:56,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5847/40080 [1:11:25<6:56:12,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5848/40080 [1:11:26<6:54:57,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5849/40080 [1:11:27<7:59:48,  1.19it/s] 15%|████████████████████████▌                                                                                                                                               | 5850/40080 [1:11:27<7:40:25,  1.24it/s]                                                                                                                                                                                                                      {'loss': 0.5813, 'grad_norm': 3.53125, 'learning_rate': 2.372396361426801e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2370.35, 'epoch': 0.58}
+ 15%|████████████████████████▌                                                                                                                                               | 5850/40080 [1:11:27<7:40:25,  1.24it/s] 15%|████████████████████████▌                                                                                                                                               | 5851/40080 [1:11:28<7:26:55,  1.28it/s] 15%|████████████████████████▌                                                                                                                                               | 5852/40080 [1:11:29<7:17:15,  1.30it/s] 15%|████████████████████████▌                                                                                                                                               | 5853/40080 [1:11:30<7:11:19,  1.32it/s] 15%|████████████████████████▌                                                                                                                                               | 5854/40080 [1:11:30<7:06:51,  1.34it/s] 15%|█████���██████████████████▌                                                                                                                                               | 5855/40080 [1:11:31<7:03:22,  1.35it/s] 15%|████████████████████████▌                                                                                                                                               | 5856/40080 [1:11:32<7:01:05,  1.35it/s] 15%|████████████████████████▌                                                                                                                                               | 5857/40080 [1:11:33<7:00:16,  1.36it/s] 15%|████████████████████████▌                                                                                                                                               | 5858/40080 [1:11:33<6:58:16,  1.36it/s] 15%|████████████████████████▌                                                                                                                                               | 5859/40080 [1:11:34<6:57:29,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5860/40080 [1:11:35<6:56:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5683, 'grad_norm': 3.296875, 'learning_rate': 2.371964317071626e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.34, 'epoch': 0.59}
+ 15%|████████████████████████▌                                                                                                                                               | 5860/40080 [1:11:35<6:56:38,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5861/40080 [1:11:35<6:56:27,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5862/40080 [1:11:36<6:55:50,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5863/40080 [1:11:37<6:55:40,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5864/40080 [1:11:38<6:55:30,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5865/40080 [1:11:38<6:56:16,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5866/40080 [1:11:39<6:56:21,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5867/40080 [1:11:40<6:55:26,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5868/40080 [1:11:41<6:55:38,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5869/40080 [1:11:41<6:55:01,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5870/40080 [1:11:42<6:54:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.503, 'grad_norm': 2.75, 'learning_rate': 2.3715315820145835e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.97, 'epoch': 0.59}
+ 15%|████████████████████████▌                                                                                                                                               | 5870/40080 [1:11:42<6:54:59,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5871/40080 [1:11:43<6:55:24,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5872/40080 [1:11:43<6:55:01,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5873/40080 [1:11:44<6:55:57,  1.37it/s] 15%|████████████████████████▌                                                                                                                                               | 5874/40080 [1:11:45<6:55:41,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5875/40080 [1:11:46<6:55:46,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5876/40080 [1:11:46<6:56:05,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5877/40080 [1:11:47<6:55:22,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5878/40080 [1:11:48<6:55:36,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5879/40080 [1:11:49<6:55:30,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5880/40080 [1:11:49<6:55:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5877, 'grad_norm': 3.03125, 'learning_rate': 2.3710981565220727e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.15, 'epoch': 0.59}
+ 15%|████████████████████████▋                                                                                                                                               | 5880/40080 [1:11:49<6:55:20,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5881/40080 [1:11:50<6:56:10,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5882/40080 [1:11:51<6:55:42,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5883/40080 [1:11:51<6:55:36,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5884/40080 [1:11:52<6:55:35,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5885/40080 [1:11:53<6:55:23,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5886/40080 [1:11:54<6:55:33,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5887/40080 [1:11:54<6:55:05,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5888/40080 [1:11:55<6:55:43,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5889/40080 [1:11:56<6:55:12,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5890/40080 [1:11:57<6:55:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5046, 'grad_norm': 2.390625, 'learning_rate': 2.370664040860919e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.32, 'epoch': 0.59}
+ 15%|████████████████████████▋                                                                                                                                               | 5890/40080 [1:11:57<6:55:24,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5891/40080 [1:11:57<6:55:43,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5892/40080 [1:11:58<6:55:40,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5893/40080 [1:11:59<6:56:11,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5894/40080 [1:11:59<6:56:49,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5895/40080 [1:12:00<6:57:21,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5896/40080 [1:12:01<6:56:22,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5897/40080 [1:12:02<6:56:29,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5898/40080 [1:12:02<6:55:55,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5899/40080 [1:12:03<6:55:57,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5900/40080 [1:12:04<6:55:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5362, 'grad_norm': 3.796875, 'learning_rate': 2.370229235298371e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.97, 'epoch': 0.59}
+ 15%|████████████████████████▋                                                                                                                                               | 5900/40080 [1:12:04<6:55:45,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5901/40080 [1:12:05<6:55:59,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5902/40080 [1:12:05<6:55:48,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5903/40080 [1:12:06<6:55:45,  1.37it/s] 15%|████████████████████████▋                                                                                                                                               | 5904/40080 [1:12:07<6:55:24,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5905/40080 [1:12:08<6:55:06,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5906/40080 [1:12:08<6:56:32,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5907/40080 [1:12:09<6:56:27,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5908/40080 [1:12:10<6:56:31,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5909/40080 [1:12:10<6:55:57,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5910/40080 [1:12:11<6:56:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5232, 'grad_norm': 4.0, 'learning_rate': 2.369793740102104e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.35, 'epoch': 0.59}
+ 15%|████████████████████████▊                                                                                                                                               | 5910/40080 [1:12:11<6:56:57,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5911/40080 [1:12:12<6:58:11,  1.36it/s] 15%|████████████████████████▊                                                                                                                                               | 5912/40080 [1:12:13<6:57:16,  1.36it/s] 15%|████████████████████████▊                                                                                                                                               | 5913/40080 [1:12:13<6:57:33,  1.36it/s] 15%|████████████████████████▊                                                                                                                                               | 5914/40080 [1:12:14<6:57:33,  1.36it/s] 15%|████████████████████████▊                                                                                                                                               | 5915/40080 [1:12:15<6:57:26,  1.36it/s] 15%|████████████████████████▊                                                                                                                                               | 5916/40080 [1:12:16<6:57:35,  1.36it/s] 15%|████████████████████████▊                                                                                                                                               | 5917/40080 [1:12:16<6:56:28,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5918/40080 [1:12:17<6:55:34,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5919/40080 [1:12:18<6:55:02,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5920/40080 [1:12:19<6:55:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6054, 'grad_norm': 2.84375, 'learning_rate': 2.3693575555402164e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2574.84, 'epoch': 0.59}
+ 15%|████████████████████████▊                                                                                                                                               | 5920/40080 [1:12:19<6:55:11,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5921/40080 [1:12:19<6:56:09,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5922/40080 [1:12:20<6:56:10,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5923/40080 [1:12:21<6:55:46,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5924/40080 [1:12:21<6:55:14,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5925/40080 [1:12:22<6:54:58,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5926/40080 [1:12:23<6:54:30,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5927/40080 [1:12:24<6:53:57,  1.38it/s] 15%|████████████████████████▊                                                                                                                                               | 5928/40080 [1:12:24<6:56:02,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5929/40080 [1:12:25<6:56:31,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5930/40080 [1:12:26<6:55:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5935, 'grad_norm': 3.4375, 'learning_rate': 2.3689206818812317e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.65, 'epoch': 0.59}
+ 15%|████████████████████████▊                                                                                                                                               | 5930/40080 [1:12:26<6:55:30,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5931/40080 [1:12:27<6:55:45,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5932/40080 [1:12:27<6:55:19,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5933/40080 [1:12:28<6:55:06,  1.37it/s] 15%|████████████████████████▊                                                                                                                                               | 5934/40080 [1:12:29<6:56:06,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5935/40080 [1:12:29<6:56:08,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5936/40080 [1:12:30<6:55:19,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5937/40080 [1:12:31<6:55:44,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5938/40080 [1:12:32<6:55:38,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5939/40080 [1:12:32<6:56:10,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5940/40080 [1:12:33<6:55:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5366, 'grad_norm': 3.421875, 'learning_rate': 2.3684831193940965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.1, 'epoch': 0.59}
+ 15%|████████████████████████▉                                                                                                                                               | 5940/40080 [1:12:33<6:55:52,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5941/40080 [1:12:34<6:56:46,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5942/40080 [1:12:35<6:56:36,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5943/40080 [1:12:35<6:56:36,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5944/40080 [1:12:36<6:55:45,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5945/40080 [1:12:37<6:55:43,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5946/40080 [1:12:37<6:55:30,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5947/40080 [1:12:38<6:57:14,  1.36it/s] 15%|████████████████████████▉                                                                                                                                               | 5948/40080 [1:12:39<6:56:01,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5949/40080 [1:12:40<6:55:46,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5950/40080 [1:12:40<6:55:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5303, 'grad_norm': 2.875, 'learning_rate': 2.3680448683481835e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2484.88, 'epoch': 0.59}
+ 15%|████████████████████████▉                                                                                                                                               | 5950/40080 [1:12:40<6:55:02,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5951/40080 [1:12:41<6:55:54,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5952/40080 [1:12:42<6:55:04,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5953/40080 [1:12:43<6:55:11,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5954/40080 [1:12:43<6:54:43,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5955/40080 [1:12:44<6:53:53,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5956/40080 [1:12:45<6:53:58,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5957/40080 [1:12:46<6:54:28,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5958/40080 [1:12:46<6:55:09,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5959/40080 [1:12:47<6:55:24,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5960/40080 [1:12:48<6:55:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5421, 'grad_norm': 2.75, 'learning_rate': 2.3676059290132874e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2506.0, 'epoch': 0.6}
+ 15%|████████████████████████���                                                                                                                                               | 5960/40080 [1:12:48<6:55:24,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5961/40080 [1:12:48<6:56:01,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5962/40080 [1:12:49<6:55:22,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5963/40080 [1:12:50<6:55:20,  1.37it/s] 15%|████████████████████████▉                                                                                                                                               | 5964/40080 [1:12:51<6:55:04,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5965/40080 [1:12:51<6:54:54,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5966/40080 [1:12:52<6:55:11,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5967/40080 [1:12:53<6:55:11,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5968/40080 [1:12:54<6:55:22,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5969/40080 [1:12:54<6:57:03,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5970/40080 [1:12:55<6:58:45,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5615, 'grad_norm': 3.046875, 'learning_rate': 2.3671663016596273e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.73, 'epoch': 0.6}
+ 15%|█████████████████████████                                                                                                                                               | 5970/40080 [1:12:55<6:58:45,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5971/40080 [1:12:56<6:58:48,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5972/40080 [1:12:57<6:58:45,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5973/40080 [1:12:57<6:58:05,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5974/40080 [1:12:58<6:56:59,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5975/40080 [1:12:59<6:55:55,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5976/40080 [1:12:59<6:55:52,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5977/40080 [1:13:00<6:56:13,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5978/40080 [1:13:01<6:56:21,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5979/40080 [1:13:02<6:56:08,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5980/40080 [1:13:02<6:56:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5055, 'grad_norm': 3.0625, 'learning_rate': 2.3667259865578463e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2644.14, 'epoch': 0.6}
+ 15%|█████████████████████████                                                                                                                                               | 5980/40080 [1:13:02<6:56:03,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5981/40080 [1:13:03<6:57:21,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5982/40080 [1:13:04<6:58:58,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5983/40080 [1:13:05<6:58:10,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5984/40080 [1:13:05<6:57:00,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5985/40080 [1:13:06<6:59:33,  1.35it/s] 15%|█████████████████████████                                                                                                                                               | 5986/40080 [1:13:07<6:58:38,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5987/40080 [1:13:08<6:57:33,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5988/40080 [1:13:08<6:57:37,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5989/40080 [1:13:09<6:57:15,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5990/40080 [1:13:10<6:56:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5696, 'grad_norm': 3.875, 'learning_rate': 2.36628498397901e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.78, 'epoch': 0.6}
+ 15%|█████████████████████████                                                                                                                                               | 5990/40080 [1:13:10<6:56:20,  1.36it/s] 15%|█████████████████████████                                                                                                                                               | 5991/40080 [1:13:10<6:55:54,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5992/40080 [1:13:11<6:54:44,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5993/40080 [1:13:12<6:55:12,  1.37it/s] 15%|█████████████████████████                                                                                                                                               | 5994/40080 [1:13:13<6:54:01,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 5995/40080 [1:13:13<6:53:55,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 5996/40080 [1:13:14<6:53:48,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 5997/40080 [1:13:15<6:54:06,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 5998/40080 [1:13:16<6:54:23,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 5999/40080 [1:13:16<6:54:28,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6000/40080 [1:13:17<6:54:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5633, 'grad_norm': 3.03125, 'learning_rate': 2.3658432941946084e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2540.37, 'epoch': 0.6}
+ 15%|█████████████████████████▏                                                                                                                                              | 6000/40080 [1:13:17<6:54:06,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6001/40080 [1:13:18<6:53:52,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6002/40080 [1:13:18<6:54:30,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6003/40080 [1:13:19<6:54:24,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6004/40080 [1:13:20<6:54:27,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6005/40080 [1:13:21<6:54:17,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6006/40080 [1:13:21<6:53:47,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6007/40080 [1:13:22<6:53:17,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6008/40080 [1:13:23<6:53:38,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6009/40080 [1:13:24<6:52:55,  1.38it/s] 15%|█████████████████████████▏                                                                                                                                              | 6010/40080 [1:13:24<6:53:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4821, 'grad_norm': 2.171875, 'learning_rate': 2.3654009174765532e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2310.62, 'epoch': 0.6}
+ 15%|█████████████████████████▏                                                                                                                                              | 6010/40080 [1:13:24<6:53:38,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6011/40080 [1:13:25<6:54:57,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6012/40080 [1:13:26<6:53:48,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6013/40080 [1:13:26<6:53:33,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6014/40080 [1:13:27<6:53:50,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6015/40080 [1:13:28<6:52:57,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6016/40080 [1:13:29<6:53:13,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6017/40080 [1:13:29<6:53:39,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6018/40080 [1:13:30<6:52:55,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6019/40080 [1:13:31<6:52:28,  1.38it/s] 15%|█████████████████████████▏                                                                                                                                              | 6020/40080 [1:13:32<6:53:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5541, 'grad_norm': 3.28125, 'learning_rate': 2.36495785409718e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2425.51, 'epoch': 0.6}
+ 15%|█████████████████████████▏                                                                                                                                              | 6020/40080 [1:13:32<6:53:19,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6021/40080 [1:13:32<6:53:45,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6022/40080 [1:13:33<6:53:03,  1.37it/s] 15%|█████████████████████████▏                                                                                                                                              | 6023/40080 [1:13:34<6:52:46,  1.38it/s] 15%|█████████████████████████▎                                                                                                                                              | 6024/40080 [1:13:34<6:53:03,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6025/40080 [1:13:35<6:53:31,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6026/40080 [1:13:36<6:53:24,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6027/40080 [1:13:37<6:53:18,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6028/40080 [1:13:37<6:53:27,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6029/40080 [1:13:38<6:54:14,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6030/40080 [1:13:39<6:53:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4777, 'grad_norm': 2.875, 'learning_rate': 2.364514104329246e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2557.81, 'epoch': 0.6}
+ 15%|█████████████████████████▎                                                                                                                                              | 6030/40080 [1:13:39<6:53:43,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6031/40080 [1:13:40<6:54:22,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6032/40080 [1:13:40<6:53:19,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6033/40080 [1:13:41<6:53:41,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6034/40080 [1:13:42<6:54:01,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6035/40080 [1:13:43<6:52:54,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6036/40080 [1:13:43<6:53:32,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6037/40080 [1:13:44<6:53:42,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6038/40080 [1:13:45<6:53:26,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6039/40080 [1:13:45<6:53:27,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6040/40080 [1:13:46<6:53:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5474, 'grad_norm': 2.703125, 'learning_rate': 2.364069668445933e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2283.58, 'epoch': 0.6}
+ 15%|█████████████████████████▎                                                                                                                                              | 6040/40080 [1:13:46<6:53:38,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6041/40080 [1:13:47<6:53:06,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6042/40080 [1:13:48<6:52:42,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6043/40080 [1:13:48<6:52:52,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6044/40080 [1:13:49<6:52:31,  1.38it/s] 15%|█████████████████████████▎                                                                                                                                              | 6045/40080 [1:13:50<6:53:27,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6046/40080 [1:13:51<6:53:41,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6047/40080 [1:13:51<6:53:53,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6048/40080 [1:13:52<6:53:25,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6049/40080 [1:13:53<6:52:48,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6050/40080 [1:13:53<6:52:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5488, 'grad_norm': 2.453125, 'learning_rate': 2.3636245467208428e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.04, 'epoch': 0.6}
+ 15%|█████████████████████████▎                                                                                                                                              | 6050/40080 [1:13:53<6:52:31,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6051/40080 [1:13:54<6:53:02,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6052/40080 [1:13:55<6:53:17,  1.37it/s] 15%|█████████████████████████▎                                                                                                                                              | 6053/40080 [1:13:56<6:53:29,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6054/40080 [1:13:56<6:53:33,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6055/40080 [1:13:57<6:53:37,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6056/40080 [1:13:58<6:52:32,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6057/40080 [1:13:59<6:52:33,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6058/40080 [1:13:59<6:54:58,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6059/40080 [1:14:00<6:54:44,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6060/40080 [1:14:01<6:54:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5247, 'grad_norm': 3.5, 'learning_rate': 2.3631787394280007e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.49, 'epoch': 0.61}
+ 15%|█████████████████████████▍                                                                                                                                              | 6060/40080 [1:14:01<6:54:34,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6061/40080 [1:14:01<6:55:09,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6062/40080 [1:14:02<6:55:14,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6063/40080 [1:14:03<6:55:41,  1.36it/s] 15%|█████████████████████████▍                                                                                                                                              | 6064/40080 [1:14:04<6:54:56,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6065/40080 [1:14:04<6:54:44,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6066/40080 [1:14:05<6:55:26,  1.36it/s] 15%|█████████████████████████▍                                                                                                                                              | 6067/40080 [1:14:06<6:54:22,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6068/40080 [1:14:07<6:54:25,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6069/40080 [1:14:07<6:54:31,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6070/40080 [1:14:08<6:54:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.52, 'grad_norm': 3.5625, 'learning_rate': 2.3627322468418547e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.82, 'epoch': 0.61}
+ 15%|█████████████████████████▍                                                                                                                                              | 6070/40080 [1:14:08<6:54:40,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6071/40080 [1:14:09<6:54:39,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6072/40080 [1:14:10<6:54:04,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6073/40080 [1:14:10<6:54:26,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6074/40080 [1:14:11<6:54:31,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6075/40080 [1:14:12<6:56:35,  1.36it/s] 15%|█████████████████████████▍                                                                                                                                              | 6076/40080 [1:14:12<6:56:18,  1.36it/s] 15%|█████████████████████████▍                                                                                                                                              | 6077/40080 [1:14:13<6:55:07,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6078/40080 [1:14:14<6:54:59,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6079/40080 [1:14:15<6:54:39,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6080/40080 [1:14:15<6:54:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.588, 'grad_norm': 3.234375, 'learning_rate': 2.362285069237273e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2571.65, 'epoch': 0.61}
+ 15%|█████████████████████████▍                                                                                                                                              | 6080/40080 [1:14:15<6:54:23,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6081/40080 [1:14:16<6:55:14,  1.36it/s] 15%|█████████████████████████▍                                                                                                                                              | 6082/40080 [1:14:17<6:53:47,  1.37it/s] 15%|█████████████████████████▍                                                                                                                                              | 6083/40080 [1:14:18<6:53:36,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6084/40080 [1:14:18<6:54:15,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6085/40080 [1:14:19<6:54:54,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6086/40080 [1:14:20<6:54:27,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6087/40080 [1:14:20<6:53:50,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6088/40080 [1:14:21<6:53:50,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6089/40080 [1:14:22<6:54:16,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6090/40080 [1:14:23<6:52:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5022, 'grad_norm': 3.0625, 'learning_rate': 2.3618372068895465e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2359.77, 'epoch': 0.61}
+ 15%|█████████████████████████▌                                                                                                                                              | 6090/40080 [1:14:23<6:52:55,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6091/40080 [1:14:23<6:53:39,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6092/40080 [1:14:24<6:54:11,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6093/40080 [1:14:25<6:54:35,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6094/40080 [1:14:26<6:53:38,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6095/40080 [1:14:26<6:53:37,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6096/40080 [1:14:27<6:53:44,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6097/40080 [1:14:28<6:53:30,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6098/40080 [1:14:29<6:53:02,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6099/40080 [1:14:29<6:53:43,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6100/40080 [1:14:30<6:53:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5529, 'grad_norm': 2.640625, 'learning_rate': 2.361388660074388e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.49, 'epoch': 0.61}
+ 15%|█████████████████████████▌                                                                                                                                              | 6100/40080 [1:14:30<6:53:05,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6101/40080 [1:14:31<6:53:55,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6102/40080 [1:14:31<6:53:25,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6103/40080 [1:14:32<6:53:58,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6104/40080 [1:14:33<6:53:20,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6105/40080 [1:14:34<6:52:54,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6106/40080 [1:14:34<6:52:03,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6107/40080 [1:14:35<6:51:47,  1.38it/s] 15%|█████████████████████████▌                                                                                                                                              | 6108/40080 [1:14:36<6:52:06,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6109/40080 [1:14:37<6:52:01,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6110/40080 [1:14:37<6:52:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5274, 'grad_norm': 3.25, 'learning_rate': 2.3609394290679303e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2389.13, 'epoch': 0.61}
+ 15%|█████████████████████████▌                                                                                                                                              | 6110/40080 [1:14:37<6:52:33,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6111/40080 [1:14:38<6:52:32,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6112/40080 [1:14:39<6:53:21,  1.37it/s] 15%|█████████████████████████▌                                                                                                                                              | 6113/40080 [1:14:39<6:53:36,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6114/40080 [1:14:40<6:53:35,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6115/40080 [1:14:41<6:53:38,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6116/40080 [1:14:42<6:53:07,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6117/40080 [1:14:42<6:52:23,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6118/40080 [1:14:43<6:51:42,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6119/40080 [1:14:44<6:51:49,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6120/40080 [1:14:45<6:52:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5642, 'grad_norm': 2.640625, 'learning_rate': 2.3604895141467294e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2468.79, 'epoch': 0.61}
+ 15%|█████████████████████████▋                                                                                                                                              | 6120/40080 [1:14:45<6:52:16,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6121/40080 [1:14:45<6:53:12,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6122/40080 [1:14:46<6:52:04,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6123/40080 [1:14:47<6:52:04,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6124/40080 [1:14:47<6:52:09,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6125/40080 [1:14:48<6:52:20,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6126/40080 [1:14:49<6:52:09,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6127/40080 [1:14:50<6:52:00,  1.37it/s] 15%|██��██████████████████████▋                                                                                                                                              | 6128/40080 [1:14:50<6:52:19,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6129/40080 [1:14:51<6:52:02,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6130/40080 [1:14:52<6:52:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5241, 'grad_norm': 2.453125, 'learning_rate': 2.36003891558776e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2412.56, 'epoch': 0.61}
+ 15%|█████████████████████████▋                                                                                                                                              | 6130/40080 [1:14:52<6:52:08,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6131/40080 [1:14:53<6:51:56,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6132/40080 [1:14:53<6:51:50,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6133/40080 [1:14:54<6:51:33,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6134/40080 [1:14:55<6:51:25,  1.38it/s] 15%|█████████████████████████▋                                                                                                                                              | 6135/40080 [1:14:55<6:51:33,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6136/40080 [1:14:56<6:51:49,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6137/40080 [1:14:57<6:51:07,  1.38it/s] 15%|█████████████████████████▋                                                                                                                                              | 6138/40080 [1:14:58<6:50:53,  1.38it/s] 15%|█████████████████████████▋                                                                                                                                              | 6139/40080 [1:14:58<6:51:20,  1.38it/s] 15%|█████████████████████████▋                                                                                                                                              | 6140/40080 [1:14:59<6:51:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.539, 'grad_norm': 2.671875, 'learning_rate': 2.35958763366842e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.1, 'epoch': 0.61}
+ 15%|█████████████████████████▋                                                                                                                                              | 6140/40080 [1:14:59<6:51:31,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6141/40080 [1:15:00<6:52:07,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6142/40080 [1:15:01<6:51:49,  1.37it/s] 15%|█████████████████████████▋                                                                                                                                              | 6143/40080 [1:15:01<6:51:13,  1.38it/s] 15%|█████████████████████████▊                                                                                                                                              | 6144/40080 [1:15:02<6:51:45,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6145/40080 [1:15:03<6:52:08,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6146/40080 [1:15:04<6:52:28,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6147/40080 [1:15:04<6:51:53,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6148/40080 [1:15:05<6:51:17,  1.38it/s] 15%|█████████████████████████▊                                                                                                                                              | 6149/40080 [1:15:06<6:51:47,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6150/40080 [1:15:06<6:50:58,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5303, 'grad_norm': 3.59375, 'learning_rate': 2.3591356686665255e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2391.96, 'epoch': 0.61}
+ 15%|█████████████████████████▊                                                                                                                                              | 6150/40080 [1:15:06<6:50:58,  1.38it/s] 15%|█████████████████████████▊                                                                                                                                              | 6151/40080 [1:15:07<6:51:27,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6152/40080 [1:15:08<6:50:54,  1.38it/s] 15%|█████████████████████████▊                                                                                                                                              | 6153/40080 [1:15:09<6:51:31,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6154/40080 [1:15:09<6:51:28,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6155/40080 [1:15:10<6:51:49,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6156/40080 [1:15:11<6:51:38,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6157/40080 [1:15:12<6:51:26,  1.37it/s] 15%|████████████████████���████▊                                                                                                                                              | 6158/40080 [1:15:12<6:52:15,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6159/40080 [1:15:13<6:52:02,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6160/40080 [1:15:14<6:52:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5435, 'grad_norm': 3.015625, 'learning_rate': 2.3586830208603156e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2486.14, 'epoch': 0.62}
+ 15%|█████████████████████████▊                                                                                                                                              | 6160/40080 [1:15:14<6:52:05,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6161/40080 [1:15:14<6:53:00,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6162/40080 [1:15:15<6:52:42,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6163/40080 [1:15:16<6:52:33,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6164/40080 [1:15:17<6:52:40,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6165/40080 [1:15:17<6:52:57,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6166/40080 [1:15:18<6:52:39,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6167/40080 [1:15:19<6:52:23,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6168/40080 [1:15:20<6:52:08,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6169/40080 [1:15:20<6:51:49,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6170/40080 [1:15:21<6:51:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5236, 'grad_norm': 3.84375, 'learning_rate': 2.358229690528448e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2406.55, 'epoch': 0.62}
+ 15%|█████████████████████████▊                                                                                                                                              | 6170/40080 [1:15:21<6:51:34,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6171/40080 [1:15:22<6:51:41,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6172/40080 [1:15:22<6:51:13,  1.37it/s] 15%|█████████████████████████▊                                                                                                                                              | 6173/40080 [1:15:23<6:51:00,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6174/40080 [1:15:24<6:51:18,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6175/40080 [1:15:25<6:51:11,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6176/40080 [1:15:25<6:51:14,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6177/40080 [1:15:26<6:50:46,  1.38it/s] 15%|█████████████████████████▉                                                                                                                                              | 6178/40080 [1:15:27<6:50:46,  1.38it/s] 15%|█████████████████████████▉                                                                                                                                              | 6179/40080 [1:15:28<6:50:33,  1.38it/s] 15%|█████████████████████████▉                                                                                                                                              | 6180/40080 [1:15:28<6:51:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5432, 'grad_norm': 3.078125, 'learning_rate': 2.357775677950002e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2499.59, 'epoch': 0.62}
+ 15%|█████████████████████████▉                                                                                                                                              | 6180/40080 [1:15:28<6:51:30,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6181/40080 [1:15:29<6:52:35,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6182/40080 [1:15:30<6:51:47,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6183/40080 [1:15:30<6:51:17,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6184/40080 [1:15:31<6:51:20,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6185/40080 [1:15:32<6:51:29,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6186/40080 [1:15:33<6:51:41,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6187/40080 [1:15:33<6:51:08,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6188/40080 [1:15:34<6:50:41,  1.38it/s] 15%|█████████████████████████▉                                                                                                                                              | 6189/40080 [1:15:35<6:51:08,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6190/40080 [1:15:36<6:51:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.535, 'grad_norm': 3.25, 'learning_rate': 2.357320983404475e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2267.46, 'epoch': 0.62}
+ 15%|█████████████████████████▉                                                                                                                                              | 6190/40080 [1:15:36<6:51:26,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6191/40080 [1:15:36<6:52:15,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6192/40080 [1:15:37<6:52:29,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6193/40080 [1:15:38<6:52:37,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6194/40080 [1:15:38<6:51:43,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6195/40080 [1:15:39<6:51:41,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6196/40080 [1:15:40<6:50:59,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6197/40080 [1:15:41<6:50:56,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6198/40080 [1:15:41<6:52:24,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6199/40080 [1:15:42<6:51:46,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6200/40080 [1:15:43<6:51:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4825, 'grad_norm': 2.078125, 'learning_rate': 2.356865607171786e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2329.38, 'epoch': 0.62}
+ 15%|█████████████████████████▉                                                                                                                                              | 6200/40080 [1:15:43<6:51:53,  1.37it/s] 15%|█████████████████████████▉                                                                                                                                              | 6201/40080 [1:15:44<6:53:02,  1.37it/s] 15%|██████████████���██████████▉                                                                                                                                              | 6202/40080 [1:15:44<6:52:10,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6203/40080 [1:15:45<6:52:14,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6204/40080 [1:15:46<6:51:54,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6205/40080 [1:15:46<6:52:22,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6206/40080 [1:15:47<6:52:26,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6207/40080 [1:15:48<6:51:37,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6208/40080 [1:15:49<6:51:55,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6209/40080 [1:15:49<6:51:06,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6210/40080 [1:15:50<6:51:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5419, 'grad_norm': 4.03125, 'learning_rate': 2.3564095495322726e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.66, 'epoch': 0.62}
+ 15%|██████████████████████████                                                                                                                                              | 6210/40080 [1:15:50<6:51:27,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6211/40080 [1:15:51<6:51:41,  1.37it/s] 15%|██████████████████████████                                                                                                                                              | 6212/40080 [1:15:52<6:52:42,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6213/40080 [1:15:52<6:53:34,  1.36it/s] 16%|██████████████████████████                                                                                                                                              | 6214/40080 [1:15:53<6:52:30,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6215/40080 [1:15:54<6:52:39,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6216/40080 [1:15:55<6:52:51,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6217/40080 [1:15:55<6:52:48,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6218/40080 [1:15:56<6:52:00,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6219/40080 [1:15:57<6:51:58,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6220/40080 [1:15:57<6:51:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5854, 'grad_norm': 3.546875, 'learning_rate': 2.3559528107666927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2739.51, 'epoch': 0.62}
+ 16%|██████████████████████████                                                                                                                                              | 6220/40080 [1:15:57<6:51:51,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6221/40080 [1:15:58<6:52:18,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6222/40080 [1:15:59<6:51:37,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6223/40080 [1:16:00<6:51:57,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6224/40080 [1:16:00<6:50:55,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6225/40080 [1:16:01<6:50:18,  1.38it/s] 16%|██████████████████████████                                                                                                                                              | 6226/40080 [1:16:02<6:50:28,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6227/40080 [1:16:03<6:51:08,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6228/40080 [1:16:03<6:50:52,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6229/40080 [1:16:04<6:51:11,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6230/40080 [1:16:05<6:51:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5563, 'grad_norm': 3.25, 'learning_rate': 2.3554953911562233e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.26, 'epoch': 0.62}
+ 16%|██████████████████████████                                                                                                                                              | 6230/40080 [1:16:05<6:51:23,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6231/40080 [1:16:05<6:51:45,  1.37it/s] 16%|██████████████████████████                                                                                                                                              | 6232/40080 [1:16:06<6:51:46,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6233/40080 [1:16:07<6:51:31,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6234/40080 [1:16:08<6:51:19,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6235/40080 [1:16:08<6:51:35,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6236/40080 [1:16:09<6:51:31,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6237/40080 [1:16:10<6:51:51,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6238/40080 [1:16:11<6:52:04,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6239/40080 [1:16:11<6:51:15,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6240/40080 [1:16:12<6:51:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5111, 'grad_norm': 3.0, 'learning_rate': 2.3550372909824595e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.2, 'epoch': 0.62}
+ 16%|██████████████████████████▏                                                                                                                                             | 6240/40080 [1:16:12<6:51:22,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6241/40080 [1:16:13<6:51:14,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6242/40080 [1:16:13<6:50:28,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6243/40080 [1:16:14<6:50:50,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6244/40080 [1:16:15<6:50:54,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6245/40080 [1:16:16<6:51:30,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6246/40080 [1:16:16<6:51:15,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6247/40080 [1:16:17<6:50:36,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6248/40080 [1:16:18<6:50:41,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6249/40080 [1:16:19<6:50:22,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6250/40080 [1:16:19<6:49:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5278, 'grad_norm': 2.65625, 'learning_rate': 2.3545785105274164e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.32, 'epoch': 0.62}
+ 16%|██████████████████████████▏                                                                                                                                             | 6250/40080 [1:16:19<6:49:56,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6251/40080 [1:16:20<6:50:34,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6252/40080 [1:16:21<6:49:45,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6253/40080 [1:16:21<6:49:32,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6254/40080 [1:16:22<6:49:47,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6255/40080 [1:16:23<6:49:05,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6256/40080 [1:16:24<6:48:21,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6257/40080 [1:16:24<6:48:38,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6258/40080 [1:16:25<6:49:51,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6259/40080 [1:16:26<6:49:56,  1.38it/s] 16%|██████████████████████████▏                                                                                                                                             | 6260/40080 [1:16:27<6:50:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5701, 'grad_norm': 2.796875, 'learning_rate': 2.3541190500735284e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2145.78, 'epoch': 0.63}
+ 16%|██████████████████████████▏                                                                                                                                             | 6260/40080 [1:16:27<6:50:08,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6261/40080 [1:16:27<6:51:21,  1.37it/s] 16%|██████████████████████████▏                                                                                                                                             | 6262/40080 [1:16:28<6:50:58,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6263/40080 [1:16:29<6:50:35,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6264/40080 [1:16:30<6:51:30,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6265/40080 [1:16:30<6:51:03,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6266/40080 [1:16:31<6:50:54,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6267/40080 [1:16:32<6:50:48,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6268/40080 [1:16:32<6:49:57,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6269/40080 [1:16:33<6:49:52,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6270/40080 [1:16:34<6:50:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5337, 'grad_norm': 2.65625, 'learning_rate': 2.3536589099036472e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.2, 'epoch': 0.63}
+ 16%|██████████████████████████▎                                                                                                                                             | 6270/40080 [1:16:34<6:50:05,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6271/40080 [1:16:35<6:50:02,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6272/40080 [1:16:35<6:50:38,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6273/40080 [1:16:36<6:50:22,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6274/40080 [1:16:37<6:50:10,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6275/40080 [1:16:38<6:50:08,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6276/40080 [1:16:38<6:50:01,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6277/40080 [1:16:39<6:49:53,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6278/40080 [1:16:40<6:49:43,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6279/40080 [1:16:40<6:49:44,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6280/40080 [1:16:41<6:49:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6164, 'grad_norm': 3.0625, 'learning_rate': 2.3531980903010434e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2354.88, 'epoch': 0.63}
+ 16%|██████████████████████████▎                                                                                                                                             | 6280/40080 [1:16:41<6:49:58,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6281/40080 [1:16:42<6:51:14,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6282/40080 [1:16:43<6:50:55,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6283/40080 [1:16:43<6:49:47,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6284/40080 [1:16:44<6:49:45,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6285/40080 [1:16:45<6:50:06,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6286/40080 [1:16:46<6:50:31,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6287/40080 [1:16:46<6:50:21,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6288/40080 [1:16:47<6:50:08,  1.37it/s] 16%|██████████████████████████▎                                                                                                                                             | 6289/40080 [1:16:48<6:49:24,  1.38it/s] 16%|██████████████████████████▎                                                                                                                                             | 6290/40080 [1:16:48<6:48:59,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5665, 'grad_norm': 3.421875, 'learning_rate': 2.3527365915494065e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2313.86, 'epoch': 0.63}
+ 16%|██████████████████████████▎                                                                                                                                             | 6290/40080 [1:16:48<6:48:59,  1.38it/s] 16%|██████████████████████████▎                                                                                                                                             | 6291/40080 [1:16:49<6:50:05,  1.37it/s] 16%|██████████████████████���███▎                                                                                                                                             | 6292/40080 [1:16:50<6:50:14,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6293/40080 [1:16:51<6:50:36,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6294/40080 [1:16:51<6:50:21,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6295/40080 [1:16:52<6:50:42,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6296/40080 [1:16:53<6:51:04,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6297/40080 [1:16:54<6:50:40,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6298/40080 [1:16:54<6:50:41,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6299/40080 [1:16:55<6:50:32,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6300/40080 [1:16:56<6:50:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4569, 'grad_norm': 2.4375, 'learning_rate': 2.352274413932843e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2415.36, 'epoch': 0.63}
+ 16%|██████████████████████████▍                                                                                                                                             | 6300/40080 [1:16:56<6:50:23,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6301/40080 [1:16:56<6:50:05,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6302/40080 [1:16:57<6:50:38,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6303/40080 [1:16:58<6:50:36,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6304/40080 [1:16:59<6:53:16,  1.36it/s] 16%|██████████████████████████▍                                                                                                                                             | 6305/40080 [1:16:59<6:52:58,  1.36it/s] 16%|██████████████████████████▍                                                                                                                                             | 6306/40080 [1:17:00<6:52:31,  1.36it/s] 16%|██████████████████████████▍                                                                                                                                             | 6307/40080 [1:17:01<6:51:19,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6308/40080 [1:17:02<6:50:33,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6309/40080 [1:17:02<6:50:57,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6310/40080 [1:17:03<6:50:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5335, 'grad_norm': 3.21875, 'learning_rate': 2.3518115577358787e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2356.65, 'epoch': 0.63}
+ 16%|██████████████████████████▍                                                                                                                                             | 6310/40080 [1:17:03<6:50:15,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6311/40080 [1:17:04<6:51:00,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6312/40080 [1:17:04<6:50:56,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6313/40080 [1:17:05<6:50:05,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6314/40080 [1:17:06<6:50:09,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6315/40080 [1:17:07<6:50:35,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6316/40080 [1:17:07<6:50:37,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6317/40080 [1:17:08<6:50:44,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6318/40080 [1:17:09<6:51:08,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6319/40080 [1:17:10<6:51:12,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6320/40080 [1:17:10<6:50:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5182, 'grad_norm': 3.5, 'learning_rate': 2.3513480232434558e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.75, 'epoch': 0.63}
+ 16%|██████████████████████████▍                                                                                                                                             | 6320/40080 [1:17:10<6:50:20,  1.37it/s] 16%|██████████████████████████▍                                                                                                                                             | 6321/40080 [1:17:11<6:50:31,  1.37it/s] 16%|██████████████████��███████▍                                                                                                                                             | 6322/40080 [1:17:12<6:49:39,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6323/40080 [1:17:13<6:49:35,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6324/40080 [1:17:13<6:49:22,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6325/40080 [1:17:14<6:48:55,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6326/40080 [1:17:15<6:48:06,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6327/40080 [1:17:15<6:48:53,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6328/40080 [1:17:16<6:49:17,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6329/40080 [1:17:17<6:49:48,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6330/40080 [1:17:18<6:51:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5574, 'grad_norm': 3.390625, 'learning_rate': 2.350883810740935e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2175.82, 'epoch': 0.63}
+ 16%|██████████████████████████▌                                                                                                                                             | 6330/40080 [1:17:18<6:51:35,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6331/40080 [1:17:18<6:51:46,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6332/40080 [1:17:19<6:50:18,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6333/40080 [1:17:20<6:50:32,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6334/40080 [1:17:21<6:50:00,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6335/40080 [1:17:21<6:48:46,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6336/40080 [1:17:22<6:48:35,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6337/40080 [1:17:23<6:49:03,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6338/40080 [1:17:23<6:49:01,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6339/40080 [1:17:24<6:49:13,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6340/40080 [1:17:25<6:49:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5581, 'grad_norm': 3.078125, 'learning_rate': 2.3504189205140942e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.39, 'epoch': 0.63}
+ 16%|██████████████████████████▌                                                                                                                                             | 6340/40080 [1:17:25<6:49:30,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6341/40080 [1:17:26<6:50:50,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6342/40080 [1:17:26<6:50:41,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6343/40080 [1:17:27<6:50:09,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6344/40080 [1:17:28<6:49:44,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6345/40080 [1:17:29<6:49:18,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6346/40080 [1:17:29<6:49:00,  1.37it/s] 16%|██████████████████████████▌                                                                                                                                             | 6347/40080 [1:17:30<6:48:43,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6348/40080 [1:17:31<6:48:51,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6349/40080 [1:17:31<6:48:32,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6350/40080 [1:17:32<6:47:57,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5094, 'grad_norm': 3.453125, 'learning_rate': 2.3499533528491274e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2165.91, 'epoch': 0.63}
+ 16%|██████████████████████████▌                                                                                                                                             | 6350/40080 [1:17:32<6:47:57,  1.38it/s] 16%|██████████████████████████▌                                                                                                                                             | 6351/40080 [1:17:33<6:49:08,  1.37it/s] 16%|████████████���█████████████▋                                                                                                                                             | 6352/40080 [1:17:34<6:48:54,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6353/40080 [1:17:34<6:48:14,  1.38it/s] 16%|██████████████████████████▋                                                                                                                                             | 6354/40080 [1:17:35<6:49:00,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6355/40080 [1:17:36<6:48:45,  1.38it/s] 16%|██████████████████████████▋                                                                                                                                             | 6356/40080 [1:17:37<6:48:45,  1.38it/s] 16%|██████████████████████████▋                                                                                                                                             | 6357/40080 [1:17:37<6:48:58,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6358/40080 [1:17:38<6:49:16,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6359/40080 [1:17:39<6:49:10,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6360/40080 [1:17:39<6:49:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5649, 'grad_norm': 3.0625, 'learning_rate': 2.349487108032648e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2519.19, 'epoch': 0.64}
+ 16%|██████████████████████████▋                                                                                                                                             | 6360/40080 [1:17:39<6:49:09,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6361/40080 [1:17:40<6:50:10,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6362/40080 [1:17:41<6:49:27,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6363/40080 [1:17:42<6:49:00,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6364/40080 [1:17:42<6:49:15,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6365/40080 [1:17:43<6:49:13,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6366/40080 [1:17:44<6:51:15,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6367/40080 [1:17:45<6:53:04,  1.36it/s] 16%|██████████████████████████▋                                                                                                                                             | 6368/40080 [1:17:45<6:52:33,  1.36it/s] 16%|██████████████████████████▋                                                                                                                                             | 6369/40080 [1:17:46<6:51:41,  1.36it/s] 16%|██████████████████████████▋                                                                                                                                             | 6370/40080 [1:17:47<6:51:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5346, 'grad_norm': 2.890625, 'learning_rate': 2.349020186351684e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2634.85, 'epoch': 0.64}
+ 16%|██████████████████████████▋                                                                                                                                             | 6370/40080 [1:17:47<6:51:29,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6371/40080 [1:17:47<6:50:22,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6372/40080 [1:17:48<6:49:53,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6373/40080 [1:17:49<6:49:58,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6374/40080 [1:17:50<6:49:56,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6375/40080 [1:17:50<6:49:51,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6376/40080 [1:17:51<6:49:48,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6377/40080 [1:17:52<6:50:05,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6378/40080 [1:17:53<6:50:04,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6379/40080 [1:17:53<6:49:00,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6380/40080 [1:17:54<6:48:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.522, 'grad_norm': 3.578125, 'learning_rate': 2.348552588093681e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2210.78, 'epoch': 0.64}
+ 16%|██████████████████████████▋                                                                                                                                             | 6380/40080 [1:17:54<6:48:40,  1.37it/s] 16%|██████████████████████████▋                                                                                                                                             | 6381/40080 [1:17:55<6:49:53,  1.37it/s] 16%|███████��██████████████████▊                                                                                                                                             | 6382/40080 [1:17:56<6:49:22,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6383/40080 [1:17:56<6:49:50,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6384/40080 [1:17:57<6:48:56,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6385/40080 [1:17:58<6:49:16,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6386/40080 [1:17:58<6:48:52,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6387/40080 [1:17:59<6:49:25,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6388/40080 [1:18:00<6:50:22,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6389/40080 [1:18:01<6:49:49,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6390/40080 [1:18:01<6:49:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5757, 'grad_norm': 3.078125, 'learning_rate': 2.3480843135465015e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.44, 'epoch': 0.64}
+ 16%|██████████████████████████▊                                                                                                                                             | 6390/40080 [1:18:01<6:49:32,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6391/40080 [1:18:02<6:48:52,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6392/40080 [1:18:03<6:49:21,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6393/40080 [1:18:04<6:49:20,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6394/40080 [1:18:04<6:50:05,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6395/40080 [1:18:05<6:49:37,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6396/40080 [1:18:06<6:48:44,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6397/40080 [1:18:06<6:48:43,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6398/40080 [1:18:07<6:48:27,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6399/40080 [1:18:08<6:49:40,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6400/40080 [1:18:09<6:50:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6138, 'grad_norm': 2.96875, 'learning_rate': 2.3476153629984236e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2294.92, 'epoch': 0.64}
+ 16%|██████████████████████████▊                                                                                                                                             | 6400/40080 [1:18:09<6:50:06,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6401/40080 [1:18:09<6:50:54,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6402/40080 [1:18:10<6:49:39,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6403/40080 [1:18:11<6:49:10,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6404/40080 [1:18:12<6:48:11,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6405/40080 [1:18:12<6:48:03,  1.38it/s] 16%|██████████████████████████▊                                                                                                                                             | 6406/40080 [1:18:13<6:48:41,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6407/40080 [1:18:14<6:48:23,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6408/40080 [1:18:14<6:48:37,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6409/40080 [1:18:15<6:48:43,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6410/40080 [1:18:16<6:49:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.564, 'grad_norm': 2.90625, 'learning_rate': 2.3471457367381418e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2408.76, 'epoch': 0.64}
+ 16%|██████████████████████████▊                                                                                                                                             | 6410/40080 [1:18:16<6:49:26,  1.37it/s] 16%|██████████████████████████▊                                                                                                                                             | 6411/40080 [1:18:17<6:49:08,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6412/40080 [1:18:17<6:49:01,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6413/40080 [1:18:18<6:48:14,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6414/40080 [1:18:19<6:48:15,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6415/40080 [1:18:20<6:48:44,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6416/40080 [1:18:20<6:48:53,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6417/40080 [1:18:21<6:48:45,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6418/40080 [1:18:22<6:48:44,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6419/40080 [1:18:22<6:49:09,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6420/40080 [1:18:23<6:49:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5139, 'grad_norm': 3.328125, 'learning_rate': 2.346675435054767e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2312.73, 'epoch': 0.64}
+ 16%|██████████████████████████▉                                                                                                                                             | 6420/40080 [1:18:23<6:49:23,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6421/40080 [1:18:24<6:49:43,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6422/40080 [1:18:25<6:48:48,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6423/40080 [1:18:25<6:49:16,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6424/40080 [1:18:26<6:48:36,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6425/40080 [1:18:27<6:48:23,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6426/40080 [1:18:28<6:48:45,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6427/40080 [1:18:28<6:48:28,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6428/40080 [1:18:29<6:48:13,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6429/40080 [1:18:30<6:48:48,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6430/40080 [1:18:30<6:48:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5856, 'grad_norm': 3.921875, 'learning_rate': 2.3462044582378252e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.74, 'epoch': 0.64}
+ 16%|██████████████████████████▉                                                                                                                                             | 6430/40080 [1:18:30<6:48:20,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6431/40080 [1:18:31<6:48:37,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6432/40080 [1:18:32<6:49:02,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6433/40080 [1:18:33<6:49:33,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6434/40080 [1:18:33<6:48:43,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6435/40080 [1:18:34<6:48:39,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6436/40080 [1:18:35<6:47:44,  1.38it/s] 16%|██████████████████████████▉                                                                                                                                             | 6437/40080 [1:18:36<6:47:50,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6438/40080 [1:18:36<6:48:24,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6439/40080 [1:18:37<6:49:22,  1.37it/s] 16%|██████████████████████████▉                                                                                                                                             | 6440/40080 [1:18:38<7:58:59,  1.17it/s]                                                                                                                                                                                                                      {'loss': 0.5052, 'grad_norm': 3.203125, 'learning_rate': 2.345732806577259e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 1579.19, 'epoch': 0.64}
+ 16%|██████████████████████████▉                                                                                                                                             | 6440/40080 [1:18:38<7:58:59,  1.17it/s] 16%|██████████████████████████▉                                                                                                                                             | 6441/40080 [1:18:39<7:38:19,  1.22it/s] 16%|███████████████████████████                                                                                                                                             | 6442/40080 [1:18:40<7:24:35,  1.26it/s] 16%|███████████████████████████                                                                                                                                             | 6443/40080 [1:18:40<7:14:21,  1.29it/s] 16%|███████████████████████████                                                                                                                                             | 6444/40080 [1:18:41<7:05:56,  1.32it/s] 16%|███████████████████████████                                                                                                                                             | 6445/40080 [1:18:42<7:00:54,  1.33it/s] 16%|███████████████████████████                                                                                                                                             | 6446/40080 [1:18:43<6:57:41,  1.34it/s] 16%|███████████████████████████                                                                                                                                             | 6447/40080 [1:18:43<6:55:02,  1.35it/s] 16%|███████████████████████████                                                                                                                                             | 6448/40080 [1:18:44<6:52:54,  1.36it/s] 16%|███████████████████████████                                                                                                                                             | 6449/40080 [1:18:45<6:51:03,  1.36it/s] 16%|███████████████████████████                                                                                                                                             | 6450/40080 [1:18:46<6:50:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4741, 'grad_norm': 2.53125, 'learning_rate': 2.3452604803634253e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2416.04, 'epoch': 0.64}
+ 16%|███████████████████████████                                                                                                                                             | 6450/40080 [1:18:46<6:50:27,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6451/40080 [1:18:46<6:50:06,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6452/40080 [1:18:47<6:49:38,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6453/40080 [1:18:48<6:49:44,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6454/40080 [1:18:48<6:50:04,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6455/40080 [1:18:49<6:50:17,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6456/40080 [1:18:50<6:50:09,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6457/40080 [1:18:51<6:49:30,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6458/40080 [1:18:51<6:49:07,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6459/40080 [1:18:52<6:49:11,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6460/40080 [1:18:53<6:48:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4842, 'grad_norm': 3.28125, 'learning_rate': 2.3447874798870967e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.58, 'epoch': 0.65}
+ 16%|███████████████████████████                                                                                                                                             | 6460/40080 [1:18:53<6:48:53,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6461/40080 [1:18:54<6:49:36,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6462/40080 [1:18:54<6:48:49,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6463/40080 [1:18:55<6:49:12,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6464/40080 [1:18:56<6:49:43,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6465/40080 [1:18:56<6:49:28,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6466/40080 [1:18:57<6:48:48,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6467/40080 [1:18:58<6:49:32,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6468/40080 [1:18:59<6:48:55,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6469/40080 [1:18:59<6:49:14,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6470/40080 [1:19:00<6:48:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.573, 'grad_norm': 3.453125, 'learning_rate': 2.3443138054394616e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2470.82, 'epoch': 0.65}
+ 16%|███████████████████████████                                                                                                                                             | 6470/40080 [1:19:00<6:48:27,  1.37it/s] 16%|███████████████████████████                                                                                                                                             | 6471/40080 [1:19:01<6:49:24,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6472/40080 [1:19:02<6:49:56,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6473/40080 [1:19:02<6:50:18,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6474/40080 [1:19:03<6:51:29,  1.36it/s] 16%|███████████████████████████▏                                                                                                                                            | 6475/40080 [1:19:04<6:50:12,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6476/40080 [1:19:05<6:49:43,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6477/40080 [1:19:05<6:49:44,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6478/40080 [1:19:06<6:49:28,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6479/40080 [1:19:07<6:49:05,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6480/40080 [1:19:07<6:48:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6474, 'grad_norm': 3.859375, 'learning_rate': 2.343839457312122e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2508.61, 'epoch': 0.65}
+ 16%|███████████████████████████▏                                                                                                                                            | 6480/40080 [1:19:07<6:48:57,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6481/40080 [1:19:08<6:49:30,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6482/40080 [1:19:09<6:48:33,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6483/40080 [1:19:10<6:48:51,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6484/40080 [1:19:10<6:48:10,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6485/40080 [1:19:11<6:48:00,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6486/40080 [1:19:12<6:48:27,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6487/40080 [1:19:13<6:48:09,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6488/40080 [1:19:13<6:47:57,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6489/40080 [1:19:14<6:47:36,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6490/40080 [1:19:15<6:47:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4742, 'grad_norm': 2.609375, 'learning_rate': 2.3433644357970956e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.45, 'epoch': 0.65}
+ 16%|███████████████████████████▏                                                                                                                                            | 6490/40080 [1:19:15<6:47:33,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6491/40080 [1:19:15<6:48:35,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6492/40080 [1:19:16<6:48:52,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6493/40080 [1:19:17<6:48:14,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6494/40080 [1:19:18<6:48:51,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6495/40080 [1:19:18<6:48:42,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6496/40080 [1:19:19<6:49:11,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6497/40080 [1:19:20<6:48:33,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6498/40080 [1:19:21<6:48:10,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6499/40080 [1:19:21<6:48:06,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6500/40080 [1:19:22<6:47:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5069, 'grad_norm': 3.234375, 'learning_rate': 2.3428887411868144e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2573.21, 'epoch': 0.65}
+ 16%|███████████████████████████▏                                                                                                                                            | 6500/40080 [1:19:22<6:47:47,  1.37it/s] 16%|███████████████████████████▏                                                                                                                                            | 6501/40080 [1:19:23<6:48:29,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6502/40080 [1:19:23<6:48:05,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6503/40080 [1:19:24<6:47:21,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6504/40080 [1:19:25<6:47:12,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6505/40080 [1:19:26<6:47:13,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6506/40080 [1:19:26<6:47:22,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6507/40080 [1:19:27<6:47:19,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6508/40080 [1:19:28<6:47:57,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6509/40080 [1:19:29<6:47:43,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6510/40080 [1:19:29<6:48:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6023, 'grad_norm': 2.375, 'learning_rate': 2.342412373774125e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2390.31, 'epoch': 0.65}
+ 16%|███████████████████████████▎                                                                                                                                            | 6510/40080 [1:19:29<6:48:28,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6511/40080 [1:19:30<6:48:12,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6512/40080 [1:19:31<6:48:10,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6513/40080 [1:19:31<6:48:24,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6514/40080 [1:19:32<6:48:12,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6515/40080 [1:19:33<6:47:33,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6516/40080 [1:19:34<6:47:06,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6517/40080 [1:19:34<6:46:41,  1.38it/s] 16%|███████████████████████████▎                                                                                                                                            | 6518/40080 [1:19:35<6:47:10,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6519/40080 [1:19:36<6:47:21,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6520/40080 [1:19:37<6:47:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5201, 'grad_norm': 3.34375, 'learning_rate': 2.3419353338522877e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2412.2, 'epoch': 0.65}
+ 16%|███████████████████████████▎                                                                                                                                            | 6520/40080 [1:19:37<6:47:44,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6521/40080 [1:19:37<6:48:22,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6522/40080 [1:19:38<6:47:56,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6523/40080 [1:19:39<6:47:25,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6524/40080 [1:19:40<6:47:05,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6525/40080 [1:19:40<6:47:28,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6526/40080 [1:19:41<6:47:40,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6527/40080 [1:19:42<6:47:56,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6528/40080 [1:19:42<6:48:03,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6529/40080 [1:19:43<6:47:11,  1.37it/s] 16%|███████████████████████████▎                                                                                                                                            | 6530/40080 [1:19:44<6:46:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.477, 'grad_norm': 2.734375, 'learning_rate': 2.341457621714977e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2419.49, 'epoch': 0.65}
+ 16%|███████████████████████████▎                                                                                                                                            | 6530/40080 [1:19:44<6:46:54,  1.37it/s] 16%|██████████████████████████���▍                                                                                                                                            | 6531/40080 [1:19:45<6:47:06,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6532/40080 [1:19:45<6:47:14,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6533/40080 [1:19:46<6:47:19,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6534/40080 [1:19:47<6:46:39,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6535/40080 [1:19:48<6:47:05,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6536/40080 [1:19:48<6:47:37,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6537/40080 [1:19:49<6:47:39,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6538/40080 [1:19:50<6:47:21,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6539/40080 [1:19:50<6:47:15,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6540/40080 [1:19:51<6:48:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5396, 'grad_norm': 2.71875, 'learning_rate': 2.340979237656281e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.31, 'epoch': 0.65}
+ 16%|███████████████████████████▍                                                                                                                                            | 6540/40080 [1:19:51<6:48:10,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6541/40080 [1:19:52<6:48:46,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6542/40080 [1:19:53<6:47:49,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6543/40080 [1:19:53<6:48:44,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6544/40080 [1:19:54<6:48:06,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6545/40080 [1:19:55<6:48:11,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6546/40080 [1:19:56<6:48:10,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6547/40080 [1:19:56<6:47:39,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6548/40080 [1:19:57<6:47:27,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6549/40080 [1:19:58<6:47:01,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6550/40080 [1:19:58<6:47:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5651, 'grad_norm': 2.578125, 'learning_rate': 2.3405001819707027e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2675.52, 'epoch': 0.65}
+ 16%|███████████████████████████▍                                                                                                                                            | 6550/40080 [1:19:58<6:47:55,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6551/40080 [1:19:59<6:47:34,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6552/40080 [1:20:00<6:47:03,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6553/40080 [1:20:01<6:46:39,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6554/40080 [1:20:01<6:46:23,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6555/40080 [1:20:02<6:47:24,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6556/40080 [1:20:03<6:47:48,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6557/40080 [1:20:04<6:47:12,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6558/40080 [1:20:04<6:46:48,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6559/40080 [1:20:05<6:47:00,  1.37it/s] 16%|███████████████████████████▍                                                                                                                                            | 6560/40080 [1:20:06<6:47:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5521, 'grad_norm': 3.171875, 'learning_rate': 2.340020454953157e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2316.57, 'epoch': 0.66}
+ 16%|███████████████████████████▍                                                                                                                                            | 6560/40080 [1:20:06<6:47:20,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6561/40080 [1:20:06<6:47:57,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6562/40080 [1:20:07<6:48:10,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6563/40080 [1:20:08<6:47:50,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6564/40080 [1:20:09<6:47:21,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6565/40080 [1:20:09<6:47:06,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6566/40080 [1:20:10<6:46:40,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6567/40080 [1:20:11<6:47:03,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6568/40080 [1:20:12<6:47:40,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6569/40080 [1:20:12<6:48:11,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6570/40080 [1:20:13<6:47:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6035, 'grad_norm': 3.203125, 'learning_rate': 2.3395400568989723e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2570.83, 'epoch': 0.66}
+ 16%|███████████████████████████▌                                                                                                                                            | 6570/40080 [1:20:13<6:47:32,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6571/40080 [1:20:14<6:47:44,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6572/40080 [1:20:15<6:47:06,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6573/40080 [1:20:15<6:46:40,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6574/40080 [1:20:16<6:46:54,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6575/40080 [1:20:17<6:47:04,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6576/40080 [1:20:17<6:46:47,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6577/40080 [1:20:18<6:47:31,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6578/40080 [1:20:19<6:47:35,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6579/40080 [1:20:20<6:47:28,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6580/40080 [1:20:20<6:47:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5669, 'grad_norm': 2.78125, 'learning_rate': 2.3390589881038904e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.61, 'epoch': 0.66}
+ 16%|███████████████████████████▌                                                                                                                                            | 6580/40080 [1:20:20<6:47:32,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6581/40080 [1:20:21<6:46:53,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6582/40080 [1:20:22<6:46:34,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6583/40080 [1:20:23<6:46:58,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6584/40080 [1:20:23<6:47:22,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6585/40080 [1:20:24<6:47:01,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6586/40080 [1:20:25<6:46:48,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6587/40080 [1:20:25<6:46:22,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6588/40080 [1:20:26<6:46:45,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6589/40080 [1:20:27<6:46:50,  1.37it/s] 16%|███████████████████████████▌                                                                                                                                            | 6590/40080 [1:20:28<6:47:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.509, 'grad_norm': 2.625, 'learning_rate': 2.3385772488640672e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.86, 'epoch': 0.66}
+ 16%|███████████████████████████▌                                                                                                                                            | 6590/40080 [1:20:28<6:47:00,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6591/40080 [1:20:28<6:47:53,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6592/40080 [1:20:29<6:47:48,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6593/40080 [1:20:30<6:47:35,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6594/40080 [1:20:31<6:47:28,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6595/40080 [1:20:31<6:46:35,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6596/40080 [1:20:32<6:46:05,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6597/40080 [1:20:33<6:46:01,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6598/40080 [1:20:33<6:46:44,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6599/40080 [1:20:34<6:46:50,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6600/40080 [1:20:35<6:46:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6186, 'grad_norm': 4.46875, 'learning_rate': 2.3380948394760694e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2574.84, 'epoch': 0.66}
+ 16%|███████████████████████████▋                                                                                                                                            | 6600/40080 [1:20:35<6:46:58,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6601/40080 [1:20:36<6:47:22,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6602/40080 [1:20:36<6:46:52,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6603/40080 [1:20:37<6:46:49,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6604/40080 [1:20:38<6:47:14,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6605/40080 [1:20:39<6:46:59,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6606/40080 [1:20:39<6:46:15,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6607/40080 [1:20:40<6:45:56,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6608/40080 [1:20:41<6:46:25,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6609/40080 [1:20:41<6:46:23,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6610/40080 [1:20:42<6:46:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6322, 'grad_norm': 3.9375, 'learning_rate': 2.3376117602368776e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2408.42, 'epoch': 0.66}
+ 16%|███████████████████████████▋                                                                                                                                            | 6610/40080 [1:20:42<6:46:09,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6611/40080 [1:20:43<6:46:35,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6612/40080 [1:20:44<6:46:15,  1.37it/s] 16%|███████████████████████████▋                                                                                                                                            | 6613/40080 [1:20:44<6:45:50,  1.37it/s] 17%|███████████████████████████▋                                                                                                                                            | 6614/40080 [1:20:45<6:46:25,  1.37it/s] 17%|███████████████████████████▋                                                                                                                                            | 6615/40080 [1:20:46<6:46:39,  1.37it/s] 17%|███████████████████████████▋                                                                                                                                            | 6616/40080 [1:20:47<6:46:51,  1.37it/s] 17%|███████████████████████████▋                                                                                                                                            | 6617/40080 [1:20:47<6:46:44,  1.37it/s] 17%|███████████████████████████▋                                                                                                                                            | 6618/40080 [1:20:48<6:46:39,  1.37it/s] 17%|███████████████████████████▋                                                                                                                                            | 6619/40080 [1:20:49<6:45:44,  1.37it/s] 17%|███████████████████████████▋                                                                                                                                            | 6620/40080 [1:20:49<6:45:08,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4688, 'grad_norm': 4.09375, 'learning_rate': 2.3371280114438833e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2354.74, 'epoch': 0.66}
+ 17%|███████████████████████████▋                                                                                                                                            | 6620/40080 [1:20:49<6:45:08,  1.38it/s] 17%|███████████████████████████▊                                                                                                                                            | 6621/40080 [1:20:50<6:46:05,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6622/40080 [1:20:51<6:46:39,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6623/40080 [1:20:52<6:46:32,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6624/40080 [1:20:52<6:46:08,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6625/40080 [1:20:53<6:46:38,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6626/40080 [1:20:54<6:46:32,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6627/40080 [1:20:55<6:45:39,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6628/40080 [1:20:55<6:46:25,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6629/40080 [1:20:56<6:46:23,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6630/40080 [1:20:57<6:45:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6297, 'grad_norm': 3.25, 'learning_rate': 2.3366435933948915e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2481.68, 'epoch': 0.66}
+ 17%|███████████████████████████▊                                                                                                                                            | 6630/40080 [1:20:57<6:45:49,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6631/40080 [1:20:58<6:46:58,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6632/40080 [1:20:58<6:46:24,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6633/40080 [1:20:59<6:46:56,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6634/40080 [1:21:00<6:46:24,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6635/40080 [1:21:00<6:46:24,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6636/40080 [1:21:01<6:46:32,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6637/40080 [1:21:02<6:46:05,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6638/40080 [1:21:03<6:46:30,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6639/40080 [1:21:03<6:46:03,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6640/40080 [1:21:04<6:45:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5635, 'grad_norm': 2.875, 'learning_rate': 2.3361585063881198e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.43, 'epoch': 0.66}
+ 17%|███████████████████████████▊                                                                                                                                            | 6640/40080 [1:21:04<6:45:47,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6641/40080 [1:21:05<6:46:57,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6642/40080 [1:21:06<6:46:16,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6643/40080 [1:21:06<6:46:33,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6644/40080 [1:21:07<6:46:03,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6645/40080 [1:21:08<6:46:36,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6646/40080 [1:21:08<6:46:14,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6647/40080 [1:21:09<6:46:41,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6648/40080 [1:21:10<6:46:19,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6649/40080 [1:21:11<6:45:35,  1.37it/s] 17%|███████████████████████████▊                                                                                                                                            | 6650/40080 [1:21:11<6:45:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4554, 'grad_norm': 2.6875, 'learning_rate': 2.335672750722196e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.28, 'epoch': 0.66}
+ 17%|█████████���█████████████████▊                                                                                                                                            | 6650/40080 [1:21:11<6:45:35,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6651/40080 [1:21:12<6:46:29,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6652/40080 [1:21:13<6:46:35,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6653/40080 [1:21:14<6:46:36,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6654/40080 [1:21:14<6:46:25,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6655/40080 [1:21:15<6:45:28,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6656/40080 [1:21:16<6:45:43,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6657/40080 [1:21:16<6:46:07,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6658/40080 [1:21:17<6:46:12,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6659/40080 [1:21:18<6:46:47,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6660/40080 [1:21:19<6:46:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.525, 'grad_norm': 2.6875, 'learning_rate': 2.3351863266961598e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2265.32, 'epoch': 0.67}
+ 17%|███████████████████████████▉                                                                                                                                            | 6660/40080 [1:21:19<6:46:50,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6661/40080 [1:21:19<6:46:31,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6662/40080 [1:21:20<6:46:17,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6663/40080 [1:21:21<6:46:51,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6664/40080 [1:21:22<6:47:08,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6665/40080 [1:21:22<6:47:27,  1.37it/s] 17%|███████████████████████████��                                                                                                                                            | 6666/40080 [1:21:23<6:46:58,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6667/40080 [1:21:24<6:46:59,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6668/40080 [1:21:25<6:46:10,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6669/40080 [1:21:25<6:46:31,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6670/40080 [1:21:26<6:46:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5632, 'grad_norm': 2.5625, 'learning_rate': 2.3346992346094633e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2498.8, 'epoch': 0.67}
+ 17%|███████████████████████████▉                                                                                                                                            | 6670/40080 [1:21:26<6:46:38,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6671/40080 [1:21:27<6:46:29,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6672/40080 [1:21:27<6:46:47,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6673/40080 [1:21:28<6:45:43,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6674/40080 [1:21:29<6:45:16,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6675/40080 [1:21:30<6:46:52,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6676/40080 [1:21:30<6:46:17,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6677/40080 [1:21:31<6:46:25,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6678/40080 [1:21:32<6:46:41,  1.37it/s] 17%|███████████████████████████▉                                                                                                                                            | 6679/40080 [1:21:33<6:45:54,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6680/40080 [1:21:33<6:44:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5214, 'grad_norm': 4.125, 'learning_rate': 2.3342114747619692e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2449.85, 'epoch': 0.67}
+ 17%|████████████████████████████                                                                                                                                            | 6680/40080 [1:21:33<6:44:54,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6681/40080 [1:21:34<6:45:21,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6682/40080 [1:21:35<6:45:41,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6683/40080 [1:21:35<6:45:56,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6684/40080 [1:21:36<6:45:37,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6685/40080 [1:21:37<6:45:09,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6686/40080 [1:21:38<6:45:21,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6687/40080 [1:21:38<6:44:47,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6688/40080 [1:21:39<6:44:13,  1.38it/s] 17%|████████████████████████████                                                                                                                                            | 6689/40080 [1:21:40<6:44:07,  1.38it/s] 17%|████████████████████████████                                                                                                                                            | 6690/40080 [1:21:41<6:44:11,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5811, 'grad_norm': 3.1875, 'learning_rate': 2.333723047453952e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2385.67, 'epoch': 0.67}
+ 17%|████████████████████████████                                                                                                                                            | 6690/40080 [1:21:41<6:44:11,  1.38it/s] 17%|████████████████████████████                                                                                                                                            | 6691/40080 [1:21:41<6:44:47,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6692/40080 [1:21:42<6:44:53,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6693/40080 [1:21:43<6:44:12,  1.38it/s] 17%|████████████████████████████                                                                                                                                            | 6694/40080 [1:21:43<6:44:31,  1.38it/s] 17%|████████████████████████████                                                                                                                                            | 6695/40080 [1:21:44<6:44:57,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6696/40080 [1:21:45<6:45:09,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6697/40080 [1:21:46<6:45:25,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6698/40080 [1:21:46<6:44:37,  1.38it/s] 17%|████████████████████████████                                                                                                                                            | 6699/40080 [1:21:47<6:44:10,  1.38it/s] 17%|████████████████████████████                                                                                                                                            | 6700/40080 [1:21:48<6:44:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5717, 'grad_norm': 3.46875, 'learning_rate': 2.3332339529860956e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2267.59, 'epoch': 0.67}
+ 17%|████████████████████████████                                                                                                                                            | 6700/40080 [1:21:48<6:44:47,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6701/40080 [1:21:49<6:44:51,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6702/40080 [1:21:49<6:45:39,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6703/40080 [1:21:50<6:45:59,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6704/40080 [1:21:51<6:45:36,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6705/40080 [1:21:51<6:45:43,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6706/40080 [1:21:52<6:45:30,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6707/40080 [1:21:53<6:44:53,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6708/40080 [1:21:54<6:44:31,  1.37it/s] 17%|████████████████████████████                                                                                                                                            | 6709/40080 [1:21:54<6:44:28,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6710/40080 [1:21:55<6:44:16,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.554, 'grad_norm': 2.71875, 'learning_rate': 2.3327441916594957e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2692.34, 'epoch': 0.67}
+ 17%|████████████████████████████▏                                                                                                                                           | 6710/40080 [1:21:55<6:44:16,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6711/40080 [1:21:56<6:44:20,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6712/40080 [1:21:57<6:43:51,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6713/40080 [1:21:57<6:44:23,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6714/40080 [1:21:58<6:44:52,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6715/40080 [1:21:59<6:44:53,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6716/40080 [1:21:59<6:44:48,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6717/40080 [1:22:00<6:44:40,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6718/40080 [1:22:01<6:45:16,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6719/40080 [1:22:02<6:45:38,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6720/40080 [1:22:02<6:45:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5155, 'grad_norm': 2.46875, 'learning_rate': 2.3322537637756592e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2299.34, 'epoch': 0.67}
+ 17%|████████████████████████████▏                                                                                                                                           | 6720/40080 [1:22:02<6:45:03,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6721/40080 [1:22:03<6:45:31,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6722/40080 [1:22:04<6:44:37,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6723/40080 [1:22:05<6:43:48,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6724/40080 [1:22:05<6:44:29,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6725/40080 [1:22:06<6:43:52,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6726/40080 [1:22:07<6:44:14,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6727/40080 [1:22:07<6:43:57,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6728/40080 [1:22:08<6:44:12,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6729/40080 [1:22:09<6:44:49,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6730/40080 [1:22:10<6:45:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4726, 'grad_norm': 2.765625, 'learning_rate': 2.3317626696365013e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.43, 'epoch': 0.67}
+ 17%|████████████████████████████▏                                                                                                                                           | 6730/40080 [1:22:10<6:45:41,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6731/40080 [1:22:10<6:45:35,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6732/40080 [1:22:11<6:45:37,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6733/40080 [1:22:12<6:45:18,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6734/40080 [1:22:13<6:45:19,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6735/40080 [1:22:13<6:44:54,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6736/40080 [1:22:14<6:44:32,  1.37it/s] 17%|████████████████████████████▏                                                                                                                                           | 6737/40080 [1:22:15<6:43:50,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6738/40080 [1:22:15<6:43:37,  1.38it/s] 17%|████████████████████████████▏                                                                                                                                           | 6739/40080 [1:22:16<6:43:12,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6740/40080 [1:22:17<6:44:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5377, 'grad_norm': 3.125, 'learning_rate': 2.33127090954435e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2353.23, 'epoch': 0.67}
+ 17%|████████████████████████████▎                                                                                                                                           | 6740/40080 [1:22:17<6:44:12,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6741/40080 [1:22:18<6:44:53,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6742/40080 [1:22:18<6:45:32,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6743/40080 [1:22:19<6:45:50,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6744/40080 [1:22:20<6:44:53,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6745/40080 [1:22:21<6:44:28,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6746/40080 [1:22:21<6:43:57,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6747/40080 [1:22:22<6:43:50,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6748/40080 [1:22:23<6:44:05,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6749/40080 [1:22:23<6:43:20,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6750/40080 [1:22:24<6:43:35,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5512, 'grad_norm': 3.125, 'learning_rate': 2.330778483801941e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2455.87, 'epoch': 0.67}
+ 17%|████████████████████████████▎                                                                                                                                           | 6750/40080 [1:22:24<6:43:35,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6751/40080 [1:22:25<6:44:39,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6752/40080 [1:22:26<6:44:47,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6753/40080 [1:22:26<6:44:29,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6754/40080 [1:22:27<6:43:58,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6755/40080 [1:22:28<6:44:14,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6756/40080 [1:22:29<6:43:21,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6757/40080 [1:22:29<6:43:36,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6758/40080 [1:22:30<6:44:06,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6759/40080 [1:22:31<6:43:24,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6760/40080 [1:22:31<6:42:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5802, 'grad_norm': 3.296875, 'learning_rate': 2.3302853927124203e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.47, 'epoch': 0.68}
+ 17%|████████████████████████████▎                                                                                                                                           | 6760/40080 [1:22:31<6:42:50,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6761/40080 [1:22:32<6:43:47,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6762/40080 [1:22:33<6:43:07,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6763/40080 [1:22:34<6:43:04,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6764/40080 [1:22:34<6:42:21,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6765/40080 [1:22:35<6:43:01,  1.38it/s] 17%|████████████████████████████▎                                                                                                                                           | 6766/40080 [1:22:36<6:43:50,  1.37it/s] 17%|████████████████████████████▎                                                                                                                                           | 6767/40080 [1:22:37<6:48:18,  1.36it/s] 17%|████████████████████████████▎                                                                                                                                           | 6768/40080 [1:22:37<6:51:24,  1.35it/s] 17%|████████████████████████████▎                                                                                                                                           | 6769/40080 [1:22:38<6:52:24,  1.35it/s] 17%|████████████████████████████▍                                                                                                                                           | 6770/40080 [1:22:39<6:50:33,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4898, 'grad_norm': 3.0625, 'learning_rate': 2.329791636579344e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2439.32, 'epoch': 0.68}
+ 17%|████████████████████████████▍                                                                                                                                           | 6770/40080 [1:22:39<6:50:33,  1.35it/s] 17%|████████████████████████████▍                                                                                                                                           | 6771/40080 [1:22:40<6:49:24,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6772/40080 [1:22:40<6:47:29,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6773/40080 [1:22:41<6:46:04,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6774/40080 [1:22:42<6:45:36,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6775/40080 [1:22:42<6:44:46,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6776/40080 [1:22:43<6:44:32,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6777/40080 [1:22:44<6:44:51,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6778/40080 [1:22:45<6:44:53,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6779/40080 [1:22:45<6:45:08,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6780/40080 [1:22:46<6:45:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5873, 'grad_norm': 3.375, 'learning_rate': 2.3292972157066785e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.71, 'epoch': 0.68}
+ 17%|████████████████████████████▍                                                                                                                                           | 6780/40080 [1:22:46<6:45:30,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6781/40080 [1:22:47<6:49:08,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6782/40080 [1:22:48<6:47:42,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6783/40080 [1:22:48<6:46:29,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6784/40080 [1:22:49<6:45:57,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6785/40080 [1:22:50<6:44:09,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6786/40080 [1:22:50<6:43:56,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6787/40080 [1:22:51<6:43:46,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6788/40080 [1:22:52<6:44:24,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6789/40080 [1:22:53<6:48:40,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6790/40080 [1:22:53<6:50:18,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5384, 'grad_norm': 3.328125, 'learning_rate': 2.3288021303987974e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2337.9, 'epoch': 0.68}
+ 17%|████████████████████████████▍                                                                                                                                           | 6790/40080 [1:22:53<6:50:18,  1.35it/s] 17%|████████████████████████████▍                                                                                                                                           | 6791/40080 [1:22:54<6:52:14,  1.35it/s] 17%|████████████████████████████▍                                                                                                                                           | 6792/40080 [1:22:55<6:49:15,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6793/40080 [1:22:56<6:47:50,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6794/40080 [1:22:56<6:46:30,  1.36it/s] 17%|████████████████████████████▍                                                                                                                                           | 6795/40080 [1:22:57<6:45:30,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6796/40080 [1:22:58<6:44:33,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6797/40080 [1:22:59<6:44:14,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6798/40080 [1:22:59<6:43:28,  1.37it/s] 17%|████████████████████████████▍                                                                                                                                           | 6799/40080 [1:23:00<6:43:49,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6800/40080 [1:23:01<6:43:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.557, 'grad_norm': 3.0625, 'learning_rate': 2.3283063809604848e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.23, 'epoch': 0.68}
+ 17%|████████████████████████████▌                                                                                                                                           | 6800/40080 [1:23:01<6:43:43,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6801/40080 [1:23:01<6:44:47,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6802/40080 [1:23:02<6:44:38,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6803/40080 [1:23:03<6:44:46,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6804/40080 [1:23:04<6:44:09,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6805/40080 [1:23:04<6:43:53,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6806/40080 [1:23:05<6:43:45,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6807/40080 [1:23:06<6:43:46,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6808/40080 [1:23:07<6:42:55,  1.38it/s] 17%|████████████████████████████▌                                                                                                                                           | 6809/40080 [1:23:07<6:46:15,  1.36it/s] 17%|████████████████████████████▌                                                                                                                                           | 6810/40080 [1:23:08<6:45:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5572, 'grad_norm': 3.046875, 'learning_rate': 2.3278099676969325e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.17, 'epoch': 0.68}
+ 17%|████████████████████████████▌                                                                                                                                           | 6810/40080 [1:23:08<6:45:36,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6811/40080 [1:23:09<6:45:13,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6812/40080 [1:23:10<6:44:06,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6813/40080 [1:23:10<6:43:27,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6814/40080 [1:23:11<6:43:37,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6815/40080 [1:23:12<6:43:24,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6816/40080 [1:23:12<6:43:10,  1.38it/s] 17%|████████████████████████████▌                                                                                                                                           | 6817/40080 [1:23:13<6:42:56,  1.38it/s] 17%|████████████████████████████▌                                                                                                                                           | 6818/40080 [1:23:14<6:42:53,  1.38it/s] 17%|████████████████████████████▌                                                                                                                                           | 6819/40080 [1:23:15<6:42:48,  1.38it/s] 17%|████████████████████████████▌                                                                                                                                           | 6820/40080 [1:23:15<6:42:39,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5814, 'grad_norm': 3.140625, 'learning_rate': 2.327312890913742e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2366.69, 'epoch': 0.68}
+ 17%|████████████████████████████▌                                                                                                                                           | 6820/40080 [1:23:15<6:42:39,  1.38it/s] 17%|████████████████████████████▌                                                                                                                                           | 6821/40080 [1:23:16<6:44:54,  1.37it/s] 17%|████████████████████████████▌                                                                                                                                           | 6822/40080 [1:23:17<6:48:32,  1.36it/s] 17%|████████████████████████████▌                                                                                                                                           | 6823/40080 [1:23:18<6:50:53,  1.35it/s] 17%|████████████████████████████▌                                                                                                                                           | 6824/40080 [1:23:18<6:52:28,  1.34it/s] 17%|████████████████████████████▌                                                                                                                                           | 6825/40080 [1:23:19<6:49:34,  1.35it/s] 17%|████████████████████████████▌                                                                                                                                           | 6826/40080 [1:23:20<6:48:17,  1.36it/s] 17%|████████████████████████████▌                                                                                                                                           | 6827/40080 [1:23:21<6:47:33,  1.36it/s] 17%|████████████████████████████▌                                                                                                                                           | 6828/40080 [1:23:21<6:47:47,  1.36it/s] 17%|████████████████████████████▌                                                                                                                                           | 6829/40080 [1:23:22<6:50:21,  1.35it/s] 17%|█████���██████████████████████▋                                                                                                                                           | 6830/40080 [1:23:23<6:51:04,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.6549, 'grad_norm': 3.734375, 'learning_rate': 2.3268151509169233e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.57, 'epoch': 0.68}
+ 17%|████████████████████████████▋                                                                                                                                           | 6830/40080 [1:23:23<6:51:04,  1.35it/s] 17%|████████████████████████████▋                                                                                                                                           | 6831/40080 [1:23:23<6:49:44,  1.35it/s] 17%|████████████████████████████▋                                                                                                                                           | 6832/40080 [1:23:24<6:51:02,  1.35it/s] 17%|████████████████████████████▋                                                                                                                                           | 6833/40080 [1:23:25<6:51:19,  1.35it/s] 17%|████████████████████████████▋                                                                                                                                           | 6834/40080 [1:23:26<6:49:01,  1.35it/s] 17%|████████████████████████████▋                                                                                                                                           | 6835/40080 [1:23:26<6:52:55,  1.34it/s] 17%|████████████████████████████▋                                                                                                                                           | 6836/40080 [1:23:27<6:51:01,  1.35it/s] 17%|████████████████████████████▋                                                                                                                                           | 6837/40080 [1:23:28<6:48:48,  1.36it/s] 17%|████████████████████████████▋                                                                                                                                           | 6838/40080 [1:23:29<6:46:41,  1.36it/s] 17%|████████████████████████████▋                                                                                                                                           | 6839/40080 [1:23:29<6:45:56,  1.36it/s] 17%|████████████████████████████▋                                                                                                                                           | 6840/40080 [1:23:30<6:44:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4473, 'grad_norm': 2.546875, 'learning_rate': 2.3263167480128938e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2333.71, 'epoch': 0.68}
+ 17%|████████████████████████████▋                                                                                                                                           | 6840/40080 [1:23:30<6:44:28,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6841/40080 [1:23:31<6:45:00,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6842/40080 [1:23:32<6:44:07,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6843/40080 [1:23:32<6:44:09,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6844/40080 [1:23:33<6:44:00,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6845/40080 [1:23:34<6:44:37,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6846/40080 [1:23:34<6:44:02,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6847/40080 [1:23:35<6:43:10,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6848/40080 [1:23:36<6:43:14,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6849/40080 [1:23:37<6:43:02,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6850/40080 [1:23:37<6:42:30,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5636, 'grad_norm': 3.25, 'learning_rate': 2.32581768250848e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2466.48, 'epoch': 0.68}
+ 17%|████████████████████████████▋                                                                                                                                           | 6850/40080 [1:23:37<6:42:30,  1.38it/s] 17%|████████████████████████████▋                                                                                                                                           | 6851/40080 [1:23:38<6:43:16,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6852/40080 [1:23:39<6:43:06,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6853/40080 [1:23:40<6:43:29,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6854/40080 [1:23:40<6:43:10,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6855/40080 [1:23:41<6:42:09,  1.38it/s] 17%|████████████████████████████▋                                                                                                                                           | 6856/40080 [1:23:42<6:44:49,  1.37it/s] 17%|████████████████████████████▋                                                                                                                                           | 6857/40080 [1:23:43<6:48:58,  1.35it/s] 17%|████████████████████████████▋                                                                                                                                           | 6858/40080 [1:23:43<6:51:15,  1.35it/s] 17%|████████████████████████████▊                                                                                                                                           | 6859/40080 [1:23:44<6:52:33,  1.34it/s] 17%|████████████████████████████▊                                                                                                                                           | 6860/40080 [1:23:45<6:52:53,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.6141, 'grad_norm': 4.40625, 'learning_rate': 2.325317954710915e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.67, 'epoch': 0.69}
+ 17%|████████████████████████████▊                                                                                                                                           | 6860/40080 [1:23:45<6:52:53,  1.34it/s] 17%|████████████████████████████▊                                                                                                                                           | 6861/40080 [1:23:45<6:51:12,  1.35it/s] 17%|████████████████████████████▊                                                                                                                                           | 6862/40080 [1:23:46<6:48:36,  1.35it/s] 17%|████████████████████████████▊                                                                                                                                           | 6863/40080 [1:23:47<6:46:22,  1.36it/s] 17%|████████████████████████████▊                                                                                                                                           | 6864/40080 [1:23:48<6:44:43,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6865/40080 [1:23:48<6:44:32,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6866/40080 [1:23:49<6:44:13,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6867/40080 [1:23:50<6:43:29,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6868/40080 [1:23:51<6:43:37,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6869/40080 [1:23:51<6:42:31,  1.38it/s] 17%|████████████████████████████▊                                                                                                                                           | 6870/40080 [1:23:52<6:41:51,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5075, 'grad_norm': 3.890625, 'learning_rate': 2.3248175649278412e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.32, 'epoch': 0.69}
+ 17%|████████████████████████████▊                                                                                                                                           | 6870/40080 [1:23:52<6:41:51,  1.38it/s] 17%|████████████████████████████▊                                                                                                                                           | 6871/40080 [1:23:53<6:43:43,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6872/40080 [1:23:53<6:43:21,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6873/40080 [1:23:54<6:43:28,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6874/40080 [1:23:55<6:42:38,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6875/40080 [1:23:56<6:43:52,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6876/40080 [1:23:56<6:47:39,  1.36it/s] 17%|████████████████████████████▊                                                                                                                                           | 6877/40080 [1:23:57<6:50:19,  1.35it/s] 17%|████████████████████████████▊                                                                                                                                           | 6878/40080 [1:23:58<6:50:37,  1.35it/s] 17%|████████████████████████████▊                                                                                                                                           | 6879/40080 [1:23:59<6:48:16,  1.36it/s] 17%|████████████████████████████▊                                                                                                                                           | 6880/40080 [1:23:59<6:46:38,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5325, 'grad_norm': 3.015625, 'learning_rate': 2.3243165134673074e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2311.97, 'epoch': 0.69}
+ 17%|████████████████████████████▊                                                                                                                                           | 6880/40080 [1:23:59<6:46:38,  1.36it/s] 17%|████████████████████████████▊                                                                                                                                           | 6881/40080 [1:24:00<6:46:21,  1.36it/s] 17%|████████████████████████████▊                                                                                                                                           | 6882/40080 [1:24:01<6:44:57,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6883/40080 [1:24:02<6:43:46,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6884/40080 [1:24:02<6:43:52,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6885/40080 [1:24:03<6:43:17,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6886/40080 [1:24:04<6:42:58,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6887/40080 [1:24:04<6:43:26,  1.37it/s] 17%|████████████████████████████▊                                                                                                                                           | 6888/40080 [1:24:05<6:42:44,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6889/40080 [1:24:06<6:42:47,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6890/40080 [1:24:07<6:42:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5173, 'grad_norm': 2.84375, 'learning_rate': 2.3238148006377696e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2550.78, 'epoch': 0.69}
+ 17%|████████████████████████████▉                                                                                                                                           | 6890/40080 [1:24:07<6:42:38,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6891/40080 [1:24:07<6:45:23,  1.36it/s] 17%|████████████████████████████▉                                                                                                                                           | 6892/40080 [1:24:08<6:43:55,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6893/40080 [1:24:09<6:43:07,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6894/40080 [1:24:10<6:43:02,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6895/40080 [1:24:10<6:42:15,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6896/40080 [1:24:11<6:41:58,  1.38it/s] 17%|████████████████████████████▉                                                                                                                                           | 6897/40080 [1:24:12<6:41:53,  1.38it/s] 17%|████████████████████████████▉                                                                                                                                           | 6898/40080 [1:24:12<6:41:51,  1.38it/s] 17%|████████████████████████████▉                                                                                                                                           | 6899/40080 [1:24:13<6:41:27,  1.38it/s] 17%|████████████████████████████▉                                                                                                                                           | 6900/40080 [1:24:14<6:42:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5285, 'grad_norm': 3.09375, 'learning_rate': 2.3233124267480928e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2353.74, 'epoch': 0.69}
+ 17%|████████████████████████████▉                                                                                                                                           | 6900/40080 [1:24:14<6:42:19,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6901/40080 [1:24:15<6:46:28,  1.36it/s] 17%|████████████████████████████▉                                                                                                                                           | 6902/40080 [1:24:15<6:48:03,  1.36it/s] 17%|████████████████████████████▉                                                                                                                                           | 6903/40080 [1:24:16<6:45:38,  1.36it/s] 17%|████████████████████████████▉                                                                                                                                           | 6904/40080 [1:24:17<6:44:17,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6905/40080 [1:24:18<6:43:58,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6906/40080 [1:24:18<6:43:24,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6907/40080 [1:24:19<6:42:57,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6908/40080 [1:24:20<6:43:31,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6909/40080 [1:24:21<6:43:31,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6910/40080 [1:24:21<6:43:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.559, 'grad_norm': 3.546875, 'learning_rate': 2.322809392107546e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2332.07, 'epoch': 0.69}
+ 17%|████████████████████████████▉                                                                                                                                           | 6910/40080 [1:24:21<6:43:14,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6911/40080 [1:24:22<6:43:50,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6912/40080 [1:24:23<6:43:31,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6913/40080 [1:24:23<6:43:40,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6914/40080 [1:24:24<6:43:43,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6915/40080 [1:24:25<6:43:43,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6916/40080 [1:24:26<6:43:41,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6917/40080 [1:24:26<6:43:29,  1.37it/s] 17%|████████████████████████████▉                                                                                                                                           | 6918/40080 [1:24:27<6:43:02,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6919/40080 [1:24:28<6:42:57,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6920/40080 [1:24:29<6:42:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5789, 'grad_norm': 2.953125, 'learning_rate': 2.3223056970258078e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2275.78, 'epoch': 0.69}
+ 17%|█████████████████████████████                                                                                                                                           | 6920/40080 [1:24:29<6:42:50,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6921/40080 [1:24:29<6:42:53,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6922/40080 [1:24:30<6:42:45,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6923/40080 [1:24:31<6:42:09,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6924/40080 [1:24:31<6:41:45,  1.38it/s] 17%|█████████████████████████████                                                                                                                                           | 6925/40080 [1:24:32<6:41:45,  1.38it/s] 17%|█████████████████████████████                                                                                                                                           | 6926/40080 [1:24:33<6:43:42,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6927/40080 [1:24:34<6:43:49,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6928/40080 [1:24:34<6:43:45,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6929/40080 [1:24:35<6:43:30,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6930/40080 [1:24:36<6:43:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5572, 'grad_norm': 3.578125, 'learning_rate': 2.3218013418129618e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.71, 'epoch': 0.69}
+ 17%|█████████████████████████████                                                                                                                                           | 6930/40080 [1:24:36<6:43:23,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6931/40080 [1:24:37<6:43:20,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6932/40080 [1:24:37<6:42:55,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6933/40080 [1:24:38<6:42:59,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6934/40080 [1:24:39<6:42:51,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6935/40080 [1:24:40<6:42:54,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6936/40080 [1:24:40<6:43:02,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6937/40080 [1:24:41<6:42:52,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6938/40080 [1:24:42<6:41:51,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6939/40080 [1:24:42<6:42:57,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6940/40080 [1:24:43<6:42:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5665, 'grad_norm': 2.953125, 'learning_rate': 2.321296326779498e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.83, 'epoch': 0.69}
+ 17%|█████████████████████████████                                                                                                                                           | 6940/40080 [1:24:43<6:42:05,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6941/40080 [1:24:44<6:43:07,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6942/40080 [1:24:45<6:42:05,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6943/40080 [1:24:45<6:40:49,  1.38it/s] 17%|█████████████████████████████                                                                                                                                           | 6944/40080 [1:24:46<6:42:06,  1.37it/s] 17%|█████████████████████████████                                                                                                                                           | 6945/40080 [1:24:47<6:45:55,  1.36it/s] 17%|█████████████████████████████                                                                                                                                           | 6946/40080 [1:24:48<6:46:19,  1.36it/s] 17%|█████████████████████████████                                                                                                                                           | 6947/40080 [1:24:48<6:45:10,  1.36it/s] 17%|█████████████████████████████                                                                                                                                           | 6948/40080 [1:24:49<6:44:33,  1.36it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6949/40080 [1:24:50<6:43:57,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6950/40080 [1:24:50<6:43:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5734, 'grad_norm': 2.71875, 'learning_rate': 2.3207906522363133e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.56, 'epoch': 0.69}
+ 17%|█████████████████████████████▏                                                                                                                                          | 6950/40080 [1:24:50<6:43:30,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6951/40080 [1:24:51<6:43:02,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6952/40080 [1:24:52<6:42:24,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6953/40080 [1:24:53<6:44:12,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6954/40080 [1:24:53<6:44:22,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6955/40080 [1:24:54<6:46:19,  1.36it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6956/40080 [1:24:55<6:47:38,  1.35it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6957/40080 [1:24:56<6:50:08,  1.35it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6958/40080 [1:24:56<6:47:28,  1.35it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6959/40080 [1:24:57<6:44:57,  1.36it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6960/40080 [1:24:58<6:43:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.457, 'grad_norm': 3.25, 'learning_rate': 2.3202843184947105e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2154.0, 'epoch': 0.7}
+ 17%|█████████████████████████████▏                                                                                                                                          | 6960/40080 [1:24:58<6:43:45,  1.37it/s] 17%|████████████████��████████████▏                                                                                                                                          | 6961/40080 [1:24:59<6:44:01,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6962/40080 [1:24:59<6:43:39,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6963/40080 [1:25:00<6:42:55,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6964/40080 [1:25:01<6:43:11,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6965/40080 [1:25:01<6:43:09,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6966/40080 [1:25:02<6:42:42,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6967/40080 [1:25:03<6:42:34,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6968/40080 [1:25:04<6:41:50,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6969/40080 [1:25:04<6:41:02,  1.38it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6970/40080 [1:25:05<6:40:40,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5339, 'grad_norm': 3.0, 'learning_rate': 2.319777325866397e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2304.08, 'epoch': 0.7}
+ 17%|█████████████████████████████▏                                                                                                                                          | 6970/40080 [1:25:05<6:40:40,  1.38it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6971/40080 [1:25:06<6:41:51,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6972/40080 [1:25:07<6:41:19,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6973/40080 [1:25:07<6:41:43,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6974/40080 [1:25:08<6:41:15,  1.38it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6975/40080 [1:25:09<6:41:46,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6976/40080 [1:25:09<6:42:22,  1.37it/s] 17%|█████████████��███████████████▏                                                                                                                                          | 6977/40080 [1:25:10<6:42:57,  1.37it/s] 17%|█████████████████████████████▏                                                                                                                                          | 6978/40080 [1:25:11<6:42:44,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6979/40080 [1:25:12<6:42:49,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6980/40080 [1:25:12<6:42:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5745, 'grad_norm': 3.515625, 'learning_rate': 2.3192696746634875e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2525.33, 'epoch': 0.7}
+ 17%|█████████████████████████████▎                                                                                                                                          | 6980/40080 [1:25:12<6:42:30,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6981/40080 [1:25:13<6:42:33,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6982/40080 [1:25:14<6:42:10,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6983/40080 [1:25:15<6:41:01,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6984/40080 [1:25:15<6:40:38,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6985/40080 [1:25:16<6:41:27,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6986/40080 [1:25:17<6:41:50,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6987/40080 [1:25:17<6:41:36,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6988/40080 [1:25:18<6:41:21,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6989/40080 [1:25:19<6:41:03,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6990/40080 [1:25:20<6:40:53,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5382, 'grad_norm': 3.125, 'learning_rate': 2.3187613651985017e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2364.81, 'epoch': 0.7}
+ 17%|█████████████████████████████▎                                                                                                                                          | 6990/40080 [1:25:20<6:40:53,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6991/40080 [1:25:20<6:41:27,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6992/40080 [1:25:21<6:41:01,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6993/40080 [1:25:22<6:40:46,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6994/40080 [1:25:23<6:40:22,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6995/40080 [1:25:23<6:39:30,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6996/40080 [1:25:24<6:39:27,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6997/40080 [1:25:25<6:39:33,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6998/40080 [1:25:25<6:40:11,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 6999/40080 [1:25:26<6:40:36,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7000/40080 [1:25:27<6:41:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4892, 'grad_norm': 2.890625, 'learning_rate': 2.3182523977843637e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.07, 'epoch': 0.7}
+ 17%|█████████████████████████████▎                                                                                                                                          | 7000/40080 [1:25:27<6:41:16,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7001/40080 [1:25:28<6:41:11,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7002/40080 [1:25:28<6:40:44,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7003/40080 [1:25:29<6:40:48,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7004/40080 [1:25:30<6:40:24,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7005/40080 [1:25:31<6:40:57,  1.37it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7006/40080 [1:25:31<6:40:24,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7007/40080 [1:25:32<6:40:10,  1.38it/s] 17%|█████████████████████████████▎                                                                                                                                          | 7008/40080 [1:25:33<6:40:35,  1.38it/s] 17%|█████████████████████████████▍                                                                                                                                          | 7009/40080 [1:25:33<6:40:25,  1.38it/s] 17%|█████████████████████████████▍                                                                                                                                          | 7010/40080 [1:25:34<6:39:52,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5606, 'grad_norm': 3.625, 'learning_rate': 2.317742772734403e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2281.94, 'epoch': 0.7}
+ 17%|█████████████████████████████▍                                                                                                                                          | 7010/40080 [1:25:34<6:39:52,  1.38it/s] 17%|█████████████████████████████▍                                                                                                                                          | 7011/40080 [1:25:35<6:41:22,  1.37it/s] 17%|█████████████████████████████▍                                                                                                                                          | 7012/40080 [1:25:36<6:42:40,  1.37it/s] 17%|█████████████████████████████▍                                                                                                                                          | 7013/40080 [1:25:36<6:41:56,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7014/40080 [1:25:37<6:41:31,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7015/40080 [1:25:38<6:41:30,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7016/40080 [1:25:39<6:41:07,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7017/40080 [1:25:39<6:41:31,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7018/40080 [1:25:40<6:41:19,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7019/40080 [1:25:41<6:41:22,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7020/40080 [1:25:41<6:40:33,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5464, 'grad_norm': 3.484375, 'learning_rate': 2.317232490362355e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2285.52, 'epoch': 0.7}
+ 18%|█████████████████████████████▍                                                                                                                                          | 7020/40080 [1:25:41<6:40:33,  1.38it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7021/40080 [1:25:42<6:41:12,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7022/40080 [1:25:43<6:41:25,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7023/40080 [1:25:44<6:41:53,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7024/40080 [1:25:44<6:41:53,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7025/40080 [1:25:45<6:41:25,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7026/40080 [1:25:46<7:42:59,  1.19it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7027/40080 [1:25:47<7:24:13,  1.24it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7028/40080 [1:25:48<7:11:34,  1.28it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7029/40080 [1:25:48<7:02:52,  1.30it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7030/40080 [1:25:49<6:56:04,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.5433, 'grad_norm': 3.71875, 'learning_rate': 2.3167215509823583e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.18, 'epoch': 0.7}
+ 18%|█████████████████████████████▍                                                                                                                                          | 7030/40080 [1:25:49<6:56:04,  1.32it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7031/40080 [1:25:50<6:51:30,  1.34it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7032/40080 [1:25:51<6:48:08,  1.35it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7033/40080 [1:25:51<6:45:45,  1.36it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7034/40080 [1:25:52<6:44:11,  1.36it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7035/40080 [1:25:53<6:42:38,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7036/40080 [1:25:54<6:42:43,  1.37it/s] 18%|█████████████████████████████▍                                                                                                                                          | 7037/40080 [1:25:54<6:41:35,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7038/40080 [1:25:55<6:41:09,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7039/40080 [1:25:56<6:41:15,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7040/40080 [1:25:56<6:41:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5261, 'grad_norm': 3.140625, 'learning_rate': 2.3162099549089566e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2287.22, 'epoch': 0.7}
+ 18%|█████████████████████████████▌                                                                                                                                          | 7040/40080 [1:25:56<6:41:02,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7041/40080 [1:25:57<6:40:54,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7042/40080 [1:25:58<6:40:06,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7043/40080 [1:25:59<6:39:58,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7044/40080 [1:25:59<6:40:02,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7045/40080 [1:26:00<6:40:39,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7046/40080 [1:26:01<6:40:40,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7047/40080 [1:26:02<6:41:35,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7048/40080 [1:26:02<6:41:26,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7049/40080 [1:26:03<6:42:15,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7050/40080 [1:26:04<6:42:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5437, 'grad_norm': 2.9375, 'learning_rate': 2.315697702457098e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2387.8, 'epoch': 0.7}
+ 18%|█████████████████████████████▌                                                                                                                                          | 7050/40080 [1:26:04<6:42:32,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7051/40080 [1:26:04<6:42:18,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7052/40080 [1:26:05<6:42:01,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7053/40080 [1:26:06<6:40:43,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7054/40080 [1:26:07<6:40:44,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7055/40080 [1:26:07<6:40:49,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7056/40080 [1:26:08<6:40:45,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7057/40080 [1:26:09<6:40:10,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7058/40080 [1:26:10<6:40:44,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7059/40080 [1:26:10<6:40:40,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7060/40080 [1:26:11<6:41:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5964, 'grad_norm': 3.03125, 'learning_rate': 2.3151847939421348e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2282.69, 'epoch': 0.71}
+ 18%|█████████████████████████████▌                                                                                                                                          | 7060/40080 [1:26:11<6:41:19,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7061/40080 [1:26:12<6:40:59,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7062/40080 [1:26:12<6:40:03,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7063/40080 [1:26:13<6:40:03,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7064/40080 [1:26:14<6:39:14,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7065/40080 [1:26:15<6:39:49,  1.38it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7066/40080 [1:26:15<6:40:21,  1.37it/s] 18%|█████████████████████████████▌                                                                                                                                          | 7067/40080 [1:26:16<6:40:21,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7068/40080 [1:26:17<6:39:51,  1.38it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7069/40080 [1:26:18<6:40:38,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7070/40080 [1:26:18<6:40:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5603, 'grad_norm': 3.328125, 'learning_rate': 2.3146712296798223e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2206.5, 'epoch': 0.71}
+ 18%|█████████████████████████████▋                                                                                                                                          | 7070/40080 [1:26:18<6:40:49,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7071/40080 [1:26:19<6:41:00,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7072/40080 [1:26:20<6:40:18,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7073/40080 [1:26:20<6:40:48,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7074/40080 [1:26:21<6:40:04,  1.38it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7075/40080 [1:26:22<6:40:12,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7076/40080 [1:26:23<6:40:27,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7077/40080 [1:26:23<6:40:41,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7078/40080 [1:26:24<6:40:19,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7079/40080 [1:26:25<6:40:07,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7080/40080 [1:26:26<6:40:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5188, 'grad_norm': 2.78125, 'learning_rate': 2.3141570099863206e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2288.83, 'epoch': 0.71}
+ 18%|█████████████████████████████▋                                                                                                                                          | 7080/40080 [1:26:26<6:40:11,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7081/40080 [1:26:26<6:41:01,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7082/40080 [1:26:27<6:40:36,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7083/40080 [1:26:28<6:41:16,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7084/40080 [1:26:28<6:40:22,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7085/40080 [1:26:29<6:39:44,  1.38it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7086/40080 [1:26:30<6:39:53,  1.38it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7087/40080 [1:26:31<6:41:03,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7088/40080 [1:26:31<6:41:40,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7089/40080 [1:26:32<6:42:17,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7090/40080 [1:26:33<6:41:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5354, 'grad_norm': 2.921875, 'learning_rate': 2.3136421351781923e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.25, 'epoch': 0.71}
+ 18%|█████████████████████████████▋                                                                                                                                          | 7090/40080 [1:26:33<6:41:52,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7091/40080 [1:26:34<6:41:46,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7092/40080 [1:26:34<6:41:25,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7093/40080 [1:26:35<6:40:43,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7094/40080 [1:26:36<6:40:58,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7095/40080 [1:26:36<6:40:21,  1.37it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7096/40080 [1:26:37<6:39:46,  1.38it/s] 18%|█████████████████████████████▋                                                                                                                                          | 7097/40080 [1:26:38<6:39:57,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7098/40080 [1:26:39<6:39:28,  1.38it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7099/40080 [1:26:39<6:39:16,  1.38it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7100/40080 [1:26:40<6:39:44,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5757, 'grad_norm': 2.640625, 'learning_rate': 2.3131266055724045e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2288.69, 'epoch': 0.71}
+ 18%|█████████████████████████████▊                                                                                                                                          | 7100/40080 [1:26:40<6:39:44,  1.38it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7101/40080 [1:26:41<6:41:00,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7102/40080 [1:26:42<6:40:31,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7103/40080 [1:26:42<6:40:45,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7104/40080 [1:26:43<6:40:43,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7105/40080 [1:26:44<6:40:08,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7106/40080 [1:26:44<6:40:42,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7107/40080 [1:26:45<6:40:01,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7108/40080 [1:26:46<6:39:50,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7109/40080 [1:26:47<6:40:25,  1.37it/s] 18%|��████████████████████████████▊                                                                                                                                          | 7110/40080 [1:26:47<6:41:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5682, 'grad_norm': 2.484375, 'learning_rate': 2.312610421486326e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.45, 'epoch': 0.71}
+ 18%|█████████████████████████████▊                                                                                                                                          | 7110/40080 [1:26:47<6:41:02,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7111/40080 [1:26:48<6:41:29,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7112/40080 [1:26:49<6:41:16,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7113/40080 [1:26:50<6:41:13,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7114/40080 [1:26:50<6:41:02,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7115/40080 [1:26:51<6:40:36,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7116/40080 [1:26:52<6:40:10,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7117/40080 [1:26:53<6:40:12,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7118/40080 [1:26:53<6:39:14,  1.38it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7119/40080 [1:26:54<6:39:14,  1.38it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7120/40080 [1:26:55<6:39:21,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5417, 'grad_norm': 3.84375, 'learning_rate': 2.31209358323773e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2399.9, 'epoch': 0.71}
+ 18%|█████████████████████████████▊                                                                                                                                          | 7120/40080 [1:26:55<6:39:21,  1.38it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7121/40080 [1:26:55<6:40:19,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7122/40080 [1:26:56<6:40:14,  1.37it/s] 18%|██████████████████████████��██▊                                                                                                                                          | 7123/40080 [1:26:57<6:39:55,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7124/40080 [1:26:58<6:39:40,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7125/40080 [1:26:58<6:40:03,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7126/40080 [1:26:59<6:40:01,  1.37it/s] 18%|█████████████████████████████▊                                                                                                                                          | 7127/40080 [1:27:00<6:40:12,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7128/40080 [1:27:01<6:40:22,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7129/40080 [1:27:01<6:39:46,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7130/40080 [1:27:02<6:40:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4968, 'grad_norm': 3.15625, 'learning_rate': 2.3115760911447906e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.98, 'epoch': 0.71}
+ 18%|█████████████████████████████▉                                                                                                                                          | 7130/40080 [1:27:02<6:40:16,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7131/40080 [1:27:03<6:41:43,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7132/40080 [1:27:03<6:41:33,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7133/40080 [1:27:04<6:41:00,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7134/40080 [1:27:05<6:40:25,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7135/40080 [1:27:06<6:40:39,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7136/40080 [1:27:06<6:40:48,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7137/40080 [1:27:07<6:40:02,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7138/40080 [1:27:08<6:40:07,  1.37it/s] 18%|█████████████████████��███████▉                                                                                                                                          | 7139/40080 [1:27:09<6:40:14,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7140/40080 [1:27:09<6:40:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4429, 'grad_norm': 2.765625, 'learning_rate': 2.311057945526086e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.69, 'epoch': 0.71}
+ 18%|█████████████████████████████▉                                                                                                                                          | 7140/40080 [1:27:09<6:40:45,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7141/40080 [1:27:10<6:41:01,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7142/40080 [1:27:11<6:40:56,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7143/40080 [1:27:11<6:40:50,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7144/40080 [1:27:12<6:40:43,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7145/40080 [1:27:13<6:41:00,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7146/40080 [1:27:14<6:40:47,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7147/40080 [1:27:14<6:40:49,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7148/40080 [1:27:15<6:40:09,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7149/40080 [1:27:16<6:40:09,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7150/40080 [1:27:17<6:39:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.536, 'grad_norm': 3.78125, 'learning_rate': 2.3105391467005967e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2363.76, 'epoch': 0.71}
+ 18%|█████████████████████████████▉                                                                                                                                          | 7150/40080 [1:27:17<6:39:43,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7151/40080 [1:27:17<6:40:12,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7152/40080 [1:27:18<6:39:55,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7153/40080 [1:27:19<6:40:34,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7154/40080 [1:27:19<6:40:29,  1.37it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7155/40080 [1:27:20<6:42:16,  1.36it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7156/40080 [1:27:21<6:42:03,  1.36it/s] 18%|█████████████████████████████▉                                                                                                                                          | 7157/40080 [1:27:22<6:41:07,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7158/40080 [1:27:22<6:40:11,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7159/40080 [1:27:23<6:39:58,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7160/40080 [1:27:24<6:40:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4759, 'grad_norm': 2.265625, 'learning_rate': 2.3100196949877044e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2283.97, 'epoch': 0.71}
+ 18%|██████████████████████████████                                                                                                                                          | 7160/40080 [1:27:24<6:40:13,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7161/40080 [1:27:25<6:40:37,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7162/40080 [1:27:25<6:40:28,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7163/40080 [1:27:26<6:40:36,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7164/40080 [1:27:27<6:40:51,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7165/40080 [1:27:28<6:41:01,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7166/40080 [1:27:28<6:40:55,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7167/40080 [1:27:29<6:40:36,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7168/40080 [1:27:30<6:39:44,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7169/40080 [1:27:30<6:39:35,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7170/40080 [1:27:31<6:39:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5372, 'grad_norm': 3.21875, 'learning_rate': 2.3094995907071925e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2337.5, 'epoch': 0.72}
+ 18%|██████████████████████████████                                                                                                                                          | 7170/40080 [1:27:31<6:39:38,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7171/40080 [1:27:32<6:39:39,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7172/40080 [1:27:33<6:39:36,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7173/40080 [1:27:33<6:39:57,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7174/40080 [1:27:34<6:40:13,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7175/40080 [1:27:35<6:39:11,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7176/40080 [1:27:36<6:39:08,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7177/40080 [1:27:36<6:39:19,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7178/40080 [1:27:37<6:39:34,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7179/40080 [1:27:38<6:38:45,  1.38it/s] 18%|██████████████████████████████                                                                                                                                          | 7180/40080 [1:27:38<6:38:15,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5237, 'grad_norm': 3.953125, 'learning_rate': 2.3089788341792473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2475.47, 'epoch': 0.72}
+ 18%|██████████████████████████████                                                                                                                                          | 7180/40080 [1:27:38<6:38:15,  1.38it/s] 18%|██████████████████████████████                                                                                                                                          | 7181/40080 [1:27:39<6:38:53,  1.37it/s] 18%|██████████████████████████████                                                                                                                                          | 7182/40080 [1:27:40<6:38:28,  1.38it/s] 18%|██████████████████████████████                                                                                                                                          | 7183/40080 [1:27:41<6:37:59,  1.38it/s] 18%|██████████████████████████████                                                                                                                                          | 7184/40080 [1:27:41<6:38:09,  1.38it/s] 18%|██████████████████████████████                                                                                                                                          | 7185/40080 [1:27:42<6:37:51,  1.38it/s] 18%|██████████████████████████████                                                                                                                                          | 7186/40080 [1:27:43<6:38:17,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7187/40080 [1:27:44<6:37:40,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7188/40080 [1:27:44<6:38:26,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7189/40080 [1:27:45<6:38:29,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7190/40080 [1:27:46<6:37:59,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5702, 'grad_norm': 3.328125, 'learning_rate': 2.308457425724456e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2290.77, 'epoch': 0.72}
+ 18%|██████████████████████████████▏                                                                                                                                         | 7190/40080 [1:27:46<6:37:59,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7191/40080 [1:27:46<6:39:00,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7192/40080 [1:27:47<6:38:58,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7193/40080 [1:27:48<6:39:43,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7194/40080 [1:27:49<6:39:59,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7195/40080 [1:27:49<6:40:17,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7196/40080 [1:27:50<6:39:26,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7197/40080 [1:27:51<6:38:30,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7198/40080 [1:27:52<6:38:42,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7199/40080 [1:27:52<6:38:57,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7200/40080 [1:27:53<6:39:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.552, 'grad_norm': 2.75, 'learning_rate': 2.307935365663808e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.13, 'epoch': 0.72}
+ 18%|██████████████████████████████▏                                                                                                                                         | 7200/40080 [1:27:53<6:39:17,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7201/40080 [1:27:54<6:39:11,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7202/40080 [1:27:54<6:38:21,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7203/40080 [1:27:55<6:37:45,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7204/40080 [1:27:56<6:38:36,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7205/40080 [1:27:57<6:38:09,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7206/40080 [1:27:57<6:38:16,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7207/40080 [1:27:58<6:38:32,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7208/40080 [1:27:59<6:39:04,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7209/40080 [1:28:00<6:39:05,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7210/40080 [1:28:00<6:38:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4913, 'grad_norm': 2.765625, 'learning_rate': 2.307412654318692e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2366.5, 'epoch': 0.72}
+ 18%|██████████████████████████████▏                                                                                                                                         | 7210/40080 [1:28:00<6:38:31,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7211/40080 [1:28:01<6:39:02,  1.37it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7212/40080 [1:28:02<6:38:23,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7213/40080 [1:28:02<6:37:38,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7214/40080 [1:28:03<6:37:42,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7215/40080 [1:28:04<6:37:25,  1.38it/s] 18%|██████████████████████████████▏                                                                                                                                         | 7216/40080 [1:28:05<6:37:14,  1.38it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7217/40080 [1:28:05<6:37:37,  1.38it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7218/40080 [1:28:06<6:37:38,  1.38it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7219/40080 [1:28:07<6:38:01,  1.38it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7220/40080 [1:28:08<6:37:35,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6276, 'grad_norm': 3.015625, 'learning_rate': 2.306889292010899e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.08, 'epoch': 0.72}
+ 18%|██████████████████████████████▎                                                                                                                                         | 7220/40080 [1:28:08<6:37:35,  1.38it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7221/40080 [1:28:08<6:39:22,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7222/40080 [1:28:09<6:39:05,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7223/40080 [1:28:10<6:39:21,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7224/40080 [1:28:10<6:39:55,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7225/40080 [1:28:11<6:39:12,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7226/40080 [1:28:12<6:39:06,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7227/40080 [1:28:13<6:39:19,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7228/40080 [1:28:13<6:38:48,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7229/40080 [1:28:14<6:39:15,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7230/40080 [1:28:15<6:39:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5006, 'grad_norm': 2.75, 'learning_rate': 2.3063652790626207e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2635.17, 'epoch': 0.72}
+ 18%|██████████████████████████████▎                                                                                                                                         | 7230/40080 [1:28:15<6:39:21,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7231/40080 [1:28:16<6:38:56,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7232/40080 [1:28:16<6:39:07,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7233/40080 [1:28:17<6:38:47,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7234/40080 [1:28:18<6:39:54,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7235/40080 [1:28:18<6:40:06,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7236/40080 [1:28:19<6:39:27,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7237/40080 [1:28:20<6:40:15,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7238/40080 [1:28:21<6:39:57,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7239/40080 [1:28:21<6:40:12,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7240/40080 [1:28:22<6:39:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5958, 'grad_norm': 3.21875, 'learning_rate': 2.3058406157964485e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2564.86, 'epoch': 0.72}
+ 18%|██████████████████████████████▎                                                                                                                                         | 7240/40080 [1:28:22<6:39:42,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7241/40080 [1:28:23<6:41:01,  1.36it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7242/40080 [1:28:24<6:40:37,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7243/40080 [1:28:24<6:40:14,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7244/40080 [1:28:25<6:39:09,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7245/40080 [1:28:26<6:38:57,  1.37it/s] 18%|██████████████████████████████▎                                                                                                                                         | 7246/40080 [1:28:27<6:38:42,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7247/40080 [1:28:27<6:38:32,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7248/40080 [1:28:28<6:37:49,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7249/40080 [1:28:29<6:38:01,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7250/40080 [1:28:29<6:37:30,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5928, 'grad_norm': 3.265625, 'learning_rate': 2.305315302535376e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2362.79, 'epoch': 0.72}
+ 18%|██████████████████████████████▍                                                                                                                                         | 7250/40080 [1:28:29<6:37:30,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7251/40080 [1:28:30<6:38:28,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7252/40080 [1:28:31<6:38:23,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7253/40080 [1:28:32<6:38:21,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7254/40080 [1:28:32<6:38:18,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7255/40080 [1:28:33<6:37:56,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7256/40080 [1:28:34<6:37:29,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7257/40080 [1:28:35<6:37:41,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7258/40080 [1:28:35<6:37:12,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7259/40080 [1:28:36<6:37:48,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7260/40080 [1:28:37<6:37:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5307, 'grad_norm': 2.359375, 'learning_rate': 2.304789339602794e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2328.38, 'epoch': 0.72}
+ 18%|██████████████████████████████▍                                                                                                                                         | 7260/40080 [1:28:37<6:37:29,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7261/40080 [1:28:37<6:38:20,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7262/40080 [1:28:38<6:37:36,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7263/40080 [1:28:39<6:38:15,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7264/40080 [1:28:40<6:38:13,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7265/40080 [1:28:40<6:38:48,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7266/40080 [1:28:41<6:38:47,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7267/40080 [1:28:42<6:38:18,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7268/40080 [1:28:43<6:38:00,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7269/40080 [1:28:43<6:37:28,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7270/40080 [1:28:44<6:38:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5656, 'grad_norm': 3.75, 'learning_rate': 2.3042627273224967e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2415.82, 'epoch': 0.73}
+ 18%|██████████████████████████████▍                                                                                                                                         | 7270/40080 [1:28:44<6:38:02,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7271/40080 [1:28:45<6:38:08,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7272/40080 [1:28:45<6:37:24,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7273/40080 [1:28:46<6:37:31,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7274/40080 [1:28:47<6:37:34,  1.38it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7275/40080 [1:28:48<6:38:11,  1.37it/s] 18%|██████████████████████████████▍                                                                                                                                         | 7276/40080 [1:28:48<6:37:46,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7277/40080 [1:28:49<6:38:02,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7278/40080 [1:28:50<6:37:56,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7279/40080 [1:28:51<6:38:01,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7280/40080 [1:28:51<6:38:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5345, 'grad_norm': 2.828125, 'learning_rate': 2.3037354660186754e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2287.31, 'epoch': 0.73}
+ 18%|██████████████████████████████▌                                                                                                                                         | 7280/40080 [1:28:51<6:38:20,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7281/40080 [1:28:52<6:39:00,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7282/40080 [1:28:53<6:38:51,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7283/40080 [1:28:53<6:39:07,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7284/40080 [1:28:54<6:38:50,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7285/40080 [1:28:55<6:39:12,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7286/40080 [1:28:56<6:39:22,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7287/40080 [1:28:56<6:40:09,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7288/40080 [1:28:57<6:39:18,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7289/40080 [1:28:58<6:37:52,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7290/40080 [1:28:59<6:37:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5189, 'grad_norm': 3.046875, 'learning_rate': 2.3032075560159216e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2276.4, 'epoch': 0.73}
+ 18%|██████████████████████████████▌                                                                                                                                         | 7290/40080 [1:28:59<6:37:43,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7291/40080 [1:28:59<6:38:15,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7292/40080 [1:29:00<6:38:24,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7293/40080 [1:29:01<6:37:40,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7294/40080 [1:29:01<6:38:28,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7295/40080 [1:29:02<6:38:09,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7296/40080 [1:29:03<6:38:34,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7297/40080 [1:29:04<6:38:30,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7298/40080 [1:29:04<6:39:10,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7299/40080 [1:29:05<6:38:26,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7300/40080 [1:29:06<6:38:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5787, 'grad_norm': 3.8125, 'learning_rate': 2.302678997639227e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2392.92, 'epoch': 0.73}
+ 18%|██████████████████████████████▌                                                                                                                                         | 7300/40080 [1:29:06<6:38:39,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7301/40080 [1:29:07<6:38:21,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7302/40080 [1:29:07<6:37:33,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7303/40080 [1:29:08<6:38:16,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7304/40080 [1:29:09<6:38:54,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7305/40080 [1:29:09<6:38:35,  1.37it/s] 18%|██████████████████████████████▌                                                                                                                                         | 7306/40080 [1:29:10<6:37:40,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7307/40080 [1:29:11<6:37:28,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7308/40080 [1:29:12<6:36:53,  1.38it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7309/40080 [1:29:12<6:38:08,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7310/40080 [1:29:13<6:38:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5499, 'grad_norm': 2.796875, 'learning_rate': 2.3021497912139818e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2171.75, 'epoch': 0.73}
+ 18%|██████████████████████████████▋                                                                                                                                         | 7310/40080 [1:29:13<6:38:33,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7311/40080 [1:29:14<6:38:40,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7312/40080 [1:29:15<6:38:33,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7313/40080 [1:29:15<6:38:25,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7314/40080 [1:29:16<6:38:41,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7315/40080 [1:29:17<6:39:01,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7316/40080 [1:29:18<6:38:33,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7317/40080 [1:29:18<6:38:11,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7318/40080 [1:29:19<6:38:36,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7319/40080 [1:29:20<6:38:42,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7320/40080 [1:29:20<6:39:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4933, 'grad_norm': 3.125, 'learning_rate': 2.3016199370659743e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2325.68, 'epoch': 0.73}
+ 18%|██████████████████████████████▋                                                                                                                                         | 7320/40080 [1:29:20<6:39:04,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7321/40080 [1:29:21<6:38:48,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7322/40080 [1:29:22<6:38:22,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7323/40080 [1:29:23<6:38:50,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7324/40080 [1:29:23<6:38:10,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7325/40080 [1:29:24<6:38:35,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7326/40080 [1:29:25<6:38:27,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7327/40080 [1:29:26<6:39:02,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7328/40080 [1:29:26<6:38:54,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7329/40080 [1:29:27<6:38:41,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7330/40080 [1:29:28<6:38:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6151, 'grad_norm': 3.09375, 'learning_rate': 2.3010894355213936e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2644.43, 'epoch': 0.73}
+ 18%|██████████████████████████████▋                                                                                                                                         | 7330/40080 [1:29:28<6:38:04,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7331/40080 [1:29:28<6:37:56,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7332/40080 [1:29:29<6:38:12,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7333/40080 [1:29:30<6:38:29,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7334/40080 [1:29:31<6:37:43,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7335/40080 [1:29:31<6:38:15,  1.37it/s] 18%|██████████████████████████████▋                                                                                                                                         | 7336/40080 [1:29:32<6:38:28,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7337/40080 [1:29:33<6:38:27,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7338/40080 [1:29:34<6:38:04,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7339/40080 [1:29:34<6:38:14,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7340/40080 [1:29:35<6:38:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5448, 'grad_norm': 3.515625, 'learning_rate': 2.3005582869068258e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2217.24, 'epoch': 0.73}
+ 18%|██████████████████████████████▊                                                                                                                                         | 7340/40080 [1:29:35<6:38:12,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7341/40080 [1:29:36<6:39:03,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7342/40080 [1:29:36<6:38:24,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7343/40080 [1:29:37<6:38:43,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7344/40080 [1:29:38<6:40:22,  1.36it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7345/40080 [1:29:39<6:40:04,  1.36it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7346/40080 [1:29:39<6:39:40,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7347/40080 [1:29:40<6:38:59,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7348/40080 [1:29:41<6:38:27,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7349/40080 [1:29:42<6:38:28,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7350/40080 [1:29:42<6:38:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.465, 'grad_norm': 2.5, 'learning_rate': 2.3000264915492558e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2644.47, 'epoch': 0.73}
+ 18%|██████████████████████████████▊                                                                                                                                         | 7350/40080 [1:29:42<6:38:19,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7351/40080 [1:29:43<6:40:06,  1.36it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7352/40080 [1:29:44<6:38:54,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7353/40080 [1:29:45<6:38:52,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7354/40080 [1:29:45<6:37:52,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7355/40080 [1:29:46<6:37:45,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7356/40080 [1:29:47<6:37:12,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7357/40080 [1:29:47<6:36:45,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7358/40080 [1:29:48<6:37:14,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7359/40080 [1:29:49<6:36:55,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7360/40080 [1:29:50<6:36:19,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5792, 'grad_norm': 3.265625, 'learning_rate': 2.2994940497760665e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2276.74, 'epoch': 0.73}
+ 18%|██████████████████████████████▊                                                                                                                                         | 7360/40080 [1:29:50<6:36:19,  1.38it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7361/40080 [1:29:50<6:36:48,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7362/40080 [1:29:51<6:36:29,  1.38it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7363/40080 [1:29:52<6:36:56,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7364/40080 [1:29:53<6:36:46,  1.37it/s] 18%|██████████████████████████████▊                                                                                                                                         | 7365/40080 [1:29:53<6:36:39,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7366/40080 [1:29:54<6:36:18,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7367/40080 [1:29:55<6:36:04,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7368/40080 [1:29:55<6:35:18,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7369/40080 [1:29:56<6:35:20,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7370/40080 [1:29:57<6:35:42,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6336, 'grad_norm': 3.921875, 'learning_rate': 2.2989609619150387e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2352.0, 'epoch': 0.74}
+ 18%|██████████████████████████████▉                                                                                                                                         | 7370/40080 [1:29:57<6:35:42,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7371/40080 [1:29:58<6:36:02,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7372/40080 [1:29:58<6:36:00,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7373/40080 [1:29:59<6:36:34,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7374/40080 [1:30:00<6:37:21,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7375/40080 [1:30:01<6:41:18,  1.36it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7376/40080 [1:30:01<6:42:52,  1.35it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7377/40080 [1:30:02<6:41:09,  1.36it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7378/40080 [1:30:03<6:40:38,  1.36it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7379/40080 [1:30:04<6:39:32,  1.36it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7380/40080 [1:30:04<6:38:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5448, 'grad_norm': 4.21875, 'learning_rate': 2.2984272282943515e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2319.48, 'epoch': 0.74}
+ 18%|██████████████████████████████▉                                                                                                                                         | 7380/40080 [1:30:04<6:38:34,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7381/40080 [1:30:05<6:38:35,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7382/40080 [1:30:06<6:38:03,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7383/40080 [1:30:06<6:37:02,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7384/40080 [1:30:07<6:36:36,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7385/40080 [1:30:08<6:36:13,  1.38it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7386/40080 [1:30:09<6:36:59,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7387/40080 [1:30:09<6:36:32,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7388/40080 [1:30:10<6:36:40,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7389/40080 [1:30:11<6:36:53,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7390/40080 [1:30:12<6:37:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5394, 'grad_norm': 2.765625, 'learning_rate': 2.297892849242581e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.45, 'epoch': 0.74}
+ 18%|██████████████████████████████▉                                                                                                                                         | 7390/40080 [1:30:12<6:37:12,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7391/40080 [1:30:12<6:38:15,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7392/40080 [1:30:13<6:39:41,  1.36it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7393/40080 [1:30:14<6:39:01,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7394/40080 [1:30:14<6:38:02,  1.37it/s] 18%|██████████████████████████████▉                                                                                                                                         | 7395/40080 [1:30:15<6:37:58,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7396/40080 [1:30:16<6:37:18,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7397/40080 [1:30:17<6:36:45,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7398/40080 [1:30:17<6:36:36,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7399/40080 [1:30:18<6:36:14,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7400/40080 [1:30:19<6:36:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5814, 'grad_norm': 3.484375, 'learning_rate': 2.2973578250887008e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2458.18, 'epoch': 0.74}
+ 18%|███████████████████████████████                                                                                                                                         | 7400/40080 [1:30:19<6:36:12,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7401/40080 [1:30:20<6:36:58,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7402/40080 [1:30:20<6:36:55,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7403/40080 [1:30:21<6:36:37,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7404/40080 [1:30:22<6:37:19,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7405/40080 [1:30:22<6:36:24,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7406/40080 [1:30:23<6:36:44,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7407/40080 [1:30:24<6:35:59,  1.38it/s] 18%|███████████████████████████████                                                                                                                                         | 7408/40080 [1:30:25<6:36:53,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7409/40080 [1:30:25<6:37:21,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7410/40080 [1:30:26<6:37:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4813, 'grad_norm': 2.671875, 'learning_rate': 2.296822156162081e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2411.48, 'epoch': 0.74}
+ 18%|███████████████████████████████                                                                                                                                         | 7410/40080 [1:30:26<6:37:21,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7411/40080 [1:30:27<6:37:18,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7412/40080 [1:30:28<6:37:56,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7413/40080 [1:30:28<6:37:32,  1.37it/s] 18%|███████████████████████████████                                                                                                                                         | 7414/40080 [1:30:29<6:36:33,  1.37it/s] 19%|███████████████████████████████                                                                                                                                         | 7415/40080 [1:30:30<6:35:53,  1.38it/s] 19%|███████████████████████████████                                                                                                                                         | 7416/40080 [1:30:30<6:36:15,  1.37it/s] 19%|███████████████████████████████                                                                                                                                         | 7417/40080 [1:30:31<6:36:02,  1.37it/s] 19%|███████████████████████████████                                                                                                                                         | 7418/40080 [1:30:32<6:36:10,  1.37it/s] 19%|███████████████████████████████                                                                                                                                         | 7419/40080 [1:30:33<6:35:25,  1.38it/s] 19%|███████████████████████████████                                                                                                                                         | 7420/40080 [1:30:33<6:35:27,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5994, 'grad_norm': 3.125, 'learning_rate': 2.29628584279249e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2220.23, 'epoch': 0.74}
+ 19%|███████████████████████████████                                                                                                                                         | 7420/40080 [1:30:33<6:35:27,  1.38it/s] 19%|███████████████████████████████                                                                                                                                         | 7421/40080 [1:30:34<6:35:45,  1.38it/s] 19%|███████████████████████████████                                                                                                                                         | 7422/40080 [1:30:35<6:36:33,  1.37it/s] 19%|███████████████████████████████                                                                                                                                         | 7423/40080 [1:30:36<6:36:28,  1.37it/s] 19%|███████████████████████████████                                                                                                                                         | 7424/40080 [1:30:36<6:36:06,  1.37it/s] 19%|███████████████████████████████                                                                                                                                         | 7425/40080 [1:30:37<6:35:42,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7426/40080 [1:30:38<6:35:17,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7427/40080 [1:30:38<6:35:33,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7428/40080 [1:30:39<6:34:46,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7429/40080 [1:30:40<6:35:25,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7430/40080 [1:30:41<6:34:57,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4731, 'grad_norm': 4.1875, 'learning_rate': 2.295748885310092e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2265.01, 'epoch': 0.74}
+ 19%|███████████████████████████████▏                                                                                                                                        | 7430/40080 [1:30:41<6:34:57,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7431/40080 [1:30:41<6:35:06,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7432/40080 [1:30:42<6:34:27,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7433/40080 [1:30:43<6:35:04,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7434/40080 [1:30:44<6:35:28,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7435/40080 [1:30:44<6:35:30,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7436/40080 [1:30:45<6:34:42,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7437/40080 [1:30:46<6:35:26,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7438/40080 [1:30:46<6:35:37,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7439/40080 [1:30:47<6:35:57,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7440/40080 [1:30:48<6:35:27,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5564, 'grad_norm': 2.765625, 'learning_rate': 2.2952112840454476e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2495.87, 'epoch': 0.74}
+ 19%|███████████████████████████████▏                                                                                                                                        | 7440/40080 [1:30:48<6:35:27,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7441/40080 [1:30:49<6:36:16,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7442/40080 [1:30:49<6:37:14,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7443/40080 [1:30:50<6:36:24,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7444/40080 [1:30:51<6:36:21,  1.37it/s] 19%|████████████████████���██████████▏                                                                                                                                        | 7445/40080 [1:30:52<6:35:53,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7446/40080 [1:30:52<6:35:49,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7447/40080 [1:30:53<6:35:45,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7448/40080 [1:30:54<6:35:27,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7449/40080 [1:30:54<6:35:55,  1.37it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7450/40080 [1:30:55<6:34:48,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5205, 'grad_norm': 3.3125, 'learning_rate': 2.2946730393295145e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2418.8, 'epoch': 0.74}
+ 19%|███████████████████████████████▏                                                                                                                                        | 7450/40080 [1:30:55<6:34:48,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7451/40080 [1:30:56<6:34:59,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7452/40080 [1:30:57<6:35:21,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7453/40080 [1:30:57<6:35:27,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7454/40080 [1:30:58<6:35:09,  1.38it/s] 19%|███████████████████████████████▏                                                                                                                                        | 7455/40080 [1:30:59<6:35:41,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7456/40080 [1:31:00<6:35:48,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7457/40080 [1:31:00<6:35:38,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7458/40080 [1:31:01<6:35:26,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7459/40080 [1:31:02<6:34:48,  1.38it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7460/40080 [1:31:02<6:35:00,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4855, 'grad_norm': 3.6875, 'learning_rate': 2.2941341514936454e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2295.14, 'epoch': 0.74}
+ 19%|███████████████████████████████▎                                                                                                                                        | 7460/40080 [1:31:02<6:35:00,  1.38it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7461/40080 [1:31:03<6:36:54,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7462/40080 [1:31:04<6:36:56,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7463/40080 [1:31:05<6:36:56,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7464/40080 [1:31:05<6:36:20,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7465/40080 [1:31:06<6:35:39,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7466/40080 [1:31:07<6:36:00,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7467/40080 [1:31:08<6:36:29,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7468/40080 [1:31:08<6:36:37,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7469/40080 [1:31:09<6:36:46,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7470/40080 [1:31:10<6:37:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6616, 'grad_norm': 3.90625, 'learning_rate': 2.2935946208695902e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2271.94, 'epoch': 0.75}
+ 19%|███████████████████████████████▎                                                                                                                                        | 7470/40080 [1:31:10<6:37:00,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7471/40080 [1:31:11<6:38:02,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7472/40080 [1:31:11<6:37:07,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7473/40080 [1:31:12<6:36:02,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7474/40080 [1:31:13<6:36:00,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7475/40080 [1:31:13<6:35:17,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7476/40080 [1:31:14<6:35:26,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7477/40080 [1:31:15<6:35:36,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7478/40080 [1:31:16<6:34:46,  1.38it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7479/40080 [1:31:16<6:35:17,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7480/40080 [1:31:17<6:35:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5925, 'grad_norm': 4.0625, 'learning_rate': 2.2930544477894936e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2558.26, 'epoch': 0.75}
+ 19%|███████████████████████████████▎                                                                                                                                        | 7480/40080 [1:31:17<6:35:23,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7481/40080 [1:31:18<6:36:26,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7482/40080 [1:31:19<6:35:25,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7483/40080 [1:31:19<6:35:20,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7484/40080 [1:31:20<6:35:50,  1.37it/s] 19%|███████████████████████████████▎                                                                                                                                        | 7485/40080 [1:31:21<6:35:53,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7486/40080 [1:31:21<6:35:53,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7487/40080 [1:31:22<6:35:50,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7488/40080 [1:31:23<6:35:14,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7489/40080 [1:31:24<6:35:37,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7490/40080 [1:31:24<6:35:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4796, 'grad_norm': 3.015625, 'learning_rate': 2.2925136325858962e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.03, 'epoch': 0.75}
+ 19%|███████████████████████████████▍                                                                                                                                        | 7490/40080 [1:31:24<6:35:46,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7491/40080 [1:31:25<6:36:21,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7492/40080 [1:31:26<6:36:01,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7493/40080 [1:31:27<6:36:04,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7494/40080 [1:31:27<6:35:49,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7495/40080 [1:31:28<6:36:14,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7496/40080 [1:31:29<6:36:40,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7497/40080 [1:31:29<6:36:34,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7498/40080 [1:31:30<6:36:23,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7499/40080 [1:31:31<6:35:23,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7500/40080 [1:31:32<6:35:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6282, 'grad_norm': 3.890625, 'learning_rate': 2.2919721755917333e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2555.49, 'epoch': 0.75}
+ 19%|███████████████████████████████▍                                                                                                                                        | 7500/40080 [1:31:32<6:35:05,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7501/40080 [1:31:32<6:35:55,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7502/40080 [1:31:33<6:35:34,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7503/40080 [1:31:34<6:35:09,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7504/40080 [1:31:35<6:35:11,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7505/40080 [1:31:35<6:35:10,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7506/40080 [1:31:36<6:35:33,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7507/40080 [1:31:37<6:34:44,  1.38it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7508/40080 [1:31:37<6:34:29,  1.38it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7509/40080 [1:31:38<6:34:24,  1.38it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7510/40080 [1:31:39<6:35:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5501, 'grad_norm': 2.453125, 'learning_rate': 2.291430077140337e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.4, 'epoch': 0.75}
+ 19%|███████████████████████████████▍                                                                                                                                        | 7510/40080 [1:31:39<6:35:12,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7511/40080 [1:31:40<6:35:13,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7512/40080 [1:31:40<6:36:19,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7513/40080 [1:31:41<6:36:43,  1.37it/s] 19%|███████████████████████████████▍                                                                                                                                        | 7514/40080 [1:31:42<6:36:21,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7515/40080 [1:31:43<6:35:34,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7516/40080 [1:31:43<6:35:40,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7517/40080 [1:31:44<6:35:13,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7518/40080 [1:31:45<6:35:33,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7519/40080 [1:31:45<6:36:05,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7520/40080 [1:31:46<6:35:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5462, 'grad_norm': 3.34375, 'learning_rate': 2.2908873375654314e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.49, 'epoch': 0.75}
+ 19%|███████████████████████████████▌                                                                                                                                        | 7520/40080 [1:31:46<6:35:12,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7521/40080 [1:31:47<6:35:25,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7522/40080 [1:31:48<6:34:59,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7523/40080 [1:31:48<6:35:30,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7524/40080 [1:31:49<6:35:11,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7525/40080 [1:31:50<6:36:14,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7526/40080 [1:31:51<6:35:28,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7527/40080 [1:31:51<6:34:57,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7528/40080 [1:31:52<6:34:49,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7529/40080 [1:31:53<6:34:14,  1.38it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7530/40080 [1:31:53<6:34:12,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5414, 'grad_norm': 2.828125, 'learning_rate': 2.290343957201138e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2351.67, 'epoch': 0.75}
+ 19%|███████████████████████████████▌                                                                                                                                        | 7530/40080 [1:31:53<6:34:12,  1.38it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7531/40080 [1:31:54<6:34:50,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7532/40080 [1:31:55<6:35:23,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7533/40080 [1:31:56<6:35:23,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7534/40080 [1:31:56<6:35:13,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7535/40080 [1:31:57<6:35:25,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7536/40080 [1:31:58<6:35:31,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7537/40080 [1:31:59<6:35:21,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7538/40080 [1:31:59<6:35:33,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7539/40080 [1:32:00<6:34:39,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7540/40080 [1:32:01<6:35:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5669, 'grad_norm': 3.703125, 'learning_rate': 2.2897999363819716e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2431.55, 'epoch': 0.75}
+ 19%|███████████████████████████████▌                                                                                                                                        | 7540/40080 [1:32:01<6:35:24,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7541/40080 [1:32:02<6:36:22,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7542/40080 [1:32:02<6:36:10,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7543/40080 [1:32:03<6:36:02,  1.37it/s] 19%|███████████████████████████████▌                                                                                                                                        | 7544/40080 [1:32:04<6:35:57,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7545/40080 [1:32:04<6:36:02,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7546/40080 [1:32:05<6:36:21,  1.37it/s] 19%|██████████████████���████████████▋                                                                                                                                        | 7547/40080 [1:32:06<6:36:39,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7548/40080 [1:32:07<6:37:09,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7549/40080 [1:32:07<6:36:34,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7550/40080 [1:32:08<6:36:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5552, 'grad_norm': 3.046875, 'learning_rate': 2.2892552754428414e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2712.01, 'epoch': 0.75}
+ 19%|███████████████████████████████▋                                                                                                                                        | 7550/40080 [1:32:08<6:36:13,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7551/40080 [1:32:09<6:35:19,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7552/40080 [1:32:10<6:34:15,  1.38it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7553/40080 [1:32:10<6:34:58,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7554/40080 [1:32:11<6:35:13,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7555/40080 [1:32:12<6:35:15,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7556/40080 [1:32:12<6:35:44,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7557/40080 [1:32:13<6:35:46,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7558/40080 [1:32:14<6:35:08,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7559/40080 [1:32:15<6:35:03,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7560/40080 [1:32:15<6:35:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5529, 'grad_norm': 2.84375, 'learning_rate': 2.288709974719051e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2276.27, 'epoch': 0.75}
+ 19%|███████████████████████���███████▋                                                                                                                                        | 7560/40080 [1:32:15<6:35:40,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7561/40080 [1:32:16<6:35:20,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7562/40080 [1:32:17<6:35:30,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7563/40080 [1:32:18<6:35:01,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7564/40080 [1:32:18<6:35:17,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7565/40080 [1:32:19<6:34:44,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7566/40080 [1:32:20<6:35:44,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7567/40080 [1:32:20<6:35:30,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7568/40080 [1:32:21<6:34:53,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7569/40080 [1:32:22<6:34:33,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7570/40080 [1:32:23<6:34:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5499, 'grad_norm': 3.40625, 'learning_rate': 2.2881640345462968e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2387.67, 'epoch': 0.76}
+ 19%|███████████████████████████████▋                                                                                                                                        | 7570/40080 [1:32:23<6:34:03,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7571/40080 [1:32:23<6:35:03,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7572/40080 [1:32:24<6:34:48,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7573/40080 [1:32:25<6:35:07,  1.37it/s] 19%|███████████████████████████████▋                                                                                                                                        | 7574/40080 [1:32:26<6:34:31,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7575/40080 [1:32:26<6:34:23,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7576/40080 [1:32:27<6:34:48,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7577/40080 [1:32:28<6:35:08,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7578/40080 [1:32:28<6:34:29,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7579/40080 [1:32:29<6:34:43,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7580/40080 [1:32:30<6:34:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5291, 'grad_norm': 3.203125, 'learning_rate': 2.2876174552606702e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2293.15, 'epoch': 0.76}
+ 19%|███████████████████████████████▊                                                                                                                                        | 7580/40080 [1:32:30<6:34:46,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7581/40080 [1:32:31<6:34:47,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7582/40080 [1:32:31<6:33:46,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7583/40080 [1:32:32<6:34:21,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7584/40080 [1:32:33<6:33:31,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7585/40080 [1:32:34<6:33:38,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7586/40080 [1:32:34<6:34:26,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7587/40080 [1:32:35<6:34:28,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7588/40080 [1:32:36<6:35:04,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7589/40080 [1:32:36<6:34:16,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7590/40080 [1:32:37<6:33:36,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.497, 'grad_norm': 3.078125, 'learning_rate': 2.2870702371986553e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2539.85, 'epoch': 0.76}
+ 19%|███████████████████████████████▊                                                                                                                                        | 7590/40080 [1:32:37<6:33:36,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7591/40080 [1:32:38<6:34:04,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7592/40080 [1:32:39<6:33:10,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7593/40080 [1:32:39<6:33:14,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7594/40080 [1:32:40<6:33:56,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7595/40080 [1:32:41<6:34:02,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7596/40080 [1:32:42<6:34:40,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7597/40080 [1:32:42<6:34:41,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7598/40080 [1:32:43<6:35:00,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7599/40080 [1:32:44<6:34:16,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7600/40080 [1:32:45<6:34:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5481, 'grad_norm': 4.03125, 'learning_rate': 2.2865223806971296e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2310.48, 'epoch': 0.76}
+ 19%|███████████████████████████████▊                                                                                                                                        | 7600/40080 [1:32:45<6:34:03,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7601/40080 [1:32:45<6:34:37,  1.37it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7602/40080 [1:32:46<6:33:34,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7603/40080 [1:32:47<6:33:31,  1.38it/s] 19%|███████████████████████████████▊                                                                                                                                        | 7604/40080 [1:32:47<6:33:38,  1.38it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7605/40080 [1:32:48<6:33:30,  1.38it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7606/40080 [1:32:49<6:33:37,  1.38it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7607/40080 [1:32:50<6:34:19,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7608/40080 [1:32:50<6:34:42,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7609/40080 [1:32:51<6:34:31,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7610/40080 [1:32:52<6:34:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5349, 'grad_norm': 3.078125, 'learning_rate': 2.2859738860933637e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2495.11, 'epoch': 0.76}
+ 19%|███████████████████████████████▉                                                                                                                                        | 7610/40080 [1:32:52<6:34:26,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7611/40080 [1:32:53<6:34:26,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7612/40080 [1:32:53<6:33:40,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7613/40080 [1:32:54<6:34:02,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7614/40080 [1:32:55<6:33:54,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7615/40080 [1:32:56<7:36:09,  1.19it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7616/40080 [1:32:57<7:17:05,  1.24it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7617/40080 [1:32:57<7:04:15,  1.28it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7618/40080 [1:32:58<6:54:59,  1.30it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7619/40080 [1:32:59<6:48:25,  1.32it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7620/40080 [1:32:59<6:44:27,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.5207, 'grad_norm': 2.203125, 'learning_rate': 2.2854247537250207e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.13, 'epoch': 0.76}
+ 19%|███████████████████████████████▉                                                                                                                                        | 7620/40080 [1:32:59<6:44:27,  1.34it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7621/40080 [1:33:00<6:41:36,  1.35it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7622/40080 [1:33:01<6:39:20,  1.35it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7623/40080 [1:33:02<6:37:26,  1.36it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7624/40080 [1:33:02<6:36:11,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7625/40080 [1:33:03<6:35:56,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7626/40080 [1:33:04<6:35:17,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7627/40080 [1:33:05<6:34:32,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7628/40080 [1:33:05<6:33:56,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7629/40080 [1:33:06<6:33:30,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7630/40080 [1:33:07<6:33:13,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5002, 'grad_norm': 3.671875, 'learning_rate': 2.284874983930157e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.69, 'epoch': 0.76}
+ 19%|███████████████████████████████▉                                                                                                                                        | 7630/40080 [1:33:07<6:33:13,  1.38it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7631/40080 [1:33:07<6:33:57,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7632/40080 [1:33:08<6:33:54,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7633/40080 [1:33:09<6:33:53,  1.37it/s] 19%|███████████████████████████████▉                                                                                                                                        | 7634/40080 [1:33:10<6:34:22,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7635/40080 [1:33:10<6:34:06,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7636/40080 [1:33:11<6:34:48,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7637/40080 [1:33:12<6:34:21,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7638/40080 [1:33:13<6:34:59,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7639/40080 [1:33:13<6:33:58,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7640/40080 [1:33:14<6:33:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.556, 'grad_norm': 2.703125, 'learning_rate': 2.2843245770472206e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2412.17, 'epoch': 0.76}
+ 19%|████████████████████████████████                                                                                                                                        | 7640/40080 [1:33:14<6:33:46,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7641/40080 [1:33:15<6:34:45,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7642/40080 [1:33:15<6:34:01,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7643/40080 [1:33:16<6:33:36,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7644/40080 [1:33:17<6:34:14,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7645/40080 [1:33:18<6:33:46,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7646/40080 [1:33:18<6:33:00,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7647/40080 [1:33:19<6:32:47,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7648/40080 [1:33:20<6:32:49,  1.38it/s] 19%|██████████████��█████████████████                                                                                                                                        | 7649/40080 [1:33:21<6:32:47,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7650/40080 [1:33:21<6:32:36,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5373, 'grad_norm': 2.859375, 'learning_rate': 2.2837735334150522e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.07, 'epoch': 0.76}
+ 19%|████████████████████████████████                                                                                                                                        | 7650/40080 [1:33:21<6:32:36,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7651/40080 [1:33:22<6:32:49,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7652/40080 [1:33:23<6:33:14,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7653/40080 [1:33:23<6:33:26,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7654/40080 [1:33:24<6:32:35,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7655/40080 [1:33:25<6:32:58,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7656/40080 [1:33:26<6:32:46,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7657/40080 [1:33:26<6:33:17,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7658/40080 [1:33:27<6:33:50,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7659/40080 [1:33:28<6:33:42,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7660/40080 [1:33:29<6:32:31,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5064, 'grad_norm': 3.109375, 'learning_rate': 2.283221853372885e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.24, 'epoch': 0.76}
+ 19%|████████████████████████████████                                                                                                                                        | 7660/40080 [1:33:29<6:32:31,  1.38it/s] 19%|████████████████████████████████                                                                                                                                        | 7661/40080 [1:33:29<6:33:32,  1.37it/s] 19%|███████████████████���████████████                                                                                                                                        | 7662/40080 [1:33:30<6:33:41,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7663/40080 [1:33:31<6:33:38,  1.37it/s] 19%|████████████████████████████████                                                                                                                                        | 7664/40080 [1:33:31<6:33:15,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7665/40080 [1:33:32<6:33:21,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7666/40080 [1:33:33<6:33:18,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7667/40080 [1:33:34<6:34:06,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7668/40080 [1:33:34<6:33:56,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7669/40080 [1:33:35<6:33:26,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7670/40080 [1:33:36<6:33:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5419, 'grad_norm': 3.75, 'learning_rate': 2.2826695372603423e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2535.41, 'epoch': 0.77}
+ 19%|████████████████████████████████▏                                                                                                                                       | 7670/40080 [1:33:36<6:33:44,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7671/40080 [1:33:37<6:33:50,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7672/40080 [1:33:37<6:33:03,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7673/40080 [1:33:38<6:32:09,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7674/40080 [1:33:39<6:32:28,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7675/40080 [1:33:39<6:32:47,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7676/40080 [1:33:40<6:33:06,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7677/40080 [1:33:41<6:32:22,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7678/40080 [1:33:42<6:31:52,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7679/40080 [1:33:42<6:31:24,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7680/40080 [1:33:43<6:31:52,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5544, 'grad_norm': 2.40625, 'learning_rate': 2.282116585417441e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.21, 'epoch': 0.77}
+ 19%|████████████████████████████████▏                                                                                                                                       | 7680/40080 [1:33:43<6:31:52,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7681/40080 [1:33:44<6:32:30,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7682/40080 [1:33:45<6:32:35,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7683/40080 [1:33:45<6:33:01,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7684/40080 [1:33:46<6:33:00,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7685/40080 [1:33:47<6:32:04,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7686/40080 [1:33:47<6:32:16,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7687/40080 [1:33:48<6:32:21,  1.38it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7688/40080 [1:33:49<6:32:45,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7689/40080 [1:33:50<6:33:04,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7690/40080 [1:33:50<6:32:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5378, 'grad_norm': 3.109375, 'learning_rate': 2.2815629981845876e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2334.01, 'epoch': 0.77}
+ 19%|████████████████████████████████▏                                                                                                                                       | 7690/40080 [1:33:50<6:32:49,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7691/40080 [1:33:51<6:34:01,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7692/40080 [1:33:52<6:35:25,  1.37it/s] 19%|████████████████████████████████▏                                                                                                                                       | 7693/40080 [1:33:53<6:34:05,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7694/40080 [1:33:53<6:33:49,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7695/40080 [1:33:54<6:34:12,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7696/40080 [1:33:55<6:33:36,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7697/40080 [1:33:56<6:33:20,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7698/40080 [1:33:56<6:33:27,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7699/40080 [1:33:57<6:33:26,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7700/40080 [1:33:58<6:32:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5439, 'grad_norm': 4.28125, 'learning_rate': 2.2810087759025816e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.19, 'epoch': 0.77}
+ 19%|████████████████████████████████▎                                                                                                                                       | 7700/40080 [1:33:58<6:32:56,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7701/40080 [1:33:58<6:35:10,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7702/40080 [1:33:59<6:35:09,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7703/40080 [1:34:00<6:33:52,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7704/40080 [1:34:01<6:34:03,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7705/40080 [1:34:01<6:34:14,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7706/40080 [1:34:02<6:33:46,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7707/40080 [1:34:03<6:34:07,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7708/40080 [1:34:04<6:33:44,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7709/40080 [1:34:04<6:34:27,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7710/40080 [1:34:05<6:34:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5336, 'grad_norm': 2.796875, 'learning_rate': 2.2804539189126114e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2568.44, 'epoch': 0.77}
+ 19%|████████████████████████████████▎                                                                                                                                       | 7710/40080 [1:34:05<6:34:42,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7711/40080 [1:34:06<6:34:25,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7712/40080 [1:34:06<6:33:53,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7713/40080 [1:34:07<6:33:02,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7714/40080 [1:34:08<6:32:44,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7715/40080 [1:34:09<6:32:12,  1.38it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7716/40080 [1:34:09<6:32:10,  1.38it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7717/40080 [1:34:10<6:32:03,  1.38it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7718/40080 [1:34:11<6:33:16,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7719/40080 [1:34:12<6:32:26,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7720/40080 [1:34:12<6:31:41,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4611, 'grad_norm': 2.875, 'learning_rate': 2.279898427556258e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2355.85, 'epoch': 0.77}
+ 19%|████████████████████████████████▎                                                                                                                                       | 7720/40080 [1:34:12<6:31:41,  1.38it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7721/40080 [1:34:13<6:33:12,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7722/40080 [1:34:14<6:32:34,  1.37it/s] 19%|████████████████████████████████▎                                                                                                                                       | 7723/40080 [1:34:14<6:33:04,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7724/40080 [1:34:15<6:33:01,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7725/40080 [1:34:16<6:33:08,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7726/40080 [1:34:17<6:33:02,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7727/40080 [1:34:17<6:33:08,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7728/40080 [1:34:18<6:32:58,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7729/40080 [1:34:19<6:32:33,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7730/40080 [1:34:20<6:32:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5298, 'grad_norm': 2.859375, 'learning_rate': 2.279342302175491e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.22, 'epoch': 0.77}
+ 19%|████████████████████████████████▍                                                                                                                                       | 7730/40080 [1:34:20<6:32:19,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7731/40080 [1:34:20<6:32:44,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7732/40080 [1:34:21<6:32:57,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7733/40080 [1:34:22<6:32:08,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7734/40080 [1:34:22<6:32:05,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7735/40080 [1:34:23<6:31:17,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7736/40080 [1:34:24<6:31:28,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7737/40080 [1:34:25<6:31:56,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7738/40080 [1:34:25<6:31:53,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7739/40080 [1:34:26<6:31:32,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7740/40080 [1:34:27<6:30:49,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5819, 'grad_norm': 3.65625, 'learning_rate': 2.2787855431126725e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.88, 'epoch': 0.77}
+ 19%|████████████████████████████████▍                                                                                                                                       | 7740/40080 [1:34:27<6:30:49,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7741/40080 [1:34:28<6:30:55,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7742/40080 [1:34:28<6:30:40,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7743/40080 [1:34:29<6:30:16,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7744/40080 [1:34:30<6:31:02,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7745/40080 [1:34:30<6:31:18,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7746/40080 [1:34:31<6:30:53,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7747/40080 [1:34:32<6:31:14,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7748/40080 [1:34:33<6:31:29,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7749/40080 [1:34:33<6:31:45,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7750/40080 [1:34:34<6:31:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5648, 'grad_norm': 3.4375, 'learning_rate': 2.2782281507105536e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.94, 'epoch': 0.77}
+ 19%|████████████████████████████████▍                                                                                                                                       | 7750/40080 [1:34:34<6:31:50,  1.38it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7751/40080 [1:34:35<6:32:56,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7752/40080 [1:34:36<6:32:40,  1.37it/s] 19%|████████████████████████████████▍                                                                                                                                       | 7753/40080 [1:34:36<6:32:00,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7754/40080 [1:34:37<6:31:38,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7755/40080 [1:34:38<6:31:47,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7756/40080 [1:34:38<6:31:42,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7757/40080 [1:34:39<6:31:32,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7758/40080 [1:34:40<6:31:06,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7759/40080 [1:34:41<6:31:43,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7760/40080 [1:34:41<6:30:59,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5873, 'grad_norm': 3.984375, 'learning_rate': 2.2776701253122746e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2538.55, 'epoch': 0.77}
+ 19%|████████████████████████████████▌                                                                                                                                       | 7760/40080 [1:34:41<6:30:59,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7761/40080 [1:34:42<6:31:12,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7762/40080 [1:34:43<6:30:37,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7763/40080 [1:34:44<6:31:09,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7764/40080 [1:34:44<6:31:26,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7765/40080 [1:34:45<6:31:05,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7766/40080 [1:34:46<6:30:55,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7767/40080 [1:34:46<6:30:09,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7768/40080 [1:34:47<6:30:08,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7769/40080 [1:34:48<6:30:16,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7770/40080 [1:34:49<6:30:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5665, 'grad_norm': 4.15625, 'learning_rate': 2.2771114672613665e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2249.96, 'epoch': 0.78}
+ 19%|████████████████████████████████▌                                                                                                                                       | 7770/40080 [1:34:49<6:30:46,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7771/40080 [1:34:49<6:32:45,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7772/40080 [1:34:50<6:32:49,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7773/40080 [1:34:51<6:32:25,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7774/40080 [1:34:52<6:31:20,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7775/40080 [1:34:52<6:31:03,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7776/40080 [1:34:53<6:30:56,  1.38it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7777/40080 [1:34:54<6:31:35,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7778/40080 [1:34:54<6:31:57,  1.37it/s] 19%|���███████████████████████████████▌                                                                                                                                       | 7779/40080 [1:34:55<6:31:56,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7780/40080 [1:34:56<6:31:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5088, 'grad_norm': 2.203125, 'learning_rate': 2.27655217690175e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.63, 'epoch': 0.78}
+ 19%|████████████████████████████████▌                                                                                                                                       | 7780/40080 [1:34:56<6:31:45,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7781/40080 [1:34:57<6:32:45,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7782/40080 [1:34:57<6:33:03,  1.37it/s] 19%|████████████████████████████████▌                                                                                                                                       | 7783/40080 [1:34:58<6:33:07,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7784/40080 [1:34:59<6:32:23,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7785/40080 [1:35:00<6:32:19,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7786/40080 [1:35:00<6:32:36,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7787/40080 [1:35:01<6:31:54,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7788/40080 [1:35:02<6:31:20,  1.38it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7789/40080 [1:35:02<6:31:54,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7790/40080 [1:35:03<6:31:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5716, 'grad_norm': 2.625, 'learning_rate': 2.2759922545777333e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.44, 'epoch': 0.78}
+ 19%|████████████████████████████████▋                                                                                                                                       | 7790/40080 [1:35:03<6:31:46,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7791/40080 [1:35:04<6:31:15,  1.38it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7792/40080 [1:35:05<6:31:32,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7793/40080 [1:35:05<6:31:24,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7794/40080 [1:35:06<6:31:33,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7795/40080 [1:35:07<6:32:28,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7796/40080 [1:35:08<6:32:36,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7797/40080 [1:35:08<6:32:03,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7798/40080 [1:35:09<6:31:55,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7799/40080 [1:35:10<6:31:54,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7800/40080 [1:35:10<6:31:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5654, 'grad_norm': 2.953125, 'learning_rate': 2.2754317006340163e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2439.62, 'epoch': 0.78}
+ 19%|████████████████████████████████▋                                                                                                                                       | 7800/40080 [1:35:10<6:31:55,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7801/40080 [1:35:11<6:32:35,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7802/40080 [1:35:12<6:31:53,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7803/40080 [1:35:13<6:31:38,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7804/40080 [1:35:13<6:31:45,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7805/40080 [1:35:14<6:32:02,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7806/40080 [1:35:15<6:31:54,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7807/40080 [1:35:16<6:31:15,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7808/40080 [1:35:16<6:30:39,  1.38it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7809/40080 [1:35:17<6:31:18,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7810/40080 [1:35:18<6:31:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5326, 'grad_norm': 3.015625, 'learning_rate': 2.2748705154156854e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2454.17, 'epoch': 0.78}
+ 19%|████████████████████████████████▋                                                                                                                                       | 7810/40080 [1:35:18<6:31:40,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7811/40080 [1:35:18<6:32:20,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7812/40080 [1:35:19<6:32:11,  1.37it/s] 19%|████████████████████████████████▋                                                                                                                                       | 7813/40080 [1:35:20<6:31:45,  1.37it/s] 19%|████████████████████████████████▊                                                                                                                                       | 7814/40080 [1:35:21<6:32:04,  1.37it/s] 19%|████████████████████████████████▊                                                                                                                                       | 7815/40080 [1:35:21<6:31:52,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7816/40080 [1:35:22<6:31:57,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7817/40080 [1:35:23<6:31:31,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7818/40080 [1:35:24<6:31:15,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7819/40080 [1:35:24<6:31:06,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7820/40080 [1:35:25<6:30:54,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5758, 'grad_norm': 2.84375, 'learning_rate': 2.2743086992682168e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2393.95, 'epoch': 0.78}
+ 20%|████████████████████████████████▊                                                                                                                                       | 7820/40080 [1:35:25<6:30:54,  1.38it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7821/40080 [1:35:26<6:31:39,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7822/40080 [1:35:26<6:31:22,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7823/40080 [1:35:27<6:32:12,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7824/40080 [1:35:28<6:32:36,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7825/40080 [1:35:29<6:33:06,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7826/40080 [1:35:29<6:33:33,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7827/40080 [1:35:30<6:33:41,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7828/40080 [1:35:31<6:33:27,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7829/40080 [1:35:32<6:33:05,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7830/40080 [1:35:32<6:32:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5469, 'grad_norm': 2.421875, 'learning_rate': 2.2737462525374747e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.24, 'epoch': 0.78}
+ 20%|████████████████████████████████▊                                                                                                                                       | 7830/40080 [1:35:32<6:32:47,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7831/40080 [1:35:33<6:32:56,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7832/40080 [1:35:34<6:32:47,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7833/40080 [1:35:35<6:31:30,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7834/40080 [1:35:35<6:31:20,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7835/40080 [1:35:36<6:31:42,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7836/40080 [1:35:37<6:30:53,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7837/40080 [1:35:37<6:31:05,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7838/40080 [1:35:38<6:30:39,  1.38it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7839/40080 [1:35:39<6:31:10,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7840/40080 [1:35:40<6:31:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5348, 'grad_norm': 4.0, 'learning_rate': 2.273183175569712e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2306.04, 'epoch': 0.78}
+ 20%|████████████████████████████████▊                                                                                                                                       | 7840/40080 [1:35:40<6:31:21,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7841/40080 [1:35:40<6:31:38,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7842/40080 [1:35:41<6:31:35,  1.37it/s] 20%|████████████████████████████████▊                                                                                                                                       | 7843/40080 [1:35:42<6:31:47,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7844/40080 [1:35:43<6:31:28,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7845/40080 [1:35:43<6:31:08,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7846/40080 [1:35:44<6:31:09,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7847/40080 [1:35:45<6:31:16,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7848/40080 [1:35:45<6:31:27,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7849/40080 [1:35:46<6:32:04,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7850/40080 [1:35:47<6:32:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5661, 'grad_norm': 3.140625, 'learning_rate': 2.272619468711569e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.93, 'epoch': 0.78}
+ 20%|████████████████████████████████▉                                                                                                                                       | 7850/40080 [1:35:47<6:32:15,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7851/40080 [1:35:48<6:32:18,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7852/40080 [1:35:48<6:32:58,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7853/40080 [1:35:49<6:32:32,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7854/40080 [1:35:50<6:32:03,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7855/40080 [1:35:51<6:31:59,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7856/40080 [1:35:51<6:31:12,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7857/40080 [1:35:52<6:31:45,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7858/40080 [1:35:53<6:31:18,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7859/40080 [1:35:53<6:31:15,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7860/40080 [1:35:54<6:31:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5905, 'grad_norm': 3.578125, 'learning_rate': 2.272055132310074e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2366.89, 'epoch': 0.78}
+ 20%|████████████████████████████████▉                                                                                                                                       | 7860/40080 [1:35:54<6:31:17,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7861/40080 [1:35:55<6:31:19,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7862/40080 [1:35:56<6:31:44,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7863/40080 [1:35:56<6:31:37,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7864/40080 [1:35:57<6:31:35,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7865/40080 [1:35:58<6:31:10,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7866/40080 [1:35:59<6:31:14,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7867/40080 [1:35:59<6:31:11,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7868/40080 [1:36:00<6:31:00,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7869/40080 [1:36:01<6:31:45,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7870/40080 [1:36:02<6:31:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5423, 'grad_norm': 2.828125, 'learning_rate': 2.271490166712643e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2471.86, 'epoch': 0.79}
+ 20%|████████████████████████████████▉                                                                                                                                       | 7870/40080 [1:36:02<6:31:56,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7871/40080 [1:36:02<6:31:23,  1.37it/s] 20%|████████████████████████████████▉                                                                                                                                       | 7872/40080 [1:36:03<6:32:22,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7873/40080 [1:36:04<6:32:02,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7874/40080 [1:36:04<6:32:17,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7875/40080 [1:36:05<6:32:21,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7876/40080 [1:36:06<6:32:32,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7877/40080 [1:36:07<6:32:04,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7878/40080 [1:36:07<6:31:15,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7879/40080 [1:36:08<6:30:44,  1.37it/s] 20%|██████████████████���██████████████                                                                                                                                       | 7880/40080 [1:36:09<6:30:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.579, 'grad_norm': 3.359375, 'learning_rate': 2.270924572267079e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2515.07, 'epoch': 0.79}
+ 20%|█████████████████████████████████                                                                                                                                       | 7880/40080 [1:36:09<6:30:33,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7881/40080 [1:36:10<6:30:19,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7882/40080 [1:36:10<6:30:41,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7883/40080 [1:36:11<6:29:42,  1.38it/s] 20%|█████████████████████████████████                                                                                                                                       | 7884/40080 [1:36:12<6:30:16,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7885/40080 [1:36:12<6:29:59,  1.38it/s] 20%|█████████████████████████████████                                                                                                                                       | 7886/40080 [1:36:13<6:31:01,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7887/40080 [1:36:14<6:31:06,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7888/40080 [1:36:15<6:30:07,  1.38it/s] 20%|█████████████████████████████████                                                                                                                                       | 7889/40080 [1:36:15<6:30:21,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7890/40080 [1:36:16<6:30:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5856, 'grad_norm': 3.53125, 'learning_rate': 2.2703583493215726e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2386.43, 'epoch': 0.79}
+ 20%|█████████████████████████████████                                                                                                                                       | 7890/40080 [1:36:16<6:30:52,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7891/40080 [1:36:17<6:31:15,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7892/40080 [1:36:18<6:30:10,  1.37it/s] 20%|█████████████��███████████████████                                                                                                                                       | 7893/40080 [1:36:18<6:30:42,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7894/40080 [1:36:19<6:31:14,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7895/40080 [1:36:20<6:31:42,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7896/40080 [1:36:20<6:30:58,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7897/40080 [1:36:21<6:31:19,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7898/40080 [1:36:22<6:30:43,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7899/40080 [1:36:23<6:31:14,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7900/40080 [1:36:23<6:30:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5594, 'grad_norm': 2.953125, 'learning_rate': 2.269791498224701e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2442.99, 'epoch': 0.79}
+ 20%|█████████████████████████████████                                                                                                                                       | 7900/40080 [1:36:23<6:30:50,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7901/40080 [1:36:24<6:30:58,  1.37it/s] 20%|█████████████████████████████████                                                                                                                                       | 7902/40080 [1:36:25<6:31:02,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7903/40080 [1:36:26<6:31:22,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7904/40080 [1:36:26<6:31:02,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7905/40080 [1:36:27<6:31:07,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7906/40080 [1:36:28<6:30:43,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7907/40080 [1:36:28<6:30:24,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7908/40080 [1:36:29<6:29:51,  1.38it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7909/40080 [1:36:30<6:29:25,  1.38it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7910/40080 [1:36:31<6:30:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4759, 'grad_norm': 2.25, 'learning_rate': 2.2692240193254276e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.48, 'epoch': 0.79}
+ 20%|█████████████████████████████████▏                                                                                                                                      | 7910/40080 [1:36:31<6:30:08,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7911/40080 [1:36:31<6:30:33,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7912/40080 [1:36:32<6:31:16,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7913/40080 [1:36:33<6:30:50,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7914/40080 [1:36:34<6:30:41,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7915/40080 [1:36:34<6:29:50,  1.38it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7916/40080 [1:36:35<6:30:01,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7917/40080 [1:36:36<6:30:28,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7918/40080 [1:36:36<6:29:52,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7919/40080 [1:36:37<6:30:32,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7920/40080 [1:36:38<6:29:33,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5096, 'grad_norm': 3.171875, 'learning_rate': 2.268655912973104e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2379.89, 'epoch': 0.79}
+ 20%|█████████████████████████████████▏                                                                                                                                      | 7920/40080 [1:36:38<6:29:33,  1.38it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7921/40080 [1:36:39<6:30:20,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7922/40080 [1:36:39<6:30:33,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7923/40080 [1:36:40<6:29:41,  1.38it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7924/40080 [1:36:41<6:30:02,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7925/40080 [1:36:42<6:30:01,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7926/40080 [1:36:42<6:30:30,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7927/40080 [1:36:43<6:29:54,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7928/40080 [1:36:44<6:30:07,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7929/40080 [1:36:44<6:30:01,  1.37it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7930/40080 [1:36:45<6:29:15,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4953, 'grad_norm': 2.90625, 'learning_rate': 2.268087179517466e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2336.16, 'epoch': 0.79}
+ 20%|█████████████████████████████████▏                                                                                                                                      | 7930/40080 [1:36:45<6:29:15,  1.38it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7931/40080 [1:36:46<6:29:39,  1.38it/s] 20%|█████████████████████████████████▏                                                                                                                                      | 7932/40080 [1:36:47<6:29:54,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7933/40080 [1:36:47<6:29:46,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7934/40080 [1:36:48<6:29:31,  1.38it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7935/40080 [1:36:49<6:30:07,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7936/40080 [1:36:50<6:30:28,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7937/40080 [1:36:50<6:29:55,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7938/40080 [1:36:51<6:29:22,  1.38it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7939/40080 [1:36:52<6:29:26,  1.38it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7940/40080 [1:36:52<6:29:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5291, 'grad_norm': 4.34375, 'learning_rate': 2.267517819308636e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2167.25, 'epoch': 0.79}
+ 20%|█████████████████████████████████▎                                                                                                                                      | 7940/40080 [1:36:52<6:29:06,  1.38it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7941/40080 [1:36:53<6:30:35,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7942/40080 [1:36:54<6:31:12,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7943/40080 [1:36:55<6:30:53,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7944/40080 [1:36:55<6:30:14,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7945/40080 [1:36:56<6:30:24,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7946/40080 [1:36:57<6:30:14,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7947/40080 [1:36:58<6:29:43,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7948/40080 [1:36:58<6:30:40,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7949/40080 [1:36:59<6:31:09,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7950/40080 [1:37:00<6:30:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.514, 'grad_norm': 3.578125, 'learning_rate': 2.266947832697124e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2383.76, 'epoch': 0.79}
+ 20%|█████████████████████████████████▎                                                                                                                                      | 7950/40080 [1:37:00<6:30:48,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7951/40080 [1:37:01<6:30:31,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7952/40080 [1:37:01<6:31:07,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7953/40080 [1:37:02<6:30:17,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7954/40080 [1:37:03<6:30:14,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7955/40080 [1:37:03<6:30:21,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7956/40080 [1:37:04<6:30:47,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7957/40080 [1:37:05<6:30:54,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7958/40080 [1:37:06<6:29:34,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7959/40080 [1:37:06<6:29:55,  1.37it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7960/40080 [1:37:07<6:32:56,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5056, 'grad_norm': 2.71875, 'learning_rate': 2.2663772200338232e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2417.16, 'epoch': 0.79}
+ 20%|█████████████████████████████████▎                                                                                                                                      | 7960/40080 [1:37:07<6:32:56,  1.36it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7961/40080 [1:37:08<6:32:59,  1.36it/s] 20%|█████████████████████████████████▎                                                                                                                                      | 7962/40080 [1:37:09<6:32:04,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7963/40080 [1:37:09<6:31:57,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7964/40080 [1:37:10<6:31:42,  1.37it/s] 20%|██████████████████████████████��██▍                                                                                                                                      | 7965/40080 [1:37:11<6:31:07,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7966/40080 [1:37:11<6:30:24,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7967/40080 [1:37:12<6:30:15,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7968/40080 [1:37:13<6:30:02,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7969/40080 [1:37:14<6:30:07,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7970/40080 [1:37:14<6:30:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6493, 'grad_norm': 3.34375, 'learning_rate': 2.2658059816700135e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.21, 'epoch': 0.8}
+ 20%|█████████████████████████████████▍                                                                                                                                      | 7970/40080 [1:37:14<6:30:22,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7971/40080 [1:37:15<6:33:38,  1.36it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7972/40080 [1:37:16<6:36:51,  1.35it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7973/40080 [1:37:17<6:38:48,  1.34it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7974/40080 [1:37:17<6:38:48,  1.34it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7975/40080 [1:37:18<6:36:03,  1.35it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7976/40080 [1:37:19<6:34:09,  1.36it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7977/40080 [1:37:20<6:32:59,  1.36it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7978/40080 [1:37:20<6:32:27,  1.36it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7979/40080 [1:37:21<6:31:46,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7980/40080 [1:37:22<6:31:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5632, 'grad_norm': 2.828125, 'learning_rate': 2.26523411795736e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2692.3, 'epoch': 0.8}
+ 20%|█████████████████████████████████▍                                                                                                                                      | 7980/40080 [1:37:22<6:31:20,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7981/40080 [1:37:23<6:31:13,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7982/40080 [1:37:23<6:32:53,  1.36it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7983/40080 [1:37:24<6:35:33,  1.35it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7984/40080 [1:37:25<6:37:59,  1.34it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7985/40080 [1:37:26<6:38:37,  1.34it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7986/40080 [1:37:26<6:40:31,  1.34it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7987/40080 [1:37:27<6:37:47,  1.34it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7988/40080 [1:37:28<6:35:27,  1.35it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7989/40080 [1:37:28<6:33:21,  1.36it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7990/40080 [1:37:29<6:31:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5083, 'grad_norm': 3.3125, 'learning_rate': 2.2646616292479123e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2592.2, 'epoch': 0.8}
+ 20%|█████████████████████████████████▍                                                                                                                                      | 7990/40080 [1:37:29<6:31:43,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7991/40080 [1:37:30<6:31:08,  1.37it/s] 20%|█████████████████████████████████▍                                                                                                                                      | 7992/40080 [1:37:31<6:29:41,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 7993/40080 [1:37:31<6:30:02,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 7994/40080 [1:37:32<6:29:41,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 7995/40080 [1:37:33<6:29:42,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 7996/40080 [1:37:34<6:29:04,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 7997/40080 [1:37:34<6:28:47,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 7998/40080 [1:37:35<6:28:05,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 7999/40080 [1:37:36<6:28:31,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8000/40080 [1:37:36<6:28:37,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5337, 'grad_norm': 3.40625, 'learning_rate': 2.2640885158941048e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2286.79, 'epoch': 0.8}
+ 20%|█████████████████████████████████▌                                                                                                                                      | 8000/40080 [1:37:36<6:28:37,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8001/40080 [1:37:37<6:29:15,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8002/40080 [1:37:38<6:29:11,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8003/40080 [1:37:39<6:29:33,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8004/40080 [1:37:39<6:29:51,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8005/40080 [1:37:40<6:29:04,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8006/40080 [1:37:41<6:28:51,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8007/40080 [1:37:42<6:28:50,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8008/40080 [1:37:42<6:28:38,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8009/40080 [1:37:43<6:28:38,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8010/40080 [1:37:44<6:29:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5901, 'grad_norm': 3.421875, 'learning_rate': 2.2635147782487564e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2327.43, 'epoch': 0.8}
+ 20%|█████████████████████████████████▌                                                                                                                                      | 8010/40080 [1:37:44<6:29:47,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8011/40080 [1:37:44<6:29:46,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8012/40080 [1:37:45<6:29:27,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8013/40080 [1:37:46<6:29:23,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8014/40080 [1:37:47<6:28:45,  1.37it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8015/40080 [1:37:47<6:28:22,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8016/40080 [1:37:48<6:28:20,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8017/40080 [1:37:49<6:28:37,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8018/40080 [1:37:50<6:28:09,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8019/40080 [1:37:50<6:27:26,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8020/40080 [1:37:51<6:27:01,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5278, 'grad_norm': 3.375, 'learning_rate': 2.2629404166650715e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2389.36, 'epoch': 0.8}
+ 20%|█████████████████████████████████▌                                                                                                                                      | 8020/40080 [1:37:51<6:27:01,  1.38it/s] 20%|█████████████████████████████████▌                                                                                                                                      | 8021/40080 [1:37:52<6:28:00,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8022/40080 [1:37:52<6:27:40,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8023/40080 [1:37:53<6:27:03,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8024/40080 [1:37:54<6:27:06,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8025/40080 [1:37:55<6:27:10,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8026/40080 [1:37:55<6:27:06,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8027/40080 [1:37:56<6:26:44,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8028/40080 [1:37:57<6:27:14,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8029/40080 [1:37:58<6:26:17,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8030/40080 [1:37:58<6:27:10,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5206, 'grad_norm': 2.75, 'learning_rate': 2.2623654314966368e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2467.61, 'epoch': 0.8}
+ 20%|█████████████████████████████████▋                                                                                                                                      | 8030/40080 [1:37:58<6:27:10,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8031/40080 [1:37:59<6:27:22,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8032/40080 [1:38:00<6:27:33,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8033/40080 [1:38:00<6:27:42,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8034/40080 [1:38:01<6:27:51,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8035/40080 [1:38:02<6:27:36,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8036/40080 [1:38:03<6:27:32,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8037/40080 [1:38:03<6:27:37,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8038/40080 [1:38:04<6:27:02,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8039/40080 [1:38:05<6:27:09,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8040/40080 [1:38:05<6:26:20,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5809, 'grad_norm': 3.5625, 'learning_rate': 2.2617898230974243e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.73, 'epoch': 0.8}
+ 20%|█████████████████████████████████▋                                                                                                                                      | 8040/40080 [1:38:05<6:26:20,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8041/40080 [1:38:06<6:27:34,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8042/40080 [1:38:07<6:26:57,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8043/40080 [1:38:08<6:26:53,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8044/40080 [1:38:08<6:26:32,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8045/40080 [1:38:09<6:27:14,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8046/40080 [1:38:10<6:27:50,  1.38it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8047/40080 [1:38:11<6:29:57,  1.37it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8048/40080 [1:38:11<6:32:36,  1.36it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8049/40080 [1:38:12<6:34:54,  1.35it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8050/40080 [1:38:13<6:34:05,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5971, 'grad_norm': 2.5625, 'learning_rate': 2.261213591821789e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2309.69, 'epoch': 0.8}
+ 20%|█████████████████████████████████▋                                                                                                                                      | 8050/40080 [1:38:13<6:34:05,  1.35it/s] 20%|█████████████████████████████████▋                                                                                                                                      | 8051/40080 [1:38:14<6:32:21,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8052/40080 [1:38:14<6:31:03,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8053/40080 [1:38:15<6:30:15,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8054/40080 [1:38:16<6:32:24,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8055/40080 [1:38:16<6:30:47,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8056/40080 [1:38:17<6:30:30,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8057/40080 [1:38:18<6:29:30,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8058/40080 [1:38:19<6:29:08,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8059/40080 [1:38:19<6:29:35,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8060/40080 [1:38:20<6:30:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5802, 'grad_norm': 2.578125, 'learning_rate': 2.2606367380244688e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2442.32, 'epoch': 0.8}
+ 20%|█████████████████████████████████▊                                                                                                                                      | 8060/40080 [1:38:20<6:30:06,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8061/40080 [1:38:21<6:29:55,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8062/40080 [1:38:22<6:30:41,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8063/40080 [1:38:22<6:31:18,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8064/40080 [1:38:23<6:31:04,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8065/40080 [1:38:24<6:36:32,  1.35it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8066/40080 [1:38:25<6:33:40,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8067/40080 [1:38:25<6:31:38,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8068/40080 [1:38:26<6:30:32,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8069/40080 [1:38:27<6:30:37,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8070/40080 [1:38:27<6:31:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6028, 'grad_norm': 2.796875, 'learning_rate': 2.2600592620605865e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2379.37, 'epoch': 0.81}
+ 20%|█████████████████████████████████▊                                                                                                                                      | 8070/40080 [1:38:27<6:31:04,  1.36it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8071/40080 [1:38:28<6:30:03,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8072/40080 [1:38:29<6:29:34,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8073/40080 [1:38:30<6:29:12,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8074/40080 [1:38:30<6:28:30,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8075/40080 [1:38:31<6:28:18,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8076/40080 [1:38:32<6:28:32,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8077/40080 [1:38:33<6:28:50,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8078/40080 [1:38:33<6:28:10,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8079/40080 [1:38:34<6:28:28,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8080/40080 [1:38:35<6:28:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5985, 'grad_norm': 3.765625, 'learning_rate': 2.259481164285646e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.18, 'epoch': 0.81}
+ 20%|█████████████████████████████████▊                                                                                                                                      | 8080/40080 [1:38:35<6:28:30,  1.37it/s] 20%|█████████████████████████████████▊                                                                                                                                      | 8081/40080 [1:38:35<6:28:10,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8082/40080 [1:38:36<6:27:14,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8083/40080 [1:38:37<6:27:18,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8084/40080 [1:38:38<6:26:56,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8085/40080 [1:38:38<6:26:46,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8086/40080 [1:38:39<6:26:47,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8087/40080 [1:38:40<6:26:32,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8088/40080 [1:38:41<6:27:18,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8089/40080 [1:38:41<6:28:02,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8090/40080 [1:38:42<6:27:35,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5633, 'grad_norm': 2.703125, 'learning_rate': 2.2589024450555357e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.64, 'epoch': 0.81}
+ 20%|█████████████████████████████████▉                                                                                                                                      | 8090/40080 [1:38:42<6:27:35,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8091/40080 [1:38:43<6:27:03,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8092/40080 [1:38:43<6:27:25,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8093/40080 [1:38:44<6:27:42,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8094/40080 [1:38:45<6:26:49,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8095/40080 [1:38:46<6:26:10,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8096/40080 [1:38:46<6:26:22,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8097/40080 [1:38:47<6:25:51,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8098/40080 [1:38:48<6:26:03,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8099/40080 [1:38:49<6:26:34,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8100/40080 [1:38:49<6:26:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5813, 'grad_norm': 3.71875, 'learning_rate': 2.258323104726525e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2350.55, 'epoch': 0.81}
+ 20%|█████████████████████████████████▉                                                                                                                                      | 8100/40080 [1:38:49<6:26:09,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8101/40080 [1:38:50<6:27:02,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8102/40080 [1:38:51<6:27:02,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8103/40080 [1:38:51<6:28:22,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8104/40080 [1:38:52<6:28:46,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8105/40080 [1:38:53<6:28:52,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8106/40080 [1:38:54<6:29:08,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8107/40080 [1:38:54<6:27:55,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8108/40080 [1:38:55<6:27:41,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8109/40080 [1:38:56<6:27:18,  1.38it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8110/40080 [1:38:57<6:27:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5215, 'grad_norm': 3.6875, 'learning_rate': 2.2577431436552676e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2367.5, 'epoch': 0.81}
+ 20%|█████████████████████████████████▉                                                                                                                                      | 8110/40080 [1:38:57<6:27:36,  1.37it/s] 20%|█████████████████████████████████▉                                                                                                                                      | 8111/40080 [1:38:57<6:28:29,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8112/40080 [1:38:58<6:27:03,  1.38it/s] 20%|██████████████████████████████████                                                                                                                                      | 8113/40080 [1:38:59<6:27:48,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8114/40080 [1:38:59<6:28:18,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8115/40080 [1:39:00<6:28:32,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8116/40080 [1:39:01<6:29:05,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8117/40080 [1:39:02<6:32:31,  1.36it/s] 20%|██████████████████████████████████                                                                                                                                      | 8118/40080 [1:39:02<6:34:26,  1.35it/s] 20%|██████████████████████████████████                                                                                                                                      | 8119/40080 [1:39:03<6:34:26,  1.35it/s] 20%|██████████████████████████████████                                                                                                                                      | 8120/40080 [1:39:04<6:33:27,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5561, 'grad_norm': 3.25, 'learning_rate': 2.2571625621987973e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2550.24, 'epoch': 0.81}
+ 20%|██████████████████████████████████                                                                                                                                      | 8120/40080 [1:39:04<6:33:27,  1.35it/s] 20%|██████████████████████████████████                                                                                                                                      | 8121/40080 [1:39:05<6:32:25,  1.36it/s] 20%|██████████████████████████████████                                                                                                                                      | 8122/40080 [1:39:05<6:30:13,  1.36it/s] 20%|██████████████████████████████████                                                                                                                                      | 8123/40080 [1:39:06<6:29:10,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8124/40080 [1:39:07<6:29:14,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8125/40080 [1:39:08<6:28:32,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8126/40080 [1:39:08<6:28:13,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8127/40080 [1:39:09<6:28:09,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8128/40080 [1:39:10<6:28:17,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8129/40080 [1:39:10<6:28:16,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8130/40080 [1:39:11<6:27:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4721, 'grad_norm': 3.046875, 'learning_rate': 2.2565813607145308e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2424.45, 'epoch': 0.81}
+ 20%|██████████████████████████████████                                                                                                                                      | 8130/40080 [1:39:11<6:27:25,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8131/40080 [1:39:12<6:28:04,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8132/40080 [1:39:13<6:27:18,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8133/40080 [1:39:13<6:27:19,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8134/40080 [1:39:14<6:27:52,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8135/40080 [1:39:15<6:27:46,  1.37it/s] 20%|██████████████████████████████████                                                                                                                                      | 8136/40080 [1:39:16<6:26:49,  1.38it/s] 20%|██████████████████████████████████                                                                                                                                      | 8137/40080 [1:39:16<6:27:10,  1.38it/s] 20%|██████████████████████████████████                                                                                                                                      | 8138/40080 [1:39:17<6:31:15,  1.36it/s] 20%|██████████████████████████████████                                                                                                                                      | 8139/40080 [1:39:18<6:33:14,  1.35it/s] 20%|██████████████████████████████████                                                                                                                                      | 8140/40080 [1:39:18<6:30:49,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5161, 'grad_norm': 3.28125, 'learning_rate': 2.255999539560267e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.62, 'epoch': 0.81}
+ 20%|██████████████████████████████████                                                                                                                                      | 8140/40080 [1:39:18<6:30:49,  1.36it/s] 20%|██████████████████████████████████                                                                                                                                      | 8141/40080 [1:39:19<6:29:58,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8142/40080 [1:39:20<6:29:22,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8143/40080 [1:39:21<6:29:24,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8144/40080 [1:39:21<6:27:50,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8145/40080 [1:39:22<6:27:33,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8146/40080 [1:39:23<6:27:46,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8147/40080 [1:39:24<6:28:11,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8148/40080 [1:39:24<6:27:17,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8149/40080 [1:39:25<6:27:04,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8150/40080 [1:39:26<6:26:43,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5448, 'grad_norm': 3.953125, 'learning_rate': 2.255417099094185e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.71, 'epoch': 0.81}
+ 20%|██████████████████████████████████▏                                                                                                                                     | 8150/40080 [1:39:26<6:26:43,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8151/40080 [1:39:26<6:26:58,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8152/40080 [1:39:27<6:27:17,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8153/40080 [1:39:28<6:26:57,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8154/40080 [1:39:29<6:26:31,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8155/40080 [1:39:29<6:26:12,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8156/40080 [1:39:30<6:26:26,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8157/40080 [1:39:31<6:25:44,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8158/40080 [1:39:32<6:26:40,  1.38it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8159/40080 [1:39:32<6:30:12,  1.36it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8160/40080 [1:39:33<6:30:25,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5371, 'grad_norm': 2.671875, 'learning_rate': 2.254834039674846e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2211.14, 'epoch': 0.81}
+ 20%|██████████████████████████████████▏                                                                                                                                     | 8160/40080 [1:39:33<6:30:25,  1.36it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8161/40080 [1:39:34<6:32:08,  1.36it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8162/40080 [1:39:35<6:34:15,  1.35it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8163/40080 [1:39:35<6:34:19,  1.35it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8164/40080 [1:39:36<6:34:32,  1.35it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8165/40080 [1:39:37<6:32:48,  1.35it/s] 20%|���█████████████████████████████████▏                                                                                                                                     | 8166/40080 [1:39:37<6:31:35,  1.36it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8167/40080 [1:39:38<6:31:16,  1.36it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8168/40080 [1:39:39<6:30:39,  1.36it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8169/40080 [1:39:40<6:30:36,  1.36it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8170/40080 [1:39:40<6:29:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5499, 'grad_norm': 3.078125, 'learning_rate': 2.2542503616611926e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.32, 'epoch': 0.82}
+ 20%|██████████████████████████████████▏                                                                                                                                     | 8170/40080 [1:39:40<6:29:02,  1.37it/s] 20%|██████████████████████████████████▏                                                                                                                                     | 8171/40080 [1:39:41<6:29:29,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8172/40080 [1:39:42<6:29:13,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8173/40080 [1:39:43<6:28:48,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8174/40080 [1:39:43<6:27:50,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8175/40080 [1:39:44<6:27:26,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8176/40080 [1:39:45<6:27:15,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8177/40080 [1:39:46<6:27:07,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8178/40080 [1:39:46<6:28:10,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8179/40080 [1:39:47<6:28:07,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8180/40080 [1:39:48<6:28:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5142, 'grad_norm': 3.1875, 'learning_rate': 2.2536660654125467e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2347.09, 'epoch': 0.82}
+ 20%|██████████████████████████████████▎                                                                                                                                     | 8180/40080 [1:39:48<6:28:39,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8181/40080 [1:39:48<6:29:20,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8182/40080 [1:39:49<6:28:06,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8183/40080 [1:39:50<6:27:27,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8184/40080 [1:39:51<6:26:38,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8185/40080 [1:39:51<6:26:55,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8186/40080 [1:39:52<6:26:52,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8187/40080 [1:39:53<6:27:08,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8188/40080 [1:39:54<6:27:50,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8189/40080 [1:39:54<6:27:17,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8190/40080 [1:39:55<6:26:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.505, 'grad_norm': 2.515625, 'learning_rate': 2.2530811512886132e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2487.67, 'epoch': 0.82}
+ 20%|██████████████████████████████████▎                                                                                                                                     | 8190/40080 [1:39:55<6:26:56,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8191/40080 [1:39:56<6:27:23,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8192/40080 [1:39:56<6:27:22,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8193/40080 [1:39:57<6:27:30,  1.37it/s] 20%|████████��█████████████████████████▎                                                                                                                                     | 8194/40080 [1:39:58<6:27:26,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8195/40080 [1:39:59<6:27:06,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8196/40080 [1:39:59<6:27:25,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8197/40080 [1:40:00<6:26:42,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8198/40080 [1:40:01<6:26:44,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8199/40080 [1:40:02<6:26:35,  1.37it/s] 20%|██████████████████████████████████▎                                                                                                                                     | 8200/40080 [1:40:02<6:26:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5634, 'grad_norm': 2.859375, 'learning_rate': 2.2524956196494752e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.82, 'epoch': 0.82}
+ 20%|██████████████████████████████████▎                                                                                                                                     | 8200/40080 [1:40:02<6:26:33,  1.37it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8201/40080 [1:40:03<6:27:12,  1.37it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8202/40080 [1:40:04<6:26:50,  1.37it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8203/40080 [1:40:04<6:26:40,  1.37it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8204/40080 [1:40:05<6:26:16,  1.38it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8205/40080 [1:40:06<6:25:48,  1.38it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8206/40080 [1:40:07<7:26:19,  1.19it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8207/40080 [1:40:08<7:08:21,  1.24it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8208/40080 [1:40:08<6:54:58,  1.28it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8209/40080 [1:40:09<6:47:01,  1.31it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8210/40080 [1:40:10<6:40:32,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.5937, 'grad_norm': 3.09375, 'learning_rate': 2.2519094708555965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2200.55, 'epoch': 0.82}
+ 20%|██████████████████████████████████▍                                                                                                                                     | 8210/40080 [1:40:10<6:40:32,  1.33it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8211/40080 [1:40:11<6:36:28,  1.34it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8212/40080 [1:40:11<6:33:18,  1.35it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8213/40080 [1:40:12<6:31:29,  1.36it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8214/40080 [1:40:13<6:30:10,  1.36it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8215/40080 [1:40:14<6:28:59,  1.37it/s] 20%|██████████████████████████████████▍                                                                                                                                     | 8216/40080 [1:40:14<6:27:55,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8217/40080 [1:40:15<6:27:25,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8218/40080 [1:40:16<6:27:10,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8219/40080 [1:40:16<6:27:32,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8220/40080 [1:40:17<6:27:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.476, 'grad_norm': 3.09375, 'learning_rate': 2.2513227052678216e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.89, 'epoch': 0.82}
+ 21%|██████████████████████████████████▍                                                                                                                                     | 8220/40080 [1:40:17<6:27:32,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8221/40080 [1:40:18<6:27:32,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8222/40080 [1:40:19<6:27:22,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8223/40080 [1:40:19<6:27:32,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8224/40080 [1:40:20<6:26:25,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8225/40080 [1:40:21<6:26:35,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8226/40080 [1:40:22<6:26:45,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8227/40080 [1:40:22<6:25:27,  1.38it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8228/40080 [1:40:23<6:26:03,  1.38it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8229/40080 [1:40:24<6:26:16,  1.37it/s] 21%|██████████████████████████████████▍                                                                                                                                     | 8230/40080 [1:40:24<6:25:55,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5049, 'grad_norm': 3.109375, 'learning_rate': 2.2507353232473738e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2332.96, 'epoch': 0.82}
+ 21%|██████████████████████████████████▍                                                                                                                                     | 8230/40080 [1:40:24<6:25:55,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8231/40080 [1:40:25<6:27:07,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8232/40080 [1:40:26<6:26:38,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8233/40080 [1:40:27<6:26:43,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8234/40080 [1:40:27<6:26:16,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8235/40080 [1:40:28<6:26:08,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8236/40080 [1:40:29<6:26:05,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8237/40080 [1:40:30<6:25:32,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8238/40080 [1:40:30<6:25:55,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8239/40080 [1:40:31<6:26:11,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8240/40080 [1:40:32<6:26:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5417, 'grad_norm': 2.375, 'learning_rate': 2.2501473251558568e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.4, 'epoch': 0.82}
+ 21%|██████████████████████████████████▌                                                                                                                                     | 8240/40080 [1:40:32<6:26:20,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8241/40080 [1:40:33<6:26:55,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8242/40080 [1:40:33<6:26:44,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8243/40080 [1:40:34<6:27:07,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8244/40080 [1:40:35<6:25:52,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8245/40080 [1:40:35<6:26:09,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8246/40080 [1:40:36<6:25:06,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8247/40080 [1:40:37<6:25:27,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8248/40080 [1:40:38<6:25:28,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8249/40080 [1:40:38<6:25:05,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8250/40080 [1:40:39<6:26:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5401, 'grad_norm': 2.953125, 'learning_rate': 2.2495587113552525e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2392.25, 'epoch': 0.82}
+ 21%|█████████████████████████��████████▌                                                                                                                                     | 8250/40080 [1:40:39<6:26:02,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8251/40080 [1:40:40<6:26:40,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8252/40080 [1:40:41<6:26:37,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8253/40080 [1:40:41<6:25:26,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8254/40080 [1:40:42<6:25:49,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8255/40080 [1:40:43<6:25:19,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8256/40080 [1:40:43<6:25:20,  1.38it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8257/40080 [1:40:44<6:27:47,  1.37it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8258/40080 [1:40:45<6:28:35,  1.36it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8259/40080 [1:40:46<6:28:43,  1.36it/s] 21%|██████████████████████████████████▌                                                                                                                                     | 8260/40080 [1:40:46<6:27:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4868, 'grad_norm': 2.90625, 'learning_rate': 2.2489694822079227e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2354.64, 'epoch': 0.82}
+ 21%|██████████████████████████████████▌                                                                                                                                     | 8260/40080 [1:40:46<6:27:59,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8261/40080 [1:40:47<6:27:36,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8262/40080 [1:40:48<6:27:03,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8263/40080 [1:40:49<6:25:46,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8264/40080 [1:40:49<6:25:58,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8265/40080 [1:40:50<6:26:05,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8266/40080 [1:40:51<6:26:07,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8267/40080 [1:40:51<6:26:16,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8268/40080 [1:40:52<6:25:58,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8269/40080 [1:40:53<6:26:15,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8270/40080 [1:40:54<6:26:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5724, 'grad_norm': 3.578125, 'learning_rate': 2.2483796380766072e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.26, 'epoch': 0.83}
+ 21%|██████████████████████████████████▋                                                                                                                                     | 8270/40080 [1:40:54<6:26:30,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8271/40080 [1:40:54<6:27:26,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8272/40080 [1:40:55<6:27:27,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8273/40080 [1:40:56<6:26:23,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8274/40080 [1:40:57<6:25:54,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8275/40080 [1:40:57<6:26:08,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8276/40080 [1:40:58<6:26:34,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8277/40080 [1:40:59<6:25:51,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8278/40080 [1:40:59<6:26:05,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8279/40080 [1:41:00<6:26:09,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8280/40080 [1:41:01<6:26:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5375, 'grad_norm': 3.015625, 'learning_rate': 2.2477891793244257e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.44, 'epoch': 0.83}
+ 21%|██████████████████████████████████▋                                                                                                                                     | 8280/40080 [1:41:01<6:26:02,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8281/40080 [1:41:02<6:26:40,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8282/40080 [1:41:02<6:26:44,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8283/40080 [1:41:03<6:26:07,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8284/40080 [1:41:04<6:25:55,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8285/40080 [1:41:05<6:26:22,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8286/40080 [1:41:05<6:26:01,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8287/40080 [1:41:06<6:26:25,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8288/40080 [1:41:07<6:26:21,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8289/40080 [1:41:07<6:27:11,  1.37it/s] 21%|██████████████████████████████████▋                                                                                                                                     | 8290/40080 [1:41:08<6:29:00,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4739, 'grad_norm': 2.765625, 'learning_rate': 2.247198106314875e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2475.41, 'epoch': 0.83}
+ 21%|██████████████████████████████████▋                                                                                                                                     | 8290/40080 [1:41:08<6:29:00,  1.36it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8291/40080 [1:41:09<6:28:27,  1.36it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8292/40080 [1:41:10<6:27:42,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8293/40080 [1:41:10<6:27:30,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8294/40080 [1:41:11<6:27:20,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8295/40080 [1:41:12<6:27:35,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8296/40080 [1:41:13<6:26:29,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8297/40080 [1:41:13<6:26:13,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8298/40080 [1:41:14<6:26:50,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8299/40080 [1:41:15<6:26:39,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8300/40080 [1:41:16<6:27:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5512, 'grad_norm': 3.078125, 'learning_rate': 2.24660641941183e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.96, 'epoch': 0.83}
+ 21%|██████████████████████████████████▊                                                                                                                                     | 8300/40080 [1:41:16<6:27:25,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8301/40080 [1:41:16<6:27:35,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8302/40080 [1:41:17<6:27:20,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8303/40080 [1:41:18<6:26:41,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8304/40080 [1:41:18<6:26:16,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8305/40080 [1:41:19<6:26:17,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8306/40080 [1:41:20<6:26:36,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8307/40080 [1:41:21<6:26:54,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8308/40080 [1:41:21<6:26:40,  1.37it/s] 21%|█████���████████████████████████████▊                                                                                                                                     | 8309/40080 [1:41:22<6:26:46,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8310/40080 [1:41:23<6:25:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4953, 'grad_norm': 3.03125, 'learning_rate': 2.2460141189795453e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2393.72, 'epoch': 0.83}
+ 21%|██████████████████████████████████▊                                                                                                                                     | 8310/40080 [1:41:23<6:25:52,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8311/40080 [1:41:24<6:25:40,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8312/40080 [1:41:24<6:25:44,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8313/40080 [1:41:25<6:25:24,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8314/40080 [1:41:26<6:25:19,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8315/40080 [1:41:26<6:25:04,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8316/40080 [1:41:27<6:25:44,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8317/40080 [1:41:28<6:25:38,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8318/40080 [1:41:29<6:25:02,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8319/40080 [1:41:29<6:25:28,  1.37it/s] 21%|██████████████████████████████████▊                                                                                                                                     | 8320/40080 [1:41:30<6:25:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5644, 'grad_norm': 3.453125, 'learning_rate': 2.2454212053826513e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.15, 'epoch': 0.83}
+ 21%|██████████████████████████████████▊                                                                                                                                     | 8320/40080 [1:41:30<6:25:41,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8321/40080 [1:41:31<6:26:12,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8322/40080 [1:41:32<6:24:56,  1.38it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8323/40080 [1:41:32<6:24:49,  1.38it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8324/40080 [1:41:33<6:24:51,  1.38it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8325/40080 [1:41:34<6:24:55,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8326/40080 [1:41:34<6:25:29,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8327/40080 [1:41:35<6:25:37,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8328/40080 [1:41:36<6:25:28,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8329/40080 [1:41:37<6:25:13,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8330/40080 [1:41:37<6:25:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5691, 'grad_norm': 2.375, 'learning_rate': 2.244827678986156e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2324.96, 'epoch': 0.83}
+ 21%|██████████████████████████████████▉                                                                                                                                     | 8330/40080 [1:41:37<6:25:27,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8331/40080 [1:41:38<6:26:45,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8332/40080 [1:41:39<6:26:24,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8333/40080 [1:41:40<6:26:17,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8334/40080 [1:41:40<6:25:47,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8335/40080 [1:41:41<6:25:12,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8336/40080 [1:41:42<6:24:51,  1.37it/s] 21%|██████████████���███████████████████▉                                                                                                                                     | 8337/40080 [1:41:42<6:25:08,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8338/40080 [1:41:43<6:25:44,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8339/40080 [1:41:44<6:26:00,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8340/40080 [1:41:45<6:25:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5595, 'grad_norm': 2.90625, 'learning_rate': 2.244233540155446e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2500.1, 'epoch': 0.83}
+ 21%|██████████████████████████████████▉                                                                                                                                     | 8340/40080 [1:41:45<6:25:19,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8341/40080 [1:41:45<6:25:51,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8342/40080 [1:41:46<6:25:05,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8343/40080 [1:41:47<6:25:13,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8344/40080 [1:41:48<6:25:03,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8345/40080 [1:41:48<6:25:26,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8346/40080 [1:41:49<6:24:56,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8347/40080 [1:41:50<6:24:27,  1.38it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8348/40080 [1:41:51<6:25:09,  1.37it/s] 21%|██████████████████████████████████▉                                                                                                                                     | 8349/40080 [1:41:51<6:24:59,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8350/40080 [1:41:52<6:24:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5794, 'grad_norm': 3.21875, 'learning_rate': 2.2436387892562834e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2307.01, 'epoch': 0.83}
+ 21%|███████████████████████████████████                                                                                                                                     | 8350/40080 [1:41:52<6:24:58,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8351/40080 [1:41:53<6:25:16,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8352/40080 [1:41:53<6:24:34,  1.38it/s] 21%|███████████████████████████████████                                                                                                                                     | 8353/40080 [1:41:54<6:24:51,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8354/40080 [1:41:55<6:25:10,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8355/40080 [1:41:56<6:24:42,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8356/40080 [1:41:56<6:25:01,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8357/40080 [1:41:57<6:24:29,  1.38it/s] 21%|███████████████████████████████████                                                                                                                                     | 8358/40080 [1:41:58<6:24:10,  1.38it/s] 21%|███████████████████████████████████                                                                                                                                     | 8359/40080 [1:41:59<6:24:26,  1.38it/s] 21%|███████████████████████████████████                                                                                                                                     | 8360/40080 [1:41:59<6:24:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4888, 'grad_norm': 3.171875, 'learning_rate': 2.243043426654808e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2174.5, 'epoch': 0.83}
+ 21%|███████████████████████████████████                                                                                                                                     | 8360/40080 [1:41:59<6:24:30,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8361/40080 [1:42:00<6:24:40,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8362/40080 [1:42:01<6:24:43,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8363/40080 [1:42:01<6:26:47,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8364/40080 [1:42:02<6:26:52,  1.37it/s] 21%|███████████████████████��███████████                                                                                                                                     | 8365/40080 [1:42:03<6:26:31,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8366/40080 [1:42:04<6:26:23,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8367/40080 [1:42:04<6:25:55,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8368/40080 [1:42:05<6:25:53,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8369/40080 [1:42:06<6:25:23,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8370/40080 [1:42:07<6:25:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.557, 'grad_norm': 3.328125, 'learning_rate': 2.2424474527175364e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2300.98, 'epoch': 0.84}
+ 21%|███████████████████████████████████                                                                                                                                     | 8370/40080 [1:42:07<6:25:30,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8371/40080 [1:42:07<6:25:20,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8372/40080 [1:42:08<6:25:26,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8373/40080 [1:42:09<6:25:23,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8374/40080 [1:42:09<6:24:35,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8375/40080 [1:42:10<6:25:06,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8376/40080 [1:42:11<6:23:58,  1.38it/s] 21%|███████████████████████████████████                                                                                                                                     | 8377/40080 [1:42:12<6:24:38,  1.37it/s] 21%|███████████████████████████████████                                                                                                                                     | 8378/40080 [1:42:12<6:24:11,  1.38it/s] 21%|███████████████████████████████████                                                                                                                                     | 8379/40080 [1:42:13<6:23:24,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8380/40080 [1:42:14<6:23:44,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5397, 'grad_norm': 3.375, 'learning_rate': 2.2418508678113602e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2091.6, 'epoch': 0.84}
+ 21%|███████████████████████████████████▏                                                                                                                                    | 8380/40080 [1:42:14<6:23:44,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8381/40080 [1:42:15<6:24:34,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8382/40080 [1:42:15<6:23:47,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8383/40080 [1:42:16<6:24:00,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8384/40080 [1:42:17<6:24:14,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8385/40080 [1:42:17<6:24:01,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8386/40080 [1:42:18<6:24:44,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8387/40080 [1:42:19<6:24:50,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8388/40080 [1:42:20<6:24:51,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8389/40080 [1:42:20<6:24:59,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8390/40080 [1:42:21<6:24:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4914, 'grad_norm': 2.765625, 'learning_rate': 2.2412536723035494e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2439.76, 'epoch': 0.84}
+ 21%|███████████████████████████████████▏                                                                                                                                    | 8390/40080 [1:42:21<6:24:51,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8391/40080 [1:42:22<6:25:27,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8392/40080 [1:42:23<6:25:36,  1.37it/s] 21%|██████████████████████��████████████▏                                                                                                                                    | 8393/40080 [1:42:23<6:25:19,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8394/40080 [1:42:24<6:25:02,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8395/40080 [1:42:25<6:24:44,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8396/40080 [1:42:25<6:24:17,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8397/40080 [1:42:26<6:23:43,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8398/40080 [1:42:27<6:23:55,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8399/40080 [1:42:28<6:24:16,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8400/40080 [1:42:28<6:24:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5575, 'grad_norm': 3.4375, 'learning_rate': 2.2406558665617472e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.31, 'epoch': 0.84}
+ 21%|███████████████████████████████████▏                                                                                                                                    | 8400/40080 [1:42:28<6:24:34,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8401/40080 [1:42:29<6:24:53,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8402/40080 [1:42:30<6:25:20,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8403/40080 [1:42:31<6:24:44,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8404/40080 [1:42:31<6:24:24,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8405/40080 [1:42:32<6:24:39,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8406/40080 [1:42:33<6:24:17,  1.37it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8407/40080 [1:42:33<6:23:32,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8408/40080 [1:42:34<6:23:53,  1.38it/s] 21%|███████████████████████████████████▏                                                                                                                                    | 8409/40080 [1:42:35<6:24:09,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8410/40080 [1:42:36<6:23:51,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6244, 'grad_norm': 2.828125, 'learning_rate': 2.2400574509539746e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.69, 'epoch': 0.84}
+ 21%|███████████████████████████████████▎                                                                                                                                    | 8410/40080 [1:42:36<6:23:51,  1.38it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8411/40080 [1:42:36<6:24:16,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8412/40080 [1:42:37<6:23:55,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8413/40080 [1:42:38<6:23:41,  1.38it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8414/40080 [1:42:39<6:23:51,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8415/40080 [1:42:39<6:24:10,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8416/40080 [1:42:40<6:23:38,  1.38it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8417/40080 [1:42:41<6:23:17,  1.38it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8418/40080 [1:42:41<6:24:16,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8419/40080 [1:42:42<6:24:09,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8420/40080 [1:42:43<6:23:42,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5573, 'grad_norm': 3.0625, 'learning_rate': 2.239458425848627e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2431.48, 'epoch': 0.84}
+ 21%|███████████████████████████████████▎                                                                                                                                    | 8420/40080 [1:42:43<6:23:42,  1.38it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8421/40080 [1:42:44<6:24:16,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8422/40080 [1:42:44<6:24:25,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8423/40080 [1:42:45<6:24:24,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8424/40080 [1:42:46<6:24:08,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8425/40080 [1:42:47<6:24:29,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8426/40080 [1:42:47<6:24:21,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8427/40080 [1:42:48<6:23:45,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8428/40080 [1:42:49<6:23:29,  1.38it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8429/40080 [1:42:49<6:23:50,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8430/40080 [1:42:50<6:23:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5312, 'grad_norm': 3.1875, 'learning_rate': 2.2388587916144753e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2605.73, 'epoch': 0.84}
+ 21%|███████████████████████████████████▎                                                                                                                                    | 8430/40080 [1:42:50<6:23:53,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8431/40080 [1:42:51<6:25:28,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8432/40080 [1:42:52<6:24:52,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8433/40080 [1:42:52<6:24:45,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8434/40080 [1:42:53<6:24:20,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8435/40080 [1:42:54<6:23:37,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8436/40080 [1:42:55<6:23:35,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8437/40080 [1:42:55<6:23:17,  1.38it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8438/40080 [1:42:56<6:24:07,  1.37it/s] 21%|███████████████████████████████████▎                                                                                                                                    | 8439/40080 [1:42:57<6:24:51,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8440/40080 [1:42:58<6:24:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6492, 'grad_norm': 4.0625, 'learning_rate': 2.2382585486206656e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.86, 'epoch': 0.84}
+ 21%|███████████████████████████████████▍                                                                                                                                    | 8440/40080 [1:42:58<6:24:59,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8441/40080 [1:42:58<6:24:58,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8442/40080 [1:42:59<6:25:05,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8443/40080 [1:43:00<6:25:10,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8444/40080 [1:43:00<6:24:52,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8445/40080 [1:43:01<6:24:13,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8446/40080 [1:43:02<6:24:18,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8447/40080 [1:43:03<6:23:58,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8448/40080 [1:43:03<6:23:31,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8449/40080 [1:43:04<6:23:48,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8450/40080 [1:43:05<6:23:17,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5238, 'grad_norm': 2.5, 'learning_rate': 2.237657697236718e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2482.93, 'epoch': 0.84}
+ 21%|███████████████████████████████████▍                                                                                                                                    | 8450/40080 [1:43:05<6:23:17,  1.38it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8451/40080 [1:43:06<6:24:39,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8452/40080 [1:43:06<6:24:55,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8453/40080 [1:43:07<6:24:34,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8454/40080 [1:43:08<6:24:05,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8455/40080 [1:43:08<6:24:08,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8456/40080 [1:43:09<6:23:45,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8457/40080 [1:43:10<6:23:09,  1.38it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8458/40080 [1:43:11<6:23:52,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8459/40080 [1:43:11<6:23:45,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8460/40080 [1:43:12<6:24:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5356, 'grad_norm': 3.046875, 'learning_rate': 2.237056237832528e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.26, 'epoch': 0.84}
+ 21%|███████████████████████████████████▍                                                                                                                                    | 8460/40080 [1:43:12<6:24:14,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8461/40080 [1:43:13<6:24:23,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8462/40080 [1:43:14<6:23:56,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8463/40080 [1:43:14<6:23:31,  1.37it/s] 21%|███████████████████████��███████████▍                                                                                                                                    | 8464/40080 [1:43:15<6:23:47,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8465/40080 [1:43:16<6:23:50,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8466/40080 [1:43:16<6:23:13,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8467/40080 [1:43:17<6:23:21,  1.37it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8468/40080 [1:43:18<6:23:09,  1.38it/s] 21%|███████████████████████████████████▍                                                                                                                                    | 8469/40080 [1:43:19<6:23:48,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8470/40080 [1:43:19<6:24:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5406, 'grad_norm': 2.40625, 'learning_rate': 2.236454170778365e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.36, 'epoch': 0.85}
+ 21%|███████████████████████████████████▌                                                                                                                                    | 8470/40080 [1:43:19<6:24:00,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8471/40080 [1:43:20<6:23:57,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8472/40080 [1:43:21<6:24:26,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8473/40080 [1:43:22<6:23:34,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8474/40080 [1:43:22<6:24:10,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8475/40080 [1:43:23<6:23:40,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8476/40080 [1:43:24<6:23:18,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8477/40080 [1:43:24<6:23:18,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8478/40080 [1:43:25<6:23:15,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8479/40080 [1:43:26<6:23:17,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8480/40080 [1:43:27<6:23:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5014, 'grad_norm': 3.328125, 'learning_rate': 2.2358514964448727e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.69, 'epoch': 0.85}
+ 21%|███████████████████████████████████▌                                                                                                                                    | 8480/40080 [1:43:27<6:23:34,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8481/40080 [1:43:27<6:24:04,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8482/40080 [1:43:28<6:24:01,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8483/40080 [1:43:29<6:24:19,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8484/40080 [1:43:30<6:24:39,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8485/40080 [1:43:30<6:24:20,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8486/40080 [1:43:31<6:23:44,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8487/40080 [1:43:32<6:23:38,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8488/40080 [1:43:32<6:23:45,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8489/40080 [1:43:33<6:23:41,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8490/40080 [1:43:34<6:23:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6257, 'grad_norm': 3.0625, 'learning_rate': 2.2352482152030678e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2559.22, 'epoch': 0.85}
+ 21%|███████████████████████████████████▌                                                                                                                                    | 8490/40080 [1:43:34<6:23:32,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8491/40080 [1:43:35<6:24:00,  1.37it/s] 21%|███████████��███████████████████████▌                                                                                                                                    | 8492/40080 [1:43:35<6:23:45,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8493/40080 [1:43:36<6:23:49,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8494/40080 [1:43:37<6:22:51,  1.38it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8495/40080 [1:43:38<6:22:35,  1.38it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8496/40080 [1:43:38<6:23:09,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8497/40080 [1:43:39<6:23:10,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8498/40080 [1:43:40<6:23:23,  1.37it/s] 21%|███████████████████████████████████▌                                                                                                                                    | 8499/40080 [1:43:40<6:24:11,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8500/40080 [1:43:41<6:23:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4589, 'grad_norm': 3.046875, 'learning_rate': 2.2346443274243428e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.61, 'epoch': 0.85}
+ 21%|███████████████████████████████████▋                                                                                                                                    | 8500/40080 [1:43:41<6:23:54,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8501/40080 [1:43:42<6:24:25,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8502/40080 [1:43:43<6:23:59,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8503/40080 [1:43:43<6:24:40,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8504/40080 [1:43:44<6:24:17,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8505/40080 [1:43:45<6:23:54,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8506/40080 [1:43:46<6:23:46,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8507/40080 [1:43:46<6:23:38,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8508/40080 [1:43:47<6:23:52,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8509/40080 [1:43:48<6:24:14,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8510/40080 [1:43:49<6:23:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5238, 'grad_norm': 2.796875, 'learning_rate': 2.2340398334804607e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2569.53, 'epoch': 0.85}
+ 21%|███████████████████████████████████▋                                                                                                                                    | 8510/40080 [1:43:49<6:23:45,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8511/40080 [1:43:49<6:23:31,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8512/40080 [1:43:50<6:22:55,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8513/40080 [1:43:51<6:23:06,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8514/40080 [1:43:51<6:22:13,  1.38it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8515/40080 [1:43:52<6:22:00,  1.38it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8516/40080 [1:43:53<6:22:40,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8517/40080 [1:43:54<6:22:43,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8518/40080 [1:43:54<6:25:23,  1.36it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8519/40080 [1:43:55<6:26:36,  1.36it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8520/40080 [1:43:56<6:25:46,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6102, 'grad_norm': 3.1875, 'learning_rate': 2.2334347337435598e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2400.04, 'epoch': 0.85}
+ 21%|███████████████████████████████████▋                                                                                                                                    | 8520/40080 [1:43:56<6:25:46,  1.36it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8521/40080 [1:43:57<6:25:34,  1.36it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8522/40080 [1:43:57<6:24:43,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8523/40080 [1:43:58<6:23:46,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8524/40080 [1:43:59<6:23:35,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8525/40080 [1:43:59<6:23:17,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8526/40080 [1:44:00<6:22:59,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8527/40080 [1:44:01<6:23:30,  1.37it/s] 21%|███████████████████████████████████▋                                                                                                                                    | 8528/40080 [1:44:02<6:22:55,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8529/40080 [1:44:02<6:23:19,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8530/40080 [1:44:03<6:23:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6539, 'grad_norm': 3.0625, 'learning_rate': 2.2328290285861504e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.67, 'epoch': 0.85}
+ 21%|███████████████████████████████████▊                                                                                                                                    | 8530/40080 [1:44:03<6:23:03,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8531/40080 [1:44:04<6:23:54,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8532/40080 [1:44:05<6:23:20,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8533/40080 [1:44:05<6:23:02,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8534/40080 [1:44:06<6:22:49,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8535/40080 [1:44:07<6:23:48,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8536/40080 [1:44:07<6:24:08,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8537/40080 [1:44:08<6:23:41,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8538/40080 [1:44:09<6:23:32,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8539/40080 [1:44:10<6:24:00,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8540/40080 [1:44:10<6:22:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4745, 'grad_norm': 3.109375, 'learning_rate': 2.2322227183811156e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2390.26, 'epoch': 0.85}
+ 21%|███████████████████████████████████▊                                                                                                                                    | 8540/40080 [1:44:10<6:22:59,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8541/40080 [1:44:11<6:22:51,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8542/40080 [1:44:12<6:23:19,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8543/40080 [1:44:13<6:23:11,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8544/40080 [1:44:13<6:22:59,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8545/40080 [1:44:14<6:22:28,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8546/40080 [1:44:15<6:22:24,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8547/40080 [1:44:16<6:22:53,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8548/40080 [1:44:16<6:22:28,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8549/40080 [1:44:17<6:23:09,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8550/40080 [1:44:18<6:23:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5554, 'grad_norm': 3.109375, 'learning_rate': 2.231615803501711e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2391.85, 'epoch': 0.85}
+ 21%|███████████████████████████████████▊                                                                                                                                    | 8550/40080 [1:44:18<6:23:09,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8551/40080 [1:44:18<6:23:05,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8552/40080 [1:44:19<6:22:36,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8553/40080 [1:44:20<6:23:15,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8554/40080 [1:44:21<6:23:43,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8555/40080 [1:44:21<6:23:02,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8556/40080 [1:44:22<6:22:43,  1.37it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8557/40080 [1:44:23<6:21:50,  1.38it/s] 21%|███████████████████████████████████▊                                                                                                                                    | 8558/40080 [1:44:24<6:22:44,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8559/40080 [1:44:24<6:22:34,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8560/40080 [1:44:25<6:21:39,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5477, 'grad_norm': 2.921875, 'learning_rate': 2.2310082843215654e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2475.79, 'epoch': 0.85}
+ 21%|███████████████████████████████████▉                                                                                                                                    | 8560/40080 [1:44:25<6:21:39,  1.38it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8561/40080 [1:44:26<6:23:26,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8562/40080 [1:44:26<6:23:30,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8563/40080 [1:44:27<6:23:20,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8564/40080 [1:44:28<6:23:12,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8565/40080 [1:44:29<6:23:12,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8566/40080 [1:44:29<6:21:56,  1.38it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8567/40080 [1:44:30<6:22:38,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8568/40080 [1:44:31<6:21:42,  1.38it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8569/40080 [1:44:32<6:21:57,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8570/40080 [1:44:32<6:22:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6008, 'grad_norm': 2.75, 'learning_rate': 2.230400161214678e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2216.04, 'epoch': 0.86}
+ 21%|███████████████████████████████████▉                                                                                                                                    | 8570/40080 [1:44:32<6:22:21,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8571/40080 [1:44:33<6:22:42,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8572/40080 [1:44:34<6:22:56,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8573/40080 [1:44:34<6:23:01,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8574/40080 [1:44:35<6:23:14,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8575/40080 [1:44:36<6:22:46,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8576/40080 [1:44:37<6:23:13,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8577/40080 [1:44:37<6:23:09,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8578/40080 [1:44:38<6:22:47,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8579/40080 [1:44:39<6:22:03,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8580/40080 [1:44:40<6:21:40,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6535, 'grad_norm': 3.21875, 'learning_rate': 2.229791434555421e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2365.15, 'epoch': 0.86}
+ 21%|███████████████████████████████████▉                                                                                                                                    | 8580/40080 [1:44:40<6:21:40,  1.38it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8581/40080 [1:44:40<6:21:57,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8582/40080 [1:44:41<6:21:36,  1.38it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8583/40080 [1:44:42<6:21:25,  1.38it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8584/40080 [1:44:42<6:22:03,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8585/40080 [1:44:43<6:22:07,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8586/40080 [1:44:44<6:22:30,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8587/40080 [1:44:45<6:22:59,  1.37it/s] 21%|███████████████████████████████████▉                                                                                                                                    | 8588/40080 [1:44:45<6:23:20,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8589/40080 [1:44:46<6:23:02,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8590/40080 [1:44:47<6:23:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5401, 'grad_norm': 3.46875, 'learning_rate': 2.2291821047185373e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2466.65, 'epoch': 0.86}
+ 21%|████████████████████████████████████                                                                                                                                    | 8590/40080 [1:44:47<6:23:08,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8591/40080 [1:44:48<6:24:14,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8592/40080 [1:44:48<6:24:04,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8593/40080 [1:44:49<6:23:58,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8594/40080 [1:44:50<6:23:06,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8595/40080 [1:44:50<6:22:09,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8596/40080 [1:44:51<6:22:06,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8597/40080 [1:44:52<6:22:05,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8598/40080 [1:44:53<6:22:23,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8599/40080 [1:44:53<6:23:19,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8600/40080 [1:44:54<6:22:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5552, 'grad_norm': 2.609375, 'learning_rate': 2.228572172079142e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.27, 'epoch': 0.86}
+ 21%|████████████████████████████████████                                                                                                                                    | 8600/40080 [1:44:54<6:22:55,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8601/40080 [1:44:55<6:23:24,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8602/40080 [1:44:56<6:23:28,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8603/40080 [1:44:56<6:23:11,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8604/40080 [1:44:57<6:22:37,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8605/40080 [1:44:58<6:22:43,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8606/40080 [1:44:59<6:21:58,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8607/40080 [1:44:59<6:22:09,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8608/40080 [1:45:00<6:21:50,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8609/40080 [1:45:01<6:22:04,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8610/40080 [1:45:01<6:22:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5406, 'grad_norm': 3.34375, 'learning_rate': 2.2279616370127204e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.08, 'epoch': 0.86}
+ 21%|████████████████████████████████████                                                                                                                                    | 8610/40080 [1:45:01<6:22:26,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8611/40080 [1:45:02<6:23:34,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8612/40080 [1:45:03<6:23:15,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8613/40080 [1:45:04<6:23:03,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8614/40080 [1:45:04<6:23:00,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8615/40080 [1:45:05<6:23:15,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8616/40080 [1:45:06<6:23:24,  1.37it/s] 21%|████████████████████████████████████                                                                                                                                    | 8617/40080 [1:45:07<6:22:48,  1.37it/s] 22%|████████████████████████████████████                                                                                                                                    | 8618/40080 [1:45:07<6:22:23,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8619/40080 [1:45:08<6:22:15,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8620/40080 [1:45:09<6:21:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5832, 'grad_norm': 2.90625, 'learning_rate': 2.227350499895129e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2311.32, 'epoch': 0.86}
+ 22%|████████████████████████████████████▏                                                                                                                                   | 8620/40080 [1:45:09<6:21:49,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8621/40080 [1:45:09<6:22:21,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8622/40080 [1:45:10<6:21:48,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8623/40080 [1:45:11<6:21:23,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8624/40080 [1:45:12<6:21:57,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8625/40080 [1:45:12<6:21:52,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8626/40080 [1:45:13<6:21:50,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8627/40080 [1:45:14<6:21:36,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8628/40080 [1:45:15<6:22:04,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8629/40080 [1:45:15<6:22:12,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8630/40080 [1:45:16<6:22:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5782, 'grad_norm': 2.875, 'learning_rate': 2.226738761102596e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2314.0, 'epoch': 0.86}
+ 22%|████████████████████████████████████▏                                                                                                                                   | 8630/40080 [1:45:16<6:22:26,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8631/40080 [1:45:17<6:23:01,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8632/40080 [1:45:17<6:23:22,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8633/40080 [1:45:18<6:22:54,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8634/40080 [1:45:19<6:22:54,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8635/40080 [1:45:20<6:22:34,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8636/40080 [1:45:20<6:22:58,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8637/40080 [1:45:21<6:22:02,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8638/40080 [1:45:22<6:21:45,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8639/40080 [1:45:23<6:21:26,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8640/40080 [1:45:23<6:21:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5472, 'grad_norm': 2.84375, 'learning_rate': 2.2261264210117183e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2419.36, 'epoch': 0.86}
+ 22%|████████████████████████████████████▏                                                                                                                                   | 8640/40080 [1:45:23<6:21:34,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8641/40080 [1:45:24<6:21:55,  1.37it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8642/40080 [1:45:25<6:20:47,  1.38it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8643/40080 [1:45:25<6:20:41,  1.38it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8644/40080 [1:45:26<6:20:40,  1.38it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8645/40080 [1:45:27<6:20:11,  1.38it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8646/40080 [1:45:28<6:19:45,  1.38it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8647/40080 [1:45:28<6:20:21,  1.38it/s] 22%|████████████████████████████████████▏                                                                                                                                   | 8648/40080 [1:45:29<6:21:03,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8649/40080 [1:45:30<6:21:51,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8650/40080 [1:45:31<6:21:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4888, 'grad_norm': 3.203125, 'learning_rate': 2.2255134799994636e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.36, 'epoch': 0.86}
+ 22%|████████████████████████████████████▎                                                                                                                                   | 8650/40080 [1:45:31<6:21:25,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8651/40080 [1:45:31<6:21:56,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8652/40080 [1:45:32<6:22:18,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8653/40080 [1:45:33<6:22:10,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8654/40080 [1:45:34<6:22:05,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8655/40080 [1:45:34<6:22:12,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8656/40080 [1:45:35<6:22:01,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8657/40080 [1:45:36<6:21:52,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8658/40080 [1:45:36<6:22:23,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8659/40080 [1:45:37<6:22:49,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8660/40080 [1:45:38<6:22:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4911, 'grad_norm': 2.71875, 'learning_rate': 2.2248999384431704e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2442.51, 'epoch': 0.86}
+ 22%|████████████████████████████████████▎                                                                                                                                   | 8660/40080 [1:45:38<6:22:41,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8661/40080 [1:45:39<6:23:06,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8662/40080 [1:45:39<6:22:24,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8663/40080 [1:45:40<6:21:44,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8664/40080 [1:45:41<6:21:13,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8665/40080 [1:45:42<6:20:39,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8666/40080 [1:45:42<6:20:36,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8667/40080 [1:45:43<6:20:09,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8668/40080 [1:45:44<6:19:37,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8669/40080 [1:45:44<6:19:25,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8670/40080 [1:45:45<6:19:25,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5802, 'grad_norm': 3.234375, 'learning_rate': 2.2242857967205454e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2148.28, 'epoch': 0.87}
+ 22%|████████████████████████████████████▎                                                                                                                                   | 8670/40080 [1:45:45<6:19:25,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8671/40080 [1:45:46<6:19:41,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8672/40080 [1:45:47<6:19:52,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8673/40080 [1:45:47<6:19:44,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8674/40080 [1:45:48<6:19:56,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8675/40080 [1:45:49<6:20:27,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8676/40080 [1:45:50<6:20:31,  1.38it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8677/40080 [1:45:50<6:20:40,  1.37it/s] 22%|████████████████████████████████████▎                                                                                                                                   | 8678/40080 [1:45:51<6:20:08,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8679/40080 [1:45:52<6:20:32,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8680/40080 [1:45:52<6:20:26,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5632, 'grad_norm': 2.859375, 'learning_rate': 2.2236710552096655e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2279.43, 'epoch': 0.87}
+ 22%|████████████████████████████████████▍                                                                                                                                   | 8680/40080 [1:45:52<6:20:26,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8681/40080 [1:45:53<6:20:46,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8682/40080 [1:45:54<6:20:23,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8683/40080 [1:45:55<6:20:28,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8684/40080 [1:45:55<6:20:14,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8685/40080 [1:45:56<6:20:19,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8686/40080 [1:45:57<6:21:00,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8687/40080 [1:45:58<6:20:24,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8688/40080 [1:45:58<6:20:25,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8689/40080 [1:45:59<6:20:09,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8690/40080 [1:46:00<6:20:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6152, 'grad_norm': 3.484375, 'learning_rate': 2.223055714288978e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2243.76, 'epoch': 0.87}
+ 22%|████████████████████████████████████▍                                                                                                                                   | 8690/40080 [1:46:00<6:20:41,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8691/40080 [1:46:00<6:20:54,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8692/40080 [1:46:01<6:20:33,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8693/40080 [1:46:02<6:20:32,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8694/40080 [1:46:03<6:21:17,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8695/40080 [1:46:03<6:21:48,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8696/40080 [1:46:04<6:21:13,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8697/40080 [1:46:05<6:20:32,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8698/40080 [1:46:06<6:20:09,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8699/40080 [1:46:06<6:20:04,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8700/40080 [1:46:07<6:19:26,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5889, 'grad_norm': 3.6875, 'learning_rate': 2.2224397743372966e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2294.03, 'epoch': 0.87}
+ 22%|████████████████████████████████████▍                                                                                                                                   | 8700/40080 [1:46:07<6:19:26,  1.38it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8701/40080 [1:46:08<6:20:23,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8702/40080 [1:46:08<6:21:13,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8703/40080 [1:46:09<6:21:12,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8704/40080 [1:46:10<6:21:20,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8705/40080 [1:46:11<6:21:26,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8706/40080 [1:46:11<6:22:01,  1.37it/s] 22%|████████████████████████████████████▍                                                                                                                                   | 8707/40080 [1:46:12<6:21:43,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8708/40080 [1:46:13<6:21:29,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8709/40080 [1:46:14<6:20:38,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8710/40080 [1:46:14<6:19:28,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5124, 'grad_norm': 4.1875, 'learning_rate': 2.2218232357338065e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2569.88, 'epoch': 0.87}
+ 22%|████████████████████████████████████▌                                                                                                                                   | 8710/40080 [1:46:14<6:19:28,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8711/40080 [1:46:15<6:20:16,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8712/40080 [1:46:16<6:20:11,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8713/40080 [1:46:16<6:19:39,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8714/40080 [1:46:17<6:19:49,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8715/40080 [1:46:18<6:20:00,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8716/40080 [1:46:19<6:20:06,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8717/40080 [1:46:19<6:20:37,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8718/40080 [1:46:20<6:20:08,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8719/40080 [1:46:21<6:21:48,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8720/40080 [1:46:22<6:20:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6064, 'grad_norm': 4.5, 'learning_rate': 2.221206098858059e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.79, 'epoch': 0.87}
+ 22%|████████████████████████████████████▌                                                                                                                                   | 8720/40080 [1:46:22<6:20:50,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8721/40080 [1:46:22<6:21:17,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8722/40080 [1:46:23<6:20:18,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8723/40080 [1:46:24<6:20:32,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8724/40080 [1:46:24<6:20:21,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8725/40080 [1:46:25<6:19:29,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8726/40080 [1:46:26<6:18:53,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8727/40080 [1:46:27<6:18:31,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8728/40080 [1:46:27<6:18:48,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8729/40080 [1:46:28<6:18:59,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8730/40080 [1:46:29<6:19:34,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5355, 'grad_norm': 2.53125, 'learning_rate': 2.2205883640899762e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2384.89, 'epoch': 0.87}
+ 22%|████████████████████████████████████▌                                                                                                                                   | 8730/40080 [1:46:29<6:19:34,  1.38it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8731/40080 [1:46:30<6:20:15,  1.37it/s] 22%|█████████��██████████████████████████▌                                                                                                                                   | 8732/40080 [1:46:30<6:20:02,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8733/40080 [1:46:31<6:20:16,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8734/40080 [1:46:32<6:20:23,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8735/40080 [1:46:32<6:20:04,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8736/40080 [1:46:33<6:20:29,  1.37it/s] 22%|████████████████████████████████████▌                                                                                                                                   | 8737/40080 [1:46:34<6:20:48,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8738/40080 [1:46:35<6:21:10,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8739/40080 [1:46:35<6:21:17,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8740/40080 [1:46:36<6:21:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.555, 'grad_norm': 3.53125, 'learning_rate': 2.219970031809846e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2353.52, 'epoch': 0.87}
+ 22%|████████████████████████████████████▋                                                                                                                                   | 8740/40080 [1:46:36<6:21:30,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8741/40080 [1:46:37<6:22:34,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8742/40080 [1:46:38<6:22:02,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8743/40080 [1:46:38<6:21:57,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8744/40080 [1:46:39<6:21:28,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8745/40080 [1:46:40<6:21:27,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8746/40080 [1:46:40<6:20:29,  1.37it/s] 22%|██████████████████████���█████████████▋                                                                                                                                   | 8747/40080 [1:46:41<6:19:35,  1.38it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8748/40080 [1:46:42<6:19:55,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8749/40080 [1:46:43<6:19:02,  1.38it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8750/40080 [1:46:43<6:19:14,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5759, 'grad_norm': 3.328125, 'learning_rate': 2.2193511023983254e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.04, 'epoch': 0.87}
+ 22%|████████████████████████████████████▋                                                                                                                                   | 8750/40080 [1:46:43<6:19:14,  1.38it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8751/40080 [1:46:44<6:20:25,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8752/40080 [1:46:45<6:20:01,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8753/40080 [1:46:46<6:20:29,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8754/40080 [1:46:46<6:19:47,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8755/40080 [1:46:47<6:20:10,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8756/40080 [1:46:48<6:19:42,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8757/40080 [1:46:48<6:20:12,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8758/40080 [1:46:49<6:19:55,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8759/40080 [1:46:50<6:19:47,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8760/40080 [1:46:51<6:19:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5653, 'grad_norm': 3.0, 'learning_rate': 2.2187315762364392e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2370.01, 'epoch': 0.87}
+ 22%|████████████████████████████████████▋                                                                                                                                   | 8760/40080 [1:46:51<6:19:49,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8761/40080 [1:46:51<6:19:53,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8762/40080 [1:46:52<6:19:38,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8763/40080 [1:46:53<6:19:48,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8764/40080 [1:46:54<6:19:45,  1.37it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8765/40080 [1:46:54<6:19:17,  1.38it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8766/40080 [1:46:55<6:19:08,  1.38it/s] 22%|████████████████████████████████████▋                                                                                                                                   | 8767/40080 [1:46:56<6:18:59,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8768/40080 [1:46:56<6:18:55,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8769/40080 [1:46:57<6:18:33,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8770/40080 [1:46:58<6:19:08,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5424, 'grad_norm': 3.125, 'learning_rate': 2.2181114537055784e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2537.85, 'epoch': 0.88}
+ 22%|████████████████████████████████████▊                                                                                                                                   | 8770/40080 [1:46:58<6:19:08,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8771/40080 [1:46:59<6:20:06,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8772/40080 [1:46:59<6:19:58,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8773/40080 [1:47:00<6:19:54,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8774/40080 [1:47:01<6:19:26,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8775/40080 [1:47:02<6:20:00,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8776/40080 [1:47:02<6:20:19,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8777/40080 [1:47:03<6:20:35,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8778/40080 [1:47:04<6:20:30,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8779/40080 [1:47:04<6:20:33,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8780/40080 [1:47:05<6:19:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5139, 'grad_norm': 3.484375, 'learning_rate': 2.217490735187502e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2351.31, 'epoch': 0.88}
+ 22%|████████████████████████████████████▊                                                                                                                                   | 8780/40080 [1:47:05<6:19:58,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8781/40080 [1:47:06<6:20:36,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8782/40080 [1:47:07<6:20:19,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8783/40080 [1:47:07<6:20:25,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8784/40080 [1:47:08<6:20:10,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8785/40080 [1:47:09<6:20:38,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8786/40080 [1:47:10<6:20:07,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8787/40080 [1:47:10<6:19:56,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8788/40080 [1:47:11<6:19:18,  1.37it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8789/40080 [1:47:12<6:18:48,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8790/40080 [1:47:12<6:18:11,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5176, 'grad_norm': 2.9375, 'learning_rate': 2.2168694210643362e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2283.67, 'epoch': 0.88}
+ 22%|████████████████████████████████████▊                                                                                                                                   | 8790/40080 [1:47:12<6:18:11,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8791/40080 [1:47:13<6:18:18,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8792/40080 [1:47:14<6:18:37,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8793/40080 [1:47:15<6:19:04,  1.38it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8794/40080 [1:47:16<7:17:51,  1.19it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8795/40080 [1:47:16<7:00:32,  1.24it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8796/40080 [1:47:17<6:48:14,  1.28it/s] 22%|████████████████████████████████████▊                                                                                                                                   | 8797/40080 [1:47:18<6:39:33,  1.30it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8798/40080 [1:47:19<6:33:48,  1.32it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8799/40080 [1:47:19<6:28:35,  1.34it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8800/40080 [1:47:20<6:25:39,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5057, 'grad_norm': 2.75, 'learning_rate': 2.216247511718573e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.84, 'epoch': 0.88}
+ 22%|████████████████████████████████████▉                                                                                                                                   | 8800/40080 [1:47:20<6:25:39,  1.35it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8801/40080 [1:47:21<6:24:02,  1.36it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8802/40080 [1:47:22<6:22:00,  1.36it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8803/40080 [1:47:22<6:21:35,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8804/40080 [1:47:23<6:21:03,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8805/40080 [1:47:24<6:19:54,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8806/40080 [1:47:24<6:19:10,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8807/40080 [1:47:25<6:19:09,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8808/40080 [1:47:26<6:18:57,  1.38it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8809/40080 [1:47:27<6:18:06,  1.38it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8810/40080 [1:47:27<6:18:37,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4969, 'grad_norm': 2.578125, 'learning_rate': 2.2156250075330712e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2627.5, 'epoch': 0.88}
+ 22%|████████████████████████████████████▉                                                                                                                                   | 8810/40080 [1:47:27<6:18:37,  1.38it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8811/40080 [1:47:28<6:18:46,  1.38it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8812/40080 [1:47:29<6:18:20,  1.38it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8813/40080 [1:47:30<6:18:51,  1.38it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8814/40080 [1:47:30<6:18:59,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8815/40080 [1:47:31<6:18:56,  1.38it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8816/40080 [1:47:32<6:19:02,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8817/40080 [1:47:32<6:19:15,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8818/40080 [1:47:33<6:19:09,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8819/40080 [1:47:34<6:19:36,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8820/40080 [1:47:35<6:19:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5622, 'grad_norm': 3.484375, 'learning_rate': 2.2150019088910563e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2481.65, 'epoch': 0.88}
+ 22%|████████████████████████████████████▉                                                                                                                                   | 8820/40080 [1:47:35<6:19:37,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8821/40080 [1:47:35<6:19:40,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8822/40080 [1:47:36<6:19:01,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8823/40080 [1:47:37<6:18:58,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8824/40080 [1:47:38<6:19:09,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8825/40080 [1:47:38<6:19:31,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8826/40080 [1:47:39<6:19:18,  1.37it/s] 22%|████████████████████████████████████▉                                                                                                                                   | 8827/40080 [1:47:40<6:19:21,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8828/40080 [1:47:40<6:19:12,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8829/40080 [1:47:41<6:19:47,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8830/40080 [1:47:42<6:19:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5784, 'grad_norm': 3.609375, 'learning_rate': 2.2143782161761182e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2233.78, 'epoch': 0.88}
+ 22%|██████████████████████���██████████████                                                                                                                                   | 8830/40080 [1:47:42<6:19:58,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8831/40080 [1:47:43<6:19:19,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8832/40080 [1:47:43<6:18:31,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8833/40080 [1:47:44<6:18:46,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8834/40080 [1:47:45<6:18:05,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8835/40080 [1:47:46<6:18:16,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8836/40080 [1:47:46<6:18:09,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8837/40080 [1:47:47<6:18:30,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8838/40080 [1:47:48<6:18:18,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8839/40080 [1:47:48<6:18:45,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8840/40080 [1:47:49<6:18:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5036, 'grad_norm': 2.75, 'learning_rate': 2.213753929772215e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2430.47, 'epoch': 0.88}
+ 22%|█████████████████████████████████████                                                                                                                                   | 8840/40080 [1:47:49<6:18:55,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8841/40080 [1:47:50<6:19:17,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8842/40080 [1:47:51<6:19:22,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8843/40080 [1:47:51<6:19:25,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8844/40080 [1:47:52<6:19:18,  1.37it/s] 22%|███████████████████████████████████��█                                                                                                                                   | 8845/40080 [1:47:53<6:18:42,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8846/40080 [1:47:54<6:18:56,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8847/40080 [1:47:54<6:18:38,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8848/40080 [1:47:55<6:18:26,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8849/40080 [1:47:56<6:18:30,  1.38it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8850/40080 [1:47:57<6:18:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5815, 'grad_norm': 3.046875, 'learning_rate': 2.2131290500636677e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2311.83, 'epoch': 0.88}
+ 22%|█████████████████████████████████████                                                                                                                                   | 8850/40080 [1:47:57<6:18:47,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8851/40080 [1:47:57<6:19:02,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8852/40080 [1:47:58<6:19:30,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8853/40080 [1:47:59<6:18:39,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8854/40080 [1:47:59<6:19:55,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8855/40080 [1:48:00<6:19:38,  1.37it/s] 22%|█████████████████████████████████████                                                                                                                                   | 8856/40080 [1:48:01<6:19:58,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8857/40080 [1:48:02<6:19:36,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8858/40080 [1:48:02<6:18:49,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8859/40080 [1:48:03<6:18:44,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8860/40080 [1:48:04<6:18:24,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5618, 'grad_norm': 3.0625, 'learning_rate': 2.2125035774351647e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.31, 'epoch': 0.88}
+ 22%|█████████████████████████████████████▏                                                                                                                                  | 8860/40080 [1:48:04<6:18:24,  1.38it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8861/40080 [1:48:05<6:19:09,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8862/40080 [1:48:05<6:18:37,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8863/40080 [1:48:06<6:17:54,  1.38it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8864/40080 [1:48:07<6:17:48,  1.38it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8865/40080 [1:48:07<6:18:57,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8866/40080 [1:48:08<6:19:10,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8867/40080 [1:48:09<6:19:14,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8868/40080 [1:48:10<6:18:59,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8869/40080 [1:48:10<6:19:10,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8870/40080 [1:48:11<6:19:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5482, 'grad_norm': 3.5625, 'learning_rate': 2.211877512271758e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.59, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▏                                                                                                                                  | 8870/40080 [1:48:11<6:19:32,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8871/40080 [1:48:12<6:19:04,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8872/40080 [1:48:13<6:18:25,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8873/40080 [1:48:13<6:18:04,  1.38it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8874/40080 [1:48:14<6:18:00,  1.38it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8875/40080 [1:48:15<6:18:29,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8876/40080 [1:48:15<6:18:55,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8877/40080 [1:48:16<6:17:56,  1.38it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8878/40080 [1:48:17<6:18:43,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8879/40080 [1:48:18<6:19:17,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8880/40080 [1:48:18<6:21:12,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5454, 'grad_norm': 3.484375, 'learning_rate': 2.2112508549588645e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2306.97, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▏                                                                                                                                  | 8880/40080 [1:48:18<6:21:12,  1.36it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8881/40080 [1:48:19<6:21:49,  1.36it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8882/40080 [1:48:20<6:20:52,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8883/40080 [1:48:21<6:20:22,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8884/40080 [1:48:21<6:19:31,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8885/40080 [1:48:22<6:18:37,  1.37it/s] 22%|█████████████████████████████████████▏                                                                                                                                  | 8886/40080 [1:48:23<6:18:10,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8887/40080 [1:48:23<6:18:03,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8888/40080 [1:48:24<6:18:41,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8889/40080 [1:48:25<6:18:21,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8890/40080 [1:48:26<6:18:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5654, 'grad_norm': 3.109375, 'learning_rate': 2.2106236058822664e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2512.2, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▎                                                                                                                                  | 8890/40080 [1:48:26<6:18:51,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8891/40080 [1:48:26<6:18:21,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8892/40080 [1:48:27<6:17:57,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8893/40080 [1:48:28<6:17:13,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8894/40080 [1:48:29<6:17:57,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8895/40080 [1:48:29<6:17:54,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8896/40080 [1:48:30<6:17:53,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8897/40080 [1:48:31<6:18:06,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8898/40080 [1:48:31<6:18:28,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8899/40080 [1:48:32<6:18:40,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8900/40080 [1:48:33<6:18:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5326, 'grad_norm': 3.859375, 'learning_rate': 2.2099957654281094e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.49, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▎                                                                                                                                  | 8900/40080 [1:48:33<6:18:16,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8901/40080 [1:48:34<6:18:36,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8902/40080 [1:48:34<6:19:02,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8903/40080 [1:48:35<6:18:55,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8904/40080 [1:48:36<6:18:46,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8905/40080 [1:48:37<6:18:14,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8906/40080 [1:48:37<6:17:30,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8907/40080 [1:48:38<6:17:12,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8908/40080 [1:48:39<6:17:39,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8909/40080 [1:48:39<6:18:11,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8910/40080 [1:48:40<6:18:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5256, 'grad_norm': 3.015625, 'learning_rate': 2.2093673339829044e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.19, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▎                                                                                                                                  | 8910/40080 [1:48:40<6:18:08,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8911/40080 [1:48:41<6:18:56,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8912/40080 [1:48:42<6:18:43,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8913/40080 [1:48:42<6:18:07,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8914/40080 [1:48:43<6:17:45,  1.38it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8915/40080 [1:48:44<6:18:09,  1.37it/s] 22%|█████████████████████████████████████▎                                                                                                                                  | 8916/40080 [1:48:45<6:18:23,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8917/40080 [1:48:45<6:18:21,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8918/40080 [1:48:46<6:18:00,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8919/40080 [1:48:47<6:17:41,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8920/40080 [1:48:47<6:17:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5619, 'grad_norm': 3.828125, 'learning_rate': 2.2087383119335248e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2409.18, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▍                                                                                                                                  | 8920/40080 [1:48:47<6:17:29,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8921/40080 [1:48:48<6:18:42,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8922/40080 [1:48:49<6:20:48,  1.36it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8923/40080 [1:48:50<6:19:38,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8924/40080 [1:48:50<6:19:26,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8925/40080 [1:48:51<6:18:38,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8926/40080 [1:48:52<6:18:15,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8927/40080 [1:48:53<6:18:08,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8928/40080 [1:48:53<6:18:44,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8929/40080 [1:48:54<6:18:29,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8930/40080 [1:48:55<6:18:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4653, 'grad_norm': 2.984375, 'learning_rate': 2.2081086996672078e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2377.94, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▍                                                                                                                                  | 8930/40080 [1:48:55<6:18:52,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8931/40080 [1:48:56<6:18:32,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8932/40080 [1:48:56<6:17:45,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8933/40080 [1:48:57<6:17:08,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8934/40080 [1:48:58<6:17:49,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8935/40080 [1:48:58<6:17:20,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8936/40080 [1:48:59<6:16:27,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8937/40080 [1:49:00<6:15:41,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8938/40080 [1:49:01<6:16:12,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8939/40080 [1:49:01<6:16:16,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8940/40080 [1:49:02<6:16:42,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6365, 'grad_norm': 3.234375, 'learning_rate': 2.207478497571555e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2201.82, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▍                                                                                                                                  | 8940/40080 [1:49:02<6:16:42,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8941/40080 [1:49:03<6:18:09,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8942/40080 [1:49:04<6:17:31,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8943/40080 [1:49:04<6:17:10,  1.38it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8944/40080 [1:49:05<6:17:50,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8945/40080 [1:49:06<6:18:12,  1.37it/s] 22%|█████████████████████████████████████▍                                                                                                                                  | 8946/40080 [1:49:06<6:17:54,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8947/40080 [1:49:07<6:17:32,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8948/40080 [1:49:08<6:17:17,  1.38it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8949/40080 [1:49:09<6:17:36,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8950/40080 [1:49:09<6:17:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5398, 'grad_norm': 3.265625, 'learning_rate': 2.2068477060345298e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2527.55, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▌                                                                                                                                  | 8950/40080 [1:49:09<6:17:51,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8951/40080 [1:49:10<6:18:34,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8952/40080 [1:49:11<6:18:17,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8953/40080 [1:49:12<6:18:13,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8954/40080 [1:49:12<6:17:56,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8955/40080 [1:49:13<6:18:16,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8956/40080 [1:49:14<6:18:38,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8957/40080 [1:49:14<6:18:39,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8958/40080 [1:49:15<6:18:40,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8959/40080 [1:49:16<6:18:09,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8960/40080 [1:49:17<6:17:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5552, 'grad_norm': 2.9375, 'learning_rate': 2.2062163254444597e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.44, 'epoch': 0.89}
+ 22%|█████████████████████████████████████▌                                                                                                                                  | 8960/40080 [1:49:17<6:17:59,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8961/40080 [1:49:17<6:18:27,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8962/40080 [1:49:18<6:18:42,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8963/40080 [1:49:19<6:18:49,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8964/40080 [1:49:20<6:17:54,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8965/40080 [1:49:20<6:17:42,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8966/40080 [1:49:21<6:17:45,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8967/40080 [1:49:22<6:17:00,  1.38it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8968/40080 [1:49:22<6:16:15,  1.38it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8969/40080 [1:49:23<6:16:22,  1.38it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8970/40080 [1:49:24<6:16:31,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5452, 'grad_norm': 4.0625, 'learning_rate': 2.205584356190034e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2167.25, 'epoch': 0.9}
+ 22%|█████████████████████████████████████▌                                                                                                                                  | 8970/40080 [1:49:24<6:16:31,  1.38it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8971/40080 [1:49:25<6:17:05,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8972/40080 [1:49:25<6:17:25,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8973/40080 [1:49:26<6:16:53,  1.38it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8974/40080 [1:49:27<6:17:06,  1.37it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8975/40080 [1:49:28<6:16:55,  1.38it/s] 22%|█████████████████████████████████████▌                                                                                                                                  | 8976/40080 [1:49:28<6:17:02,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8977/40080 [1:49:29<6:16:49,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8978/40080 [1:49:30<6:17:31,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8979/40080 [1:49:30<6:16:51,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8980/40080 [1:49:31<6:17:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5775, 'grad_norm': 3.09375, 'learning_rate': 2.204951798660304e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.48, 'epoch': 0.9}
+ 22%|█████████████████████████████████████▋                                                                                                                                  | 8980/40080 [1:49:31<6:17:17,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8981/40080 [1:49:32<6:17:35,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8982/40080 [1:49:33<6:16:30,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8983/40080 [1:49:33<6:16:31,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8984/40080 [1:49:34<6:16:38,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8985/40080 [1:49:35<6:16:05,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8986/40080 [1:49:36<6:16:45,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8987/40080 [1:49:36<6:16:50,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8988/40080 [1:49:37<6:17:10,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8989/40080 [1:49:38<6:17:10,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8990/40080 [1:49:38<6:17:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.518, 'grad_norm': 3.4375, 'learning_rate': 2.2043186532446846e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.8, 'epoch': 0.9}
+ 22%|█████████████████████████████████████▋                                                                                                                                  | 8990/40080 [1:49:38<6:17:27,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8991/40080 [1:49:39<6:18:14,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8992/40080 [1:49:40<6:17:06,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8993/40080 [1:49:41<6:17:40,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8994/40080 [1:49:41<6:17:10,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8995/40080 [1:49:42<6:16:38,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8996/40080 [1:49:43<6:16:58,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8997/40080 [1:49:44<6:16:44,  1.38it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8998/40080 [1:49:44<6:16:49,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 8999/40080 [1:49:45<6:16:25,  1.38it/s] 22%|█████████████████████████████��███████▋                                                                                                                                  | 9000/40080 [1:49:46<6:18:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4625, 'grad_norm': 2.796875, 'learning_rate': 2.2036849203329513e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2284.03, 'epoch': 0.9}
+ 22%|█████████████████████████████████████▋                                                                                                                                  | 9000/40080 [1:49:46<6:18:25,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 9001/40080 [1:49:46<6:20:25,  1.36it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 9002/40080 [1:49:47<6:20:00,  1.36it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 9003/40080 [1:49:48<6:19:15,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 9004/40080 [1:49:49<6:18:57,  1.37it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 9005/40080 [1:49:49<6:19:44,  1.36it/s] 22%|█████████████████████████████████████▋                                                                                                                                  | 9006/40080 [1:49:50<6:19:39,  1.36it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9007/40080 [1:49:51<6:19:46,  1.36it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9008/40080 [1:49:52<6:18:46,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9009/40080 [1:49:52<6:18:36,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9010/40080 [1:49:53<6:18:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5177, 'grad_norm': 2.96875, 'learning_rate': 2.203050600315241e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2416.24, 'epoch': 0.9}
+ 22%|█████████████████████████████████████▊                                                                                                                                  | 9010/40080 [1:49:53<6:18:38,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9011/40080 [1:49:54<6:18:39,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9012/40080 [1:49:55<6:18:44,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9013/40080 [1:49:55<6:19:02,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9014/40080 [1:49:56<6:18:52,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9015/40080 [1:49:57<6:18:28,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9016/40080 [1:49:57<6:17:19,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9017/40080 [1:49:58<6:16:57,  1.37it/s] 22%|█████████████████████████████████████▊                                                                                                                                  | 9018/40080 [1:49:59<6:16:42,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9019/40080 [1:50:00<6:16:34,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9020/40080 [1:50:00<6:16:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6324, 'grad_norm': 3.5, 'learning_rate': 2.2024156935820548e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.94, 'epoch': 0.9}
+ 23%|█████████████████████████████████████▊                                                                                                                                  | 9020/40080 [1:50:00<6:16:46,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9021/40080 [1:50:01<6:17:23,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9022/40080 [1:50:02<6:16:35,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9023/40080 [1:50:03<6:18:19,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9024/40080 [1:50:03<6:19:18,  1.36it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9025/40080 [1:50:04<6:18:37,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9026/40080 [1:50:05<6:18:21,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9027/40080 [1:50:05<6:17:56,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9028/40080 [1:50:06<6:17:27,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9029/40080 [1:50:07<6:17:04,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9030/40080 [1:50:08<6:16:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5737, 'grad_norm': 3.265625, 'learning_rate': 2.201780200524251e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2455.49, 'epoch': 0.9}
+ 23%|█████████████████████████████████████▊                                                                                                                                  | 9030/40080 [1:50:08<6:16:30,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9031/40080 [1:50:08<6:16:39,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9032/40080 [1:50:09<6:16:00,  1.38it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9033/40080 [1:50:10<6:15:50,  1.38it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9034/40080 [1:50:11<6:16:23,  1.37it/s] 23%|█████████████████████████████████████▊                                                                                                                                  | 9035/40080 [1:50:11<6:16:48,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9036/40080 [1:50:12<6:17:02,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9037/40080 [1:50:13<6:17:16,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9038/40080 [1:50:13<6:17:20,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9039/40080 [1:50:14<6:16:35,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9040/40080 [1:50:15<6:16:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.525, 'grad_norm': 3.515625, 'learning_rate': 2.201144121533052e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2193.0, 'epoch': 0.9}
+ 23%|█████████████████████��███████████████▉                                                                                                                                  | 9040/40080 [1:50:15<6:16:34,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9041/40080 [1:50:16<6:17:15,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9042/40080 [1:50:16<6:17:36,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9043/40080 [1:50:17<6:16:28,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9044/40080 [1:50:18<6:16:46,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9045/40080 [1:50:19<6:16:44,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9046/40080 [1:50:19<6:17:01,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9047/40080 [1:50:20<6:17:35,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9048/40080 [1:50:21<6:17:11,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9049/40080 [1:50:22<6:17:55,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9050/40080 [1:50:22<6:17:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4754, 'grad_norm': 3.359375, 'learning_rate': 2.200507457000039e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2320.43, 'epoch': 0.9}
+ 23%|█████████████████████████████████████▉                                                                                                                                  | 9050/40080 [1:50:22<6:17:29,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9051/40080 [1:50:23<6:17:55,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9052/40080 [1:50:24<6:16:41,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9053/40080 [1:50:24<6:17:09,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9054/40080 [1:50:25<6:15:59,  1.38it/s] 23%|███████████████████████���█████████████▉                                                                                                                                  | 9055/40080 [1:50:26<6:15:37,  1.38it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9056/40080 [1:50:27<6:16:17,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9057/40080 [1:50:27<6:16:48,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9058/40080 [1:50:28<6:17:06,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9059/40080 [1:50:29<6:17:44,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9060/40080 [1:50:30<6:17:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5258, 'grad_norm': 3.890625, 'learning_rate': 2.1998702073171546e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2342.26, 'epoch': 0.9}
+ 23%|█████████████████████████████████████▉                                                                                                                                  | 9060/40080 [1:50:30<6:17:39,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9061/40080 [1:50:30<6:18:06,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9062/40080 [1:50:31<6:18:04,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9063/40080 [1:50:32<6:17:38,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9064/40080 [1:50:32<6:17:36,  1.37it/s] 23%|█████████████████████████████████████▉                                                                                                                                  | 9065/40080 [1:50:33<6:16:23,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9066/40080 [1:50:34<6:16:11,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9067/40080 [1:50:35<6:16:49,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9068/40080 [1:50:35<6:16:58,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9069/40080 [1:50:36<6:17:09,  1.37it/s] 23%|████████████████████████��█████████████                                                                                                                                  | 9070/40080 [1:50:37<6:17:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4996, 'grad_norm': 3.890625, 'learning_rate': 2.1992323728767015e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.03, 'epoch': 0.91}
+ 23%|██████████████████████████████████████                                                                                                                                  | 9070/40080 [1:50:37<6:17:36,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9071/40080 [1:50:38<6:19:01,  1.36it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9072/40080 [1:50:38<6:18:56,  1.36it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9073/40080 [1:50:39<6:18:28,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9074/40080 [1:50:40<6:17:42,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9075/40080 [1:50:40<6:17:38,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9076/40080 [1:50:41<6:17:52,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9077/40080 [1:50:42<6:16:56,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9078/40080 [1:50:43<6:16:03,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9079/40080 [1:50:43<6:15:26,  1.38it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9080/40080 [1:50:44<6:16:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5307, 'grad_norm': 2.59375, 'learning_rate': 2.1985939540713425e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2339.14, 'epoch': 0.91}
+ 23%|██████████████████████████████████████                                                                                                                                  | 9080/40080 [1:50:44<6:16:34,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9081/40080 [1:50:45<6:16:59,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9082/40080 [1:50:46<6:16:19,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9083/40080 [1:50:46<6:16:29,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9084/40080 [1:50:47<6:16:39,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9085/40080 [1:50:48<6:16:36,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9086/40080 [1:50:48<6:16:10,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9087/40080 [1:50:49<6:16:40,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9088/40080 [1:50:50<6:16:07,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9089/40080 [1:50:51<6:16:38,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9090/40080 [1:50:51<6:16:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5273, 'grad_norm': 2.65625, 'learning_rate': 2.1979549512940994e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2419.89, 'epoch': 0.91}
+ 23%|██████████████████████████████████████                                                                                                                                  | 9090/40080 [1:50:51<6:16:56,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9091/40080 [1:50:52<6:17:08,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9092/40080 [1:50:53<6:17:04,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9093/40080 [1:50:54<6:16:56,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9094/40080 [1:50:54<6:16:49,  1.37it/s] 23%|██████████████████████████████████████                                                                                                                                  | 9095/40080 [1:50:55<6:16:16,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9096/40080 [1:50:56<6:17:03,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9097/40080 [1:50:57<6:15:54,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9098/40080 [1:50:57<6:15:25,  1.38it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9099/40080 [1:50:58<6:15:30,  1.38it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9100/40080 [1:50:59<6:15:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6015, 'grad_norm': 3.125, 'learning_rate': 2.1973153649383545e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2382.63, 'epoch': 0.91}
+ 23%|██████████████████████████████████████▏                                                                                                                                 | 9100/40080 [1:50:59<6:15:09,  1.38it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9101/40080 [1:50:59<6:16:34,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9102/40080 [1:51:00<6:17:00,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9103/40080 [1:51:01<6:16:38,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9104/40080 [1:51:02<6:15:59,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9105/40080 [1:51:02<6:15:40,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9106/40080 [1:51:03<6:15:43,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9107/40080 [1:51:04<6:15:28,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9108/40080 [1:51:05<6:15:24,  1.38it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9109/40080 [1:51:05<6:15:09,  1.38it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9110/40080 [1:51:06<6:15:21,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.544, 'grad_norm': 2.9375, 'learning_rate': 2.1966751953978494e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.62, 'epoch': 0.91}
+ 23%|███���██████████████████████████████████▏                                                                                                                                 | 9110/40080 [1:51:06<6:15:21,  1.38it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9111/40080 [1:51:07<6:15:36,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9112/40080 [1:51:07<6:18:42,  1.36it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9113/40080 [1:51:08<6:16:56,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9114/40080 [1:51:09<6:16:23,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9115/40080 [1:51:10<6:15:50,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9116/40080 [1:51:10<6:16:09,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9117/40080 [1:51:11<6:17:23,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9118/40080 [1:51:12<6:17:24,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9119/40080 [1:51:13<6:16:22,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9120/40080 [1:51:13<6:16:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5127, 'grad_norm': 4.09375, 'learning_rate': 2.196034443066683e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.15, 'epoch': 0.91}
+ 23%|██████████████████████████████████████▏                                                                                                                                 | 9120/40080 [1:51:13<6:16:02,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9121/40080 [1:51:14<6:16:19,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9122/40080 [1:51:15<6:15:17,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9123/40080 [1:51:15<6:15:25,  1.37it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9124/40080 [1:51:16<6:15:00,  1.38it/s] 23%|██████████████████████████████████████▏                                                                                                                                 | 9125/40080 [1:51:17<6:15:30,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9126/40080 [1:51:18<6:16:08,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9127/40080 [1:51:18<6:16:01,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9128/40080 [1:51:19<6:15:58,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9129/40080 [1:51:20<6:15:11,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9130/40080 [1:51:21<6:15:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6304, 'grad_norm': 2.625, 'learning_rate': 2.1953931083393153e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2357.27, 'epoch': 0.91}
+ 23%|██████████████████████████████████████▎                                                                                                                                 | 9130/40080 [1:51:21<6:15:58,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9131/40080 [1:51:21<6:15:25,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9132/40080 [1:51:22<6:14:30,  1.38it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9133/40080 [1:51:23<6:14:50,  1.38it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9134/40080 [1:51:23<6:14:45,  1.38it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9135/40080 [1:51:24<6:14:47,  1.38it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9136/40080 [1:51:25<6:15:05,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9137/40080 [1:51:26<6:14:59,  1.38it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9138/40080 [1:51:26<6:15:14,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9139/40080 [1:51:27<6:15:10,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9140/40080 [1:51:28<6:15:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5544, 'grad_norm': 2.78125, 'learning_rate': 2.194751191610563e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2321.5, 'epoch': 0.91}
+ 23%|██████████████████████████████████████▎                                                                                                                                 | 9140/40080 [1:51:28<6:15:43,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9141/40080 [1:51:29<6:16:11,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9142/40080 [1:51:29<6:15:33,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9143/40080 [1:51:30<6:15:07,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9144/40080 [1:51:31<6:15:37,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9145/40080 [1:51:31<6:15:04,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9146/40080 [1:51:32<6:15:20,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9147/40080 [1:51:33<6:15:47,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9148/40080 [1:51:34<6:16:20,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9149/40080 [1:51:34<6:14:59,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9150/40080 [1:51:35<6:14:17,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.546, 'grad_norm': 3.0, 'learning_rate': 2.1941086932756026e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2600.74, 'epoch': 0.91}
+ 23%|██████████████████████████████████████▎                                                                                                                                 | 9150/40080 [1:51:35<6:14:17,  1.38it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9151/40080 [1:51:36<6:15:29,  1.37it/s] 23%|████████████████████��█████████████████▎                                                                                                                                 | 9152/40080 [1:51:37<6:14:54,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9153/40080 [1:51:37<6:15:07,  1.37it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9154/40080 [1:51:38<6:14:45,  1.38it/s] 23%|██████████████████████████████████████▎                                                                                                                                 | 9155/40080 [1:51:39<6:14:48,  1.38it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9156/40080 [1:51:39<6:14:56,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9157/40080 [1:51:40<6:15:18,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9158/40080 [1:51:41<6:14:52,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9159/40080 [1:51:42<6:15:04,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9160/40080 [1:51:42<6:15:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6103, 'grad_norm': 2.3125, 'learning_rate': 2.1934656137299675e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2372.1, 'epoch': 0.91}
+ 23%|██████████████████████████████████████▍                                                                                                                                 | 9160/40080 [1:51:42<6:15:46,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9161/40080 [1:51:43<6:15:43,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9162/40080 [1:51:44<6:15:32,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9163/40080 [1:51:45<6:15:50,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9164/40080 [1:51:45<6:15:50,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9165/40080 [1:51:46<6:15:26,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9166/40080 [1:51:47<6:15:07,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9167/40080 [1:51:47<6:15:07,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9168/40080 [1:51:48<6:16:02,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9169/40080 [1:51:49<6:16:02,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9170/40080 [1:51:50<6:16:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4995, 'grad_norm': 2.40625, 'learning_rate': 2.192821953369549e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.88, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▍                                                                                                                                 | 9170/40080 [1:51:50<6:16:17,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9171/40080 [1:51:50<6:16:28,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9172/40080 [1:51:51<6:15:58,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9173/40080 [1:51:52<6:15:11,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9174/40080 [1:51:53<6:15:00,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9175/40080 [1:51:53<6:14:54,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9176/40080 [1:51:54<6:15:19,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9177/40080 [1:51:55<6:15:05,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9178/40080 [1:51:56<6:15:27,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9179/40080 [1:51:56<6:15:27,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9180/40080 [1:51:57<6:15:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5347, 'grad_norm': 3.3125, 'learning_rate': 2.1921777125905967e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.22, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▍                                                                                                                                 | 9180/40080 [1:51:57<6:15:41,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9181/40080 [1:51:58<6:16:26,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9182/40080 [1:51:58<6:15:52,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9183/40080 [1:51:59<6:15:47,  1.37it/s] 23%|██████████████████████████████████████▍                                                                                                                                 | 9184/40080 [1:52:00<6:15:57,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9185/40080 [1:52:01<6:15:48,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9186/40080 [1:52:01<6:14:54,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9187/40080 [1:52:02<6:14:31,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9188/40080 [1:52:03<6:14:52,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9189/40080 [1:52:04<6:14:44,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9190/40080 [1:52:04<6:14:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4701, 'grad_norm': 2.78125, 'learning_rate': 2.1915328917897167e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2188.95, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▌                                                                                                                                 | 9190/40080 [1:52:04<6:14:31,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9191/40080 [1:52:05<6:14:38,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9192/40080 [1:52:06<6:14:13,  1.38it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9193/40080 [1:52:06<6:14:52,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9194/40080 [1:52:07<6:14:45,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9195/40080 [1:52:08<6:14:44,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9196/40080 [1:52:09<6:14:08,  1.38it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9197/40080 [1:52:09<6:14:27,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9198/40080 [1:52:10<6:14:48,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9199/40080 [1:52:11<6:14:32,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9200/40080 [1:52:12<6:15:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5864, 'grad_norm': 2.65625, 'learning_rate': 2.1908874913638734e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2365.17, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▌                                                                                                                                 | 9200/40080 [1:52:12<6:15:39,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9201/40080 [1:52:12<6:15:04,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9202/40080 [1:52:13<6:15:31,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9203/40080 [1:52:14<6:14:56,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9204/40080 [1:52:14<6:14:49,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9205/40080 [1:52:15<6:14:45,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9206/40080 [1:52:16<6:15:09,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9207/40080 [1:52:17<6:15:11,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9208/40080 [1:52:17<6:14:46,  1.37it/s] 23%|██████████████████████████��███████████▌                                                                                                                                 | 9209/40080 [1:52:18<6:14:53,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9210/40080 [1:52:19<6:14:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4752, 'grad_norm': 2.46875, 'learning_rate': 2.1902415117103857e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2374.77, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▌                                                                                                                                 | 9210/40080 [1:52:19<6:14:38,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9211/40080 [1:52:20<6:15:09,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9212/40080 [1:52:20<6:15:15,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9213/40080 [1:52:21<6:14:24,  1.37it/s] 23%|██████████████████████████████████████▌                                                                                                                                 | 9214/40080 [1:52:22<6:14:56,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9215/40080 [1:52:22<6:14:24,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9216/40080 [1:52:23<6:15:11,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9217/40080 [1:52:24<6:15:22,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9218/40080 [1:52:25<6:15:15,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9219/40080 [1:52:25<6:15:02,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9220/40080 [1:52:26<6:14:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.557, 'grad_norm': 3.390625, 'learning_rate': 2.189594953226932e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2277.15, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▋                                                                                                                                 | 9220/40080 [1:52:26<6:14:36,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9221/40080 [1:52:27<6:14:44,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9222/40080 [1:52:28<6:14:26,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9223/40080 [1:52:28<6:14:33,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9224/40080 [1:52:29<6:14:09,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9225/40080 [1:52:30<6:14:59,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9226/40080 [1:52:30<6:15:22,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9227/40080 [1:52:31<6:15:19,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9228/40080 [1:52:32<6:15:08,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9229/40080 [1:52:33<6:15:45,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9230/40080 [1:52:33<6:15:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.534, 'grad_norm': 2.90625, 'learning_rate': 2.1889478163115446e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2457.7, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▋                                                                                                                                 | 9230/40080 [1:52:33<6:15:09,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9231/40080 [1:52:34<6:15:55,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9232/40080 [1:52:35<6:14:37,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9233/40080 [1:52:36<6:13:56,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9234/40080 [1:52:36<6:14:19,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9235/40080 [1:52:37<6:14:42,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9236/40080 [1:52:38<6:14:56,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9237/40080 [1:52:39<6:14:25,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9238/40080 [1:52:39<6:14:05,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9239/40080 [1:52:40<6:14:13,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9240/40080 [1:52:41<6:13:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5348, 'grad_norm': 2.046875, 'learning_rate': 2.1883001013626137e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.38, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▋                                                                                                                                 | 9240/40080 [1:52:41<6:13:49,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9241/40080 [1:52:41<6:13:54,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9242/40080 [1:52:42<6:14:10,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9243/40080 [1:52:43<6:13:50,  1.37it/s] 23%|██████████████████████████████████████▋                                                                                                                                 | 9244/40080 [1:52:44<6:14:18,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9245/40080 [1:52:44<6:13:45,  1.38it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9246/40080 [1:52:45<6:13:16,  1.38it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9247/40080 [1:52:46<6:13:18,  1.38it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9248/40080 [1:52:47<6:13:29,  1.38it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9249/40080 [1:52:47<6:15:10,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9250/40080 [1:52:48<6:19:37,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.6236, 'grad_norm': 3.515625, 'learning_rate': 2.1876518087788835e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2340.68, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▊                                                                                                                                 | 9250/40080 [1:52:48<6:19:37,  1.35it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9251/40080 [1:52:49<6:20:16,  1.35it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9252/40080 [1:52:49<6:17:36,  1.36it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9253/40080 [1:52:50<6:16:38,  1.36it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9254/40080 [1:52:51<6:15:44,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9255/40080 [1:52:52<6:15:00,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9256/40080 [1:52:52<6:14:57,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9257/40080 [1:52:53<6:16:40,  1.36it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9258/40080 [1:52:54<6:19:02,  1.36it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9259/40080 [1:52:55<6:18:18,  1.36it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9260/40080 [1:52:55<6:16:46,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5318, 'grad_norm': 3.296875, 'learning_rate': 2.187002938959456e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2377.95, 'epoch': 0.92}
+ 23%|██████████████████████████████████████▊                                                                                                                                 | 9260/40080 [1:52:55<6:16:46,  1.36it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9261/40080 [1:52:56<6:16:46,  1.36it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9262/40080 [1:52:57<6:15:02,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9263/40080 [1:52:58<6:14:33,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9264/40080 [1:52:58<6:14:31,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9265/40080 [1:52:59<6:15:17,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9266/40080 [1:53:00<6:14:22,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9267/40080 [1:53:00<6:13:39,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9268/40080 [1:53:01<6:14:14,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9269/40080 [1:53:02<6:14:41,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9270/40080 [1:53:03<6:14:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5413, 'grad_norm': 4.0625, 'learning_rate': 2.1863534923037865e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2344.49, 'epoch': 0.93}
+ 23%|██████████████████████████████████████▊                                                                                                                                 | 9270/40080 [1:53:03<6:14:12,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9271/40080 [1:53:03<6:14:21,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9272/40080 [1:53:04<6:14:38,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9273/40080 [1:53:05<6:14:20,  1.37it/s] 23%|██████████████████████████████████████▊                                                                                                                                 | 9274/40080 [1:53:06<6:13:58,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9275/40080 [1:53:06<6:13:02,  1.38it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9276/40080 [1:53:07<6:14:34,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9277/40080 [1:53:08<6:14:04,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9278/40080 [1:53:08<6:14:03,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9279/40080 [1:53:09<6:13:41,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9280/40080 [1:53:10<6:12:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5558, 'grad_norm': 3.734375, 'learning_rate': 2.1857034692116866e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2413.81, 'epoch': 0.93}
+ 23%|██████████████████████████████████████▉                                                                                                                                 | 9280/40080 [1:53:10<6:12:46,  1.38it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9281/40080 [1:53:11<6:12:57,  1.38it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9282/40080 [1:53:11<6:12:46,  1.38it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9283/40080 [1:53:12<6:13:40,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9284/40080 [1:53:13<6:13:42,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9285/40080 [1:53:14<6:13:51,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9286/40080 [1:53:14<6:13:34,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9287/40080 [1:53:15<6:15:10,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9288/40080 [1:53:16<6:18:18,  1.36it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9289/40080 [1:53:16<6:18:03,  1.36it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9290/40080 [1:53:17<6:15:56,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5688, 'grad_norm': 3.640625, 'learning_rate': 2.1850528700833228e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2539.54, 'epoch': 0.93}
+ 23%|██████████████████████████████████████▉                                                                                                                                 | 9290/40080 [1:53:17<6:15:56,  1.36it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9291/40080 [1:53:18<6:15:49,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9292/40080 [1:53:19<6:16:40,  1.36it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9293/40080 [1:53:19<6:16:27,  1.36it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9294/40080 [1:53:20<6:16:07,  1.36it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9295/40080 [1:53:21<6:15:33,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9296/40080 [1:53:22<6:15:31,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9297/40080 [1:53:22<6:14:34,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9298/40080 [1:53:23<6:14:27,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9299/40080 [1:53:24<6:13:23,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9300/40080 [1:53:25<6:12:54,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5166, 'grad_norm': 2.390625, 'learning_rate': 2.1844016953192156e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2365.44, 'epoch': 0.93}
+ 23%|██████████████████████████████████████▉                                                                                                                                 | 9300/40080 [1:53:25<6:12:54,  1.38it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9301/40080 [1:53:25<6:13:28,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9302/40080 [1:53:26<6:13:15,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9303/40080 [1:53:27<6:13:37,  1.37it/s] 23%|██████████████████████████████████████▉                                                                                                                                 | 9304/40080 [1:53:27<6:14:23,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9305/40080 [1:53:28<6:15:27,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9306/40080 [1:53:29<6:18:30,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9307/40080 [1:53:30<6:19:36,  1.35it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9308/40080 [1:53:30<6:18:39,  1.35it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9309/40080 [1:53:31<6:18:48,  1.35it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9310/40080 [1:53:32<6:22:35,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.5946, 'grad_norm': 3.03125, 'learning_rate': 2.18374994532024e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2366.15, 'epoch': 0.93}
+ 23%|███████████████████████████████████████                                                                                                                                 | 9310/40080 [1:53:32<6:22:35,  1.34it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9311/40080 [1:53:33<6:22:30,  1.34it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9312/40080 [1:53:33<6:19:42,  1.35it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9313/40080 [1:53:34<6:19:38,  1.35it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9314/40080 [1:53:35<6:17:24,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9315/40080 [1:53:36<6:16:26,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9316/40080 [1:53:36<6:16:24,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9317/40080 [1:53:37<6:15:57,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9318/40080 [1:53:38<6:14:58,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9319/40080 [1:53:38<6:14:54,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9320/40080 [1:53:39<6:16:42,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.557, 'grad_norm': 3.5625, 'learning_rate': 2.1830976204876253e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.9, 'epoch': 0.93}
+ 23%|███████████████████████████████████████                                                                                                                                 | 9320/40080 [1:53:39<6:16:42,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9321/40080 [1:53:40<6:21:07,  1.35it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9322/40080 [1:53:41<6:23:17,  1.34it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9323/40080 [1:53:42<6:22:08,  1.34it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9324/40080 [1:53:42<6:18:48,  1.35it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9325/40080 [1:53:43<6:16:23,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9326/40080 [1:53:44<6:15:36,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9327/40080 [1:53:44<6:15:06,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9328/40080 [1:53:45<6:14:14,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9329/40080 [1:53:46<6:14:03,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9330/40080 [1:53:47<6:13:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.547, 'grad_norm': 2.65625, 'learning_rate': 2.1824447212229552e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2542.11, 'epoch': 0.93}
+ 23%|███████████████████████████████████████                                                                                                                                 | 9330/40080 [1:53:47<6:13:54,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9331/40080 [1:53:47<6:15:34,  1.36it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9332/40080 [1:53:48<6:15:14,  1.37it/s] 23%|██████████████��████████████████████████                                                                                                                                 | 9333/40080 [1:53:49<6:13:50,  1.37it/s] 23%|███████████████████████████████████████                                                                                                                                 | 9334/40080 [1:53:50<6:13:11,  1.37it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9335/40080 [1:53:50<6:12:49,  1.37it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9336/40080 [1:53:51<6:12:38,  1.38it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9337/40080 [1:53:52<6:12:21,  1.38it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9338/40080 [1:53:52<6:12:12,  1.38it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9339/40080 [1:53:53<6:11:53,  1.38it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9340/40080 [1:53:54<6:12:07,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4942, 'grad_norm': 2.546875, 'learning_rate': 2.1817912479281656e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2572.56, 'epoch': 0.93}
+ 23%|███████████████████████████████████████▏                                                                                                                                | 9340/40080 [1:53:54<6:12:07,  1.38it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9341/40080 [1:53:55<6:13:06,  1.37it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9342/40080 [1:53:55<6:12:56,  1.37it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9343/40080 [1:53:56<6:12:55,  1.37it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9344/40080 [1:53:57<6:13:15,  1.37it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9345/40080 [1:53:58<6:12:24,  1.38it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9346/40080 [1:53:58<6:15:57,  1.36it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9347/40080 [1:53:59<6:18:55,  1.35it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9348/40080 [1:54:00<6:17:21,  1.36it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9349/40080 [1:54:00<6:15:49,  1.36it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9350/40080 [1:54:01<6:16:37,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6083, 'grad_norm': 2.3125, 'learning_rate': 2.1811372010055476e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.85, 'epoch': 0.93}
+ 23%|███████████████████████████████████████▏                                                                                                                                | 9350/40080 [1:54:01<6:16:37,  1.36it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9351/40080 [1:54:02<6:19:55,  1.35it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9352/40080 [1:54:03<6:19:51,  1.35it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9353/40080 [1:54:03<6:20:41,  1.35it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9354/40080 [1:54:04<6:21:55,  1.34it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9355/40080 [1:54:05<6:24:52,  1.33it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9356/40080 [1:54:06<6:26:27,  1.33it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9357/40080 [1:54:07<6:29:06,  1.32it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9358/40080 [1:54:07<6:24:04,  1.33it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9359/40080 [1:54:08<6:20:46,  1.34it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9360/40080 [1:54:09<6:18:48,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5453, 'grad_norm': 3.15625, 'learning_rate': 2.1804825808577438e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.45, 'epoch': 0.93}
+ 23%|███████████████████���███████████████████▏                                                                                                                                | 9360/40080 [1:54:09<6:18:48,  1.35it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9361/40080 [1:54:09<6:17:52,  1.35it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9362/40080 [1:54:10<6:15:19,  1.36it/s] 23%|███████████████████████████████████████▏                                                                                                                                | 9363/40080 [1:54:11<6:13:34,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9364/40080 [1:54:12<6:12:16,  1.38it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9365/40080 [1:54:12<6:12:01,  1.38it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9366/40080 [1:54:13<6:12:51,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9367/40080 [1:54:14<6:15:22,  1.36it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9368/40080 [1:54:15<6:14:19,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9369/40080 [1:54:15<6:13:56,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9370/40080 [1:54:16<6:13:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4714, 'grad_norm': 2.46875, 'learning_rate': 2.179827387887751e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2535.88, 'epoch': 0.94}
+ 23%|███████████████████████████████████████▎                                                                                                                                | 9370/40080 [1:54:16<6:13:28,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9371/40080 [1:54:17<6:13:05,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9372/40080 [1:54:17<6:13:00,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9373/40080 [1:54:18<6:13:31,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9374/40080 [1:54:19<6:14:57,  1.36it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9375/40080 [1:54:20<6:16:42,  1.36it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9376/40080 [1:54:20<6:15:03,  1.36it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9377/40080 [1:54:21<6:13:28,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9378/40080 [1:54:22<6:13:01,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9379/40080 [1:54:23<6:12:21,  1.37it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9380/40080 [1:54:23<6:11:39,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5206, 'grad_norm': 2.453125, 'learning_rate': 2.1791716224989177e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2423.01, 'epoch': 0.94}
+ 23%|███████████████████████████████████████▎                                                                                                                                | 9380/40080 [1:54:23<6:11:39,  1.38it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9381/40080 [1:54:24<6:12:00,  1.38it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9382/40080 [1:54:25<6:11:43,  1.38it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9383/40080 [1:54:25<6:11:07,  1.38it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9384/40080 [1:54:26<6:11:05,  1.38it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9385/40080 [1:54:27<7:09:14,  1.19it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9386/40080 [1:54:28<6:51:34,  1.24it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9387/40080 [1:54:29<6:39:49,  1.28it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9388/40080 [1:54:29<6:31:19,  1.31it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9389/40080 [1:54:30<6:25:40,  1.33it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9390/40080 [1:54:31<6:21:56,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.4871, 'grad_norm': 3.796875, 'learning_rate': 2.178515285094945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2283.89, 'epoch': 0.94}
+ 23%|███████████████████████████████████████▎                                                                                                                                | 9390/40080 [1:54:31<6:21:56,  1.34it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9391/40080 [1:54:32<6:21:01,  1.34it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9392/40080 [1:54:32<6:21:39,  1.34it/s] 23%|███████████████████████████████████████▎                                                                                                                                | 9393/40080 [1:54:33<6:21:47,  1.34it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9394/40080 [1:54:34<6:21:50,  1.34it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9395/40080 [1:54:35<6:20:11,  1.35it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9396/40080 [1:54:35<6:16:58,  1.36it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9397/40080 [1:54:36<6:17:23,  1.36it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9398/40080 [1:54:37<6:15:00,  1.36it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9399/40080 [1:54:38<6:14:02,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9400/40080 [1:54:38<6:13:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5968, 'grad_norm': 3.515625, 'learning_rate': 2.1778583760798866e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2457.73, 'epoch': 0.94}
+ 23%|███████████████████████████████████████▍                                                                                                                                | 9400/40080 [1:54:38<6:13:07,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9401/40080 [1:54:39<6:12:25,  1.37it/s] 23%|██���████████████████████████████████████▍                                                                                                                                | 9402/40080 [1:54:40<6:13:43,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9403/40080 [1:54:40<6:14:00,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9404/40080 [1:54:41<6:15:02,  1.36it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9405/40080 [1:54:42<6:14:33,  1.36it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9406/40080 [1:54:43<6:13:54,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9407/40080 [1:54:43<6:14:21,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9408/40080 [1:54:44<6:14:08,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9409/40080 [1:54:45<6:12:47,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9410/40080 [1:54:46<6:12:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5484, 'grad_norm': 2.421875, 'learning_rate': 2.1772008958581473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2243.42, 'epoch': 0.94}
+ 23%|███████████████████████████████████████▍                                                                                                                                | 9410/40080 [1:54:46<6:12:40,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9411/40080 [1:54:46<6:13:32,  1.37it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9412/40080 [1:54:47<6:19:33,  1.35it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9413/40080 [1:54:48<6:17:30,  1.35it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9414/40080 [1:54:49<6:18:01,  1.35it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9415/40080 [1:54:49<6:17:15,  1.35it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9416/40080 [1:54:50<6:16:42,  1.36it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9417/40080 [1:54:51<6:19:06,  1.35it/s] 23%|███████████████████████████████████████▍                                                                                                                                | 9418/40080 [1:54:52<6:31:42,  1.30it/s] 24%|███████████████████████████████████████▍                                                                                                                                | 9419/40080 [1:54:52<6:31:03,  1.31it/s] 24%|███████████████████████████████████████▍                                                                                                                                | 9420/40080 [1:54:53<6:28:43,  1.31it/s]                                                                                                                                                                                                                      {'loss': 0.4997, 'grad_norm': 3.75, 'learning_rate': 2.176542844834485e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2249.54, 'epoch': 0.94}
+ 24%|███████████████████████████████████████▍                                                                                                                                | 9420/40080 [1:54:53<6:28:43,  1.31it/s] 24%|███████████████████████████████████████▍                                                                                                                                | 9421/40080 [1:54:54<6:33:01,  1.30it/s] 24%|███████████████████████████████████████▍                                                                                                                                | 9422/40080 [1:54:55<6:30:34,  1.31it/s] 24%|███████████████████████████████████████▍                                                                                                                                | 9423/40080 [1:54:55<6:27:27,  1.32it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9424/40080 [1:54:56<6:26:26,  1.32it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9425/40080 [1:54:57<6:24:06,  1.33it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9426/40080 [1:54:58<6:23:04,  1.33it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9427/40080 [1:54:58<6:20:09,  1.34it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9428/40080 [1:54:59<6:17:17,  1.35it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9429/40080 [1:55:00<6:16:25,  1.36it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9430/40080 [1:55:01<6:15:51,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.6112, 'grad_norm': 2.390625, 'learning_rate': 2.1758842234140067e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.77, 'epoch': 0.94}
+ 24%|███████████████████████████████████████▌                                                                                                                                | 9430/40080 [1:55:01<6:15:51,  1.36it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9431/40080 [1:55:01<6:15:09,  1.36it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9432/40080 [1:55:02<6:15:00,  1.36it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9433/40080 [1:55:03<6:13:59,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9434/40080 [1:55:03<6:13:31,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9435/40080 [1:55:04<6:13:57,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9436/40080 [1:55:05<6:13:37,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9437/40080 [1:55:06<6:13:01,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9438/40080 [1:55:06<6:13:15,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9439/40080 [1:55:07<6:13:36,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9440/40080 [1:55:08<6:13:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4795, 'grad_norm': 3.59375, 'learning_rate': 2.1752250320021728e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2440.34, 'epoch': 0.94}
+ 24%|███████████████████████████████████████▌                                                                                                                                | 9440/40080 [1:55:08<6:13:19,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9441/40080 [1:55:09<6:13:36,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9442/40080 [1:55:09<6:12:47,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9443/40080 [1:55:10<6:12:23,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9444/40080 [1:55:11<6:12:56,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9445/40080 [1:55:12<6:12:54,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9446/40080 [1:55:12<6:12:03,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9447/40080 [1:55:13<6:11:42,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9448/40080 [1:55:14<6:11:41,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9449/40080 [1:55:14<6:11:34,  1.37it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9450/40080 [1:55:15<6:11:03,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5529, 'grad_norm': 3.25, 'learning_rate': 2.1745652710047933e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.9, 'epoch': 0.94}
+ 24%|███████████████████████████████████████▌                                                                                                                                | 9450/40080 [1:55:15<6:11:03,  1.38it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9451/40080 [1:55:16<6:11:06,  1.38it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9452/40080 [1:55:17<6:10:51,  1.38it/s] 24%|███████████████████████████████████████▌                                                                                                                                | 9453/40080 [1:55:17<6:10:29,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9454/40080 [1:55:18<6:10:02,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9455/40080 [1:55:19<6:10:24,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9456/40080 [1:55:20<6:10:34,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9457/40080 [1:55:20<6:10:37,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9458/40080 [1:55:21<6:09:44,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9459/40080 [1:55:22<6:10:32,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9460/40080 [1:55:22<6:11:02,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5781, 'grad_norm': 2.671875, 'learning_rate': 2.1739049408280293e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2385.4, 'epoch': 0.94}
+ 24%|███████████████████████████████████████▋                                                                                                                                | 9460/40080 [1:55:22<6:11:02,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9461/40080 [1:55:23<6:12:18,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9462/40080 [1:55:24<6:12:05,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9463/40080 [1:55:25<6:12:35,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9464/40080 [1:55:25<6:11:51,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9465/40080 [1:55:26<6:12:01,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9466/40080 [1:55:27<6:12:17,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9467/40080 [1:55:28<6:11:48,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9468/40080 [1:55:28<6:11:29,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9469/40080 [1:55:29<6:13:27,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9470/40080 [1:55:30<6:18:43,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.5026, 'grad_norm': 2.453125, 'learning_rate': 2.173244041878392e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2223.65, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▋                                                                                                                                | 9470/40080 [1:55:30<6:18:43,  1.35it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9471/40080 [1:55:30<6:16:47,  1.35it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9472/40080 [1:55:31<6:14:50,  1.36it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9473/40080 [1:55:32<6:13:22,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9474/40080 [1:55:33<6:12:27,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9475/40080 [1:55:33<6:12:05,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9476/40080 [1:55:34<6:10:41,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9477/40080 [1:55:35<6:10:53,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9478/40080 [1:55:36<6:10:06,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9479/40080 [1:55:36<6:11:00,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9480/40080 [1:55:37<6:10:43,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5115, 'grad_norm': 2.78125, 'learning_rate': 2.1725825745627433e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2264.93, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▋                                                                                                                                | 9480/40080 [1:55:37<6:10:43,  1.38it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9481/40080 [1:55:38<6:10:54,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9482/40080 [1:55:38<6:11:36,  1.37it/s] 24%|███████████████████████████████████████▋                                                                                                                                | 9483/40080 [1:55:39<6:15:19,  1.36it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9484/40080 [1:55:40<6:18:17,  1.35it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9485/40080 [1:55:41<6:16:30,  1.35it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9486/40080 [1:55:41<6:15:25,  1.36it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9487/40080 [1:55:42<6:14:07,  1.36it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9488/40080 [1:55:43<6:12:49,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9489/40080 [1:55:44<6:12:17,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9490/40080 [1:55:44<6:12:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5663, 'grad_norm': 2.984375, 'learning_rate': 2.1719205392882945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2282.33, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▊                                                                                                                                | 9490/40080 [1:55:44<6:12:00,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9491/40080 [1:55:45<6:12:21,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9492/40080 [1:55:46<6:12:03,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9493/40080 [1:55:47<6:11:33,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9494/40080 [1:55:47<6:11:49,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9495/40080 [1:55:48<6:11:59,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9496/40080 [1:55:49<6:11:48,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9497/40080 [1:55:49<6:11:49,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9498/40080 [1:55:50<6:12:07,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9499/40080 [1:55:51<6:12:08,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9500/40080 [1:55:52<6:12:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5415, 'grad_norm': 2.921875, 'learning_rate': 2.1712579364626066e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2309.61, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▊                                                                                                                                | 9500/40080 [1:55:52<6:12:16,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9501/40080 [1:55:52<6:13:19,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9502/40080 [1:55:53<6:12:56,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9503/40080 [1:55:54<6:12:33,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9504/40080 [1:55:55<6:12:26,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9505/40080 [1:55:55<6:11:40,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9506/40080 [1:55:56<6:11:00,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9507/40080 [1:55:57<6:11:31,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9508/40080 [1:55:58<6:12:34,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9509/40080 [1:55:58<6:12:15,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9510/40080 [1:55:59<6:11:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6023, 'grad_norm': 3.46875, 'learning_rate': 2.17059476649359e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2457.7, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▊                                                                                                                                | 9510/40080 [1:55:59<6:11:56,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9511/40080 [1:56:00<6:13:03,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9512/40080 [1:56:00<6:13:06,  1.37it/s] 24%|███████████████████████████████████████▊                                                                                                                                | 9513/40080 [1:56:01<6:17:24,  1.35it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9514/40080 [1:56:02<6:16:52,  1.35it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9515/40080 [1:56:03<6:14:38,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9516/40080 [1:56:03<6:13:53,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9517/40080 [1:56:04<6:13:31,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9518/40080 [1:56:05<6:13:12,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9519/40080 [1:56:06<6:12:50,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9520/40080 [1:56:06<6:15:01,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5255, 'grad_norm': 3.109375, 'learning_rate': 2.1699310297895045e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2374.72, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▉                                                                                                                                | 9520/40080 [1:56:06<6:15:01,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9521/40080 [1:56:07<6:15:03,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9522/40080 [1:56:08<6:14:11,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9523/40080 [1:56:09<6:15:42,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9524/40080 [1:56:09<6:17:35,  1.35it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9525/40080 [1:56:10<6:15:23,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9526/40080 [1:56:11<6:14:45,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9527/40080 [1:56:11<6:13:33,  1.36it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9528/40080 [1:56:12<6:12:41,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9529/40080 [1:56:13<6:12:39,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9530/40080 [1:56:14<6:12:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5186, 'grad_norm': 2.734375, 'learning_rate': 2.169266726758959e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2440.49, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▉                                                                                                                                | 9530/40080 [1:56:14<6:12:39,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9531/40080 [1:56:14<6:12:52,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9532/40080 [1:56:15<6:12:15,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9533/40080 [1:56:16<6:11:39,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9534/40080 [1:56:17<6:11:11,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9535/40080 [1:56:17<6:11:14,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9536/40080 [1:56:18<6:11:35,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9537/40080 [1:56:19<6:11:08,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9538/40080 [1:56:19<6:10:56,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9539/40080 [1:56:20<6:11:16,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9540/40080 [1:56:21<6:10:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5266, 'grad_norm': 3.703125, 'learning_rate': 2.1686018578109095e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2157.93, 'epoch': 0.95}
+ 24%|███████████████████████████████████████▉                                                                                                                                | 9540/40080 [1:56:21<6:10:45,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9541/40080 [1:56:22<6:12:07,  1.37it/s] 24%|███████████████████████████████████████▉                                                                                                                                | 9542/40080 [1:56:22<6:11:54,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9543/40080 [1:56:23<6:11:51,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9544/40080 [1:56:24<6:12:02,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9545/40080 [1:56:25<6:12:43,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9546/40080 [1:56:25<6:12:57,  1.36it/s] 24%|████████████████████████████████████████                                                                                                                                | 9547/40080 [1:56:26<6:12:33,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9548/40080 [1:56:27<6:12:06,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9549/40080 [1:56:28<6:11:57,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9550/40080 [1:56:28<6:11:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.55, 'grad_norm': 3.296875, 'learning_rate': 2.1679364233546627e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2556.39, 'epoch': 0.95}
+ 24%|████████████████████████████████████████                                                                                                                                | 9550/40080 [1:56:28<6:11:43,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9551/40080 [1:56:29<6:12:16,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9552/40080 [1:56:30<6:11:46,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9553/40080 [1:56:30<6:11:22,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9554/40080 [1:56:31<6:11:34,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9555/40080 [1:56:32<6:11:41,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9556/40080 [1:56:33<6:11:22,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9557/40080 [1:56:33<6:11:41,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9558/40080 [1:56:34<6:11:29,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9559/40080 [1:56:35<6:11:00,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9560/40080 [1:56:36<6:10:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5439, 'grad_norm': 3.34375, 'learning_rate': 2.167270423799872e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2296.71, 'epoch': 0.95}
+ 24%|████████████████████████████████████████                                                                                                                                | 9560/40080 [1:56:36<6:10:00,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9561/40080 [1:56:36<6:09:44,  1.38it/s] 24%|████████████████████████████████████████                                                                                                                                | 9562/40080 [1:56:37<6:10:15,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9563/40080 [1:56:38<6:10:10,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9564/40080 [1:56:38<6:09:39,  1.38it/s] 24%|████████████████████████████████████████                                                                                                                                | 9565/40080 [1:56:39<6:10:05,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9566/40080 [1:56:40<6:10:14,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9567/40080 [1:56:41<6:09:59,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9568/40080 [1:56:41<6:10:35,  1.37it/s] 24%|████████████████████████████████████���███                                                                                                                                | 9569/40080 [1:56:42<6:11:00,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9570/40080 [1:56:43<6:11:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5795, 'grad_norm': 3.078125, 'learning_rate': 2.166603859556539e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2286.58, 'epoch': 0.96}
+ 24%|████████████████████████████████████████                                                                                                                                | 9570/40080 [1:56:43<6:11:26,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9571/40080 [1:56:44<6:11:52,  1.37it/s] 24%|████████████████████████████████████████                                                                                                                                | 9572/40080 [1:56:44<6:11:23,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9573/40080 [1:56:45<6:11:38,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9574/40080 [1:56:46<6:11:39,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9575/40080 [1:56:47<6:11:01,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9576/40080 [1:56:47<6:11:05,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9577/40080 [1:56:48<6:11:42,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9578/40080 [1:56:49<6:11:49,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9579/40080 [1:56:49<6:10:58,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9580/40080 [1:56:50<6:10:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5357, 'grad_norm': 3.265625, 'learning_rate': 2.1659367310350125e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2493.23, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▏                                                                                                                               | 9580/40080 [1:56:50<6:10:57,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9581/40080 [1:56:51<6:11:16,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9582/40080 [1:56:52<6:10:55,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9583/40080 [1:56:52<6:10:06,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9584/40080 [1:56:53<6:10:15,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9585/40080 [1:56:54<6:10:10,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9586/40080 [1:56:55<6:10:01,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9587/40080 [1:56:55<6:10:14,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9588/40080 [1:56:56<6:10:26,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9589/40080 [1:56:57<6:10:31,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9590/40080 [1:56:57<6:10:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4871, 'grad_norm': 2.65625, 'learning_rate': 2.1652690386459896e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2258.97, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▏                                                                                                                               | 9590/40080 [1:56:57<6:10:24,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9591/40080 [1:56:58<6:10:34,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9592/40080 [1:56:59<6:10:08,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9593/40080 [1:57:00<6:10:05,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9594/40080 [1:57:00<6:10:09,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9595/40080 [1:57:01<6:10:19,  1.37it/s] 24%|██████████████████████��█████████████████▏                                                                                                                               | 9596/40080 [1:57:02<6:10:25,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9597/40080 [1:57:03<6:11:12,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9598/40080 [1:57:03<6:11:07,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9599/40080 [1:57:04<6:10:36,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9600/40080 [1:57:05<6:10:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5311, 'grad_norm': 3.71875, 'learning_rate': 2.1646007828005133e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2364.71, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▏                                                                                                                               | 9600/40080 [1:57:05<6:10:22,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9601/40080 [1:57:05<6:10:35,  1.37it/s] 24%|████████████████████████████████████████▏                                                                                                                               | 9602/40080 [1:57:06<6:10:21,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9603/40080 [1:57:07<6:10:48,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9604/40080 [1:57:08<6:10:20,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9605/40080 [1:57:08<6:11:10,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9606/40080 [1:57:09<6:10:49,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9607/40080 [1:57:10<6:11:18,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9608/40080 [1:57:11<6:10:30,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9609/40080 [1:57:11<6:10:33,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9610/40080 [1:57:12<6:10:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5891, 'grad_norm': 3.65625, 'learning_rate': 2.1639319639099752e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.06, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▎                                                                                                                               | 9610/40080 [1:57:12<6:10:14,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9611/40080 [1:57:13<6:10:28,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9612/40080 [1:57:13<6:09:54,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9613/40080 [1:57:14<6:09:21,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9614/40080 [1:57:15<6:09:18,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9615/40080 [1:57:16<6:09:13,  1.38it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9616/40080 [1:57:16<6:09:50,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9617/40080 [1:57:17<6:10:17,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9618/40080 [1:57:18<6:11:03,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9619/40080 [1:57:19<6:11:20,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9620/40080 [1:57:19<6:10:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5249, 'grad_norm': 3.25, 'learning_rate': 2.1632625823861116e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.93, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▎                                                                                                                               | 9620/40080 [1:57:19<6:10:36,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9621/40080 [1:57:20<6:12:13,  1.36it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9622/40080 [1:57:21<6:11:54,  1.36it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9623/40080 [1:57:22<6:11:35,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9624/40080 [1:57:22<6:10:40,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9625/40080 [1:57:23<6:10:27,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9626/40080 [1:57:24<6:09:25,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9627/40080 [1:57:24<6:09:36,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9628/40080 [1:57:25<6:09:56,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9629/40080 [1:57:26<6:10:34,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9630/40080 [1:57:27<6:09:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.515, 'grad_norm': 3.609375, 'learning_rate': 2.1625926386410068e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2442.08, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▎                                                                                                                               | 9630/40080 [1:57:27<6:09:33,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9631/40080 [1:57:27<6:09:34,  1.37it/s] 24%|████████████████████████████████████████▎                                                                                                                               | 9632/40080 [1:57:28<6:10:04,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9633/40080 [1:57:29<6:10:06,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9634/40080 [1:57:30<6:11:29,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9635/40080 [1:57:30<6:10:24,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9636/40080 [1:57:31<6:09:41,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9637/40080 [1:57:32<6:09:50,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9638/40080 [1:57:32<6:09:43,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9639/40080 [1:57:33<6:09:54,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9640/40080 [1:57:34<6:09:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5134, 'grad_norm': 3.40625, 'learning_rate': 2.16192213308709e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.24, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▍                                                                                                                               | 9640/40080 [1:57:34<6:09:35,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9641/40080 [1:57:35<6:09:20,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9642/40080 [1:57:35<6:09:16,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9643/40080 [1:57:36<6:09:43,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9644/40080 [1:57:37<6:09:22,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9645/40080 [1:57:38<6:09:05,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9646/40080 [1:57:38<6:09:17,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9647/40080 [1:57:39<6:09:42,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9648/40080 [1:57:40<6:10:08,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9649/40080 [1:57:40<6:10:21,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9650/40080 [1:57:41<6:10:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4723, 'grad_norm': 2.171875, 'learning_rate': 2.1612510661371366e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.38, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▍                                                                                                                               | 9650/40080 [1:57:41<6:10:31,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9651/40080 [1:57:42<6:10:53,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9652/40080 [1:57:43<6:10:10,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9653/40080 [1:57:43<6:09:32,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9654/40080 [1:57:44<6:09:41,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9655/40080 [1:57:45<6:09:47,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9656/40080 [1:57:46<6:10:17,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9657/40080 [1:57:46<6:10:32,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9658/40080 [1:57:47<6:10:43,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9659/40080 [1:57:48<6:10:17,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9660/40080 [1:57:49<6:09:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5397, 'grad_norm': 2.546875, 'learning_rate': 2.1605794382042684e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2390.34, 'epoch': 0.96}
+ 24%|████████████████████████████████████████▍                                                                                                                               | 9660/40080 [1:57:49<6:09:40,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9661/40080 [1:57:49<6:10:19,  1.37it/s] 24%|████████████████████████████████████████▍                                                                                                                               | 9662/40080 [1:57:50<6:09:59,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9663/40080 [1:57:51<6:09:46,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9664/40080 [1:57:51<6:09:29,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9665/40080 [1:57:52<6:09:46,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9666/40080 [1:57:53<6:09:30,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9667/40080 [1:57:54<6:08:53,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9668/40080 [1:57:54<6:08:27,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9669/40080 [1:57:55<6:08:12,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9670/40080 [1:57:56<6:08:25,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5669, 'grad_norm': 3.0625, 'learning_rate': 2.1599072497019514e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2287.19, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▌                                                                                                                               | 9670/40080 [1:57:56<6:08:25,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9671/40080 [1:57:57<6:08:45,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9672/40080 [1:57:57<6:08:35,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9673/40080 [1:57:58<6:08:15,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9674/40080 [1:57:59<6:07:47,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9675/40080 [1:57:59<6:08:11,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9676/40080 [1:58:00<6:08:21,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9677/40080 [1:58:01<6:08:19,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9678/40080 [1:58:02<6:08:57,  1.37it/s] 24%|████████████████████████████���███████████▌                                                                                                                               | 9679/40080 [1:58:02<6:08:34,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9680/40080 [1:58:03<6:08:25,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5543, 'grad_norm': 3.703125, 'learning_rate': 2.1592345010439972e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2241.42, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▌                                                                                                                               | 9680/40080 [1:58:03<6:08:25,  1.38it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9681/40080 [1:58:04<6:09:25,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9682/40080 [1:58:05<6:10:10,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9683/40080 [1:58:05<6:09:19,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9684/40080 [1:58:06<6:09:08,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9685/40080 [1:58:07<6:08:40,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9686/40080 [1:58:07<6:08:43,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9687/40080 [1:58:08<6:09:15,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9688/40080 [1:58:09<6:08:51,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9689/40080 [1:58:10<6:08:35,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9690/40080 [1:58:10<6:08:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5612, 'grad_norm': 4.65625, 'learning_rate': 2.1585611926445626e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2413.12, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▌                                                                                                                               | 9690/40080 [1:58:10<6:08:37,  1.37it/s] 24%|████████████████████████████████████████▌                                                                                                                               | 9691/40080 [1:58:11<6:09:16,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9692/40080 [1:58:12<6:08:47,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9693/40080 [1:58:13<6:08:22,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9694/40080 [1:58:13<6:09:32,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9695/40080 [1:58:14<6:08:43,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9696/40080 [1:58:15<6:08:25,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9697/40080 [1:58:15<6:08:38,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9698/40080 [1:58:16<6:08:27,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9699/40080 [1:58:17<6:08:37,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9700/40080 [1:58:18<6:08:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.402, 'grad_norm': 2.8125, 'learning_rate': 2.1578873249181484e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2354.2, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▋                                                                                                                               | 9700/40080 [1:58:18<6:08:49,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9701/40080 [1:58:18<6:09:01,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9702/40080 [1:58:19<6:08:59,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9703/40080 [1:58:20<6:09:52,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9704/40080 [1:58:21<6:10:07,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9705/40080 [1:58:21<6:09:50,  1.37it/s] 24%|████████████���███████████████████████████▋                                                                                                                               | 9706/40080 [1:58:22<6:09:50,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9707/40080 [1:58:23<6:09:09,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9708/40080 [1:58:23<6:08:28,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9709/40080 [1:58:24<6:07:58,  1.38it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9710/40080 [1:58:25<6:10:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4903, 'grad_norm': 2.53125, 'learning_rate': 2.1572128982796e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.67, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▋                                                                                                                               | 9710/40080 [1:58:25<6:10:06,  1.37it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9711/40080 [1:58:26<6:11:22,  1.36it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9712/40080 [1:58:26<6:11:30,  1.36it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9713/40080 [1:58:27<6:13:20,  1.36it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9714/40080 [1:58:28<6:13:56,  1.35it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9715/40080 [1:58:29<6:13:52,  1.35it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9716/40080 [1:58:29<6:14:13,  1.35it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9717/40080 [1:58:30<6:14:55,  1.35it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9718/40080 [1:58:31<6:26:04,  1.31it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9719/40080 [1:58:32<6:25:33,  1.31it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9720/40080 [1:58:32<6:25:48,  1.31it/s]                                                                                                                                                                                                                      {'loss': 0.6315, 'grad_norm': 3.578125, 'learning_rate': 2.1565379131441073e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2311.3, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▋                                                                                                                               | 9720/40080 [1:58:32<6:25:48,  1.31it/s] 24%|████████████████████████████████████████▋                                                                                                                               | 9721/40080 [1:58:33<6:21:38,  1.33it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9722/40080 [1:58:34<6:16:59,  1.34it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9723/40080 [1:58:35<6:14:11,  1.35it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9724/40080 [1:58:35<6:12:16,  1.36it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9725/40080 [1:58:36<6:10:21,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9726/40080 [1:58:37<6:10:07,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9727/40080 [1:58:38<6:09:37,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9728/40080 [1:58:38<6:09:18,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9729/40080 [1:58:39<6:09:08,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9730/40080 [1:58:40<6:09:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4885, 'grad_norm': 2.53125, 'learning_rate': 2.1558623699272024e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2120.68, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▊                                                                                                                               | 9730/40080 [1:58:40<6:09:13,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9731/40080 [1:58:40<6:10:42,  1.36it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9732/40080 [1:58:41<6:10:16,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9733/40080 [1:58:42<6:10:00,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9734/40080 [1:58:43<6:09:45,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9735/40080 [1:58:43<6:08:55,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9736/40080 [1:58:44<6:09:08,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9737/40080 [1:58:45<6:08:45,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9738/40080 [1:58:46<6:08:13,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9739/40080 [1:58:46<6:08:03,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9740/40080 [1:58:47<6:08:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5378, 'grad_norm': 3.125, 'learning_rate': 2.155186269044763e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2343.54, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▊                                                                                                                               | 9740/40080 [1:58:47<6:08:00,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9741/40080 [1:58:48<6:08:12,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9742/40080 [1:58:48<6:07:58,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9743/40080 [1:58:49<6:07:44,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9744/40080 [1:58:50<6:09:06,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9745/40080 [1:58:51<6:08:25,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9746/40080 [1:58:51<6:08:46,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9747/40080 [1:58:52<6:09:19,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9748/40080 [1:58:53<6:09:08,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9749/40080 [1:58:54<6:08:59,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9750/40080 [1:58:54<6:08:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.461, 'grad_norm': 3.09375, 'learning_rate': 2.1545096109130092e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2352.78, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▊                                                                                                                               | 9750/40080 [1:58:54<6:08:29,  1.37it/s] 24%|████████████████████████████████████████▊                                                                                                                               | 9751/40080 [1:58:55<6:08:55,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9752/40080 [1:58:56<6:08:56,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9753/40080 [1:58:57<6:08:08,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9754/40080 [1:58:57<6:08:39,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9755/40080 [1:58:58<6:08:30,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9756/40080 [1:58:59<6:08:30,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9757/40080 [1:58:59<6:09:17,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9758/40080 [1:59:00<6:09:30,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9759/40080 [1:59:01<6:09:43,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9760/40080 [1:59:02<6:08:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5164, 'grad_norm': 3.109375, 'learning_rate': 2.153832395948504e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.0, 'epoch': 0.97}
+ 24%|████████████████████████████████████████▉                                                                                                                               | 9760/40080 [1:59:02<6:08:42,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9761/40080 [1:59:02<6:09:18,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9762/40080 [1:59:03<6:08:48,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9763/40080 [1:59:04<6:08:58,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9764/40080 [1:59:05<6:09:03,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9765/40080 [1:59:05<6:08:58,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9766/40080 [1:59:06<6:08:34,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9767/40080 [1:59:07<6:07:56,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9768/40080 [1:59:07<6:08:07,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9769/40080 [1:59:08<6:08:40,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9770/40080 [1:59:09<6:08:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4671, 'grad_norm': 3.40625, 'learning_rate': 2.1531546245681535e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2534.83, 'epoch': 0.98}
+ 24%|████████████████████████████████████████▉                                                                                                                               | 9770/40080 [1:59:09<6:08:45,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9771/40080 [1:59:10<6:09:24,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9772/40080 [1:59:10<6:09:18,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9773/40080 [1:59:11<6:08:08,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9774/40080 [1:59:12<6:08:12,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9775/40080 [1:59:13<6:07:40,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9776/40080 [1:59:13<6:08:05,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9777/40080 [1:59:14<6:08:17,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9778/40080 [1:59:15<6:08:15,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9779/40080 [1:59:15<6:08:07,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9780/40080 [1:59:16<6:07:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5014, 'grad_norm': 4.0625, 'learning_rate': 2.1524762971892065e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2354.77, 'epoch': 0.98}
+ 24%|████████████████████████████████████████▉                                                                                                                               | 9780/40080 [1:59:16<6:07:29,  1.37it/s] 24%|████████████████████████████████████████▉                                                                                                                               | 9781/40080 [1:59:17<6:07:28,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9782/40080 [1:59:18<6:07:47,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9783/40080 [1:59:18<6:07:15,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9784/40080 [1:59:19<6:07:41,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9785/40080 [1:59:20<6:06:50,  1.38it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9786/40080 [1:59:21<6:07:43,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9787/40080 [1:59:21<6:07:58,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9788/40080 [1:59:22<6:07:33,  1.37it/s] 24%|███████████████████��█████████████████████                                                                                                                               | 9789/40080 [1:59:23<6:08:13,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9790/40080 [1:59:24<6:08:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5193, 'grad_norm': 2.515625, 'learning_rate': 2.1517974142292528e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2571.65, 'epoch': 0.98}
+ 24%|█████████████████████████████████████████                                                                                                                               | 9790/40080 [1:59:24<6:08:21,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9791/40080 [1:59:24<6:09:02,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9792/40080 [1:59:25<6:08:58,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9793/40080 [1:59:26<6:08:45,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9794/40080 [1:59:26<6:07:51,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9795/40080 [1:59:27<6:07:31,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9796/40080 [1:59:28<6:07:42,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9797/40080 [1:59:29<6:08:10,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9798/40080 [1:59:29<6:07:53,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9799/40080 [1:59:30<6:07:50,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9800/40080 [1:59:31<6:08:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.542, 'grad_norm': 2.4375, 'learning_rate': 2.1511179761062265e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2262.65, 'epoch': 0.98}
+ 24%|█████████████████████████████████████████                                                                                                                               | 9800/40080 [1:59:31<6:08:02,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9801/40080 [1:59:32<6:08:03,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9802/40080 [1:59:32<6:08:48,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9803/40080 [1:59:33<6:07:50,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9804/40080 [1:59:34<6:08:13,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9805/40080 [1:59:34<6:08:48,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9806/40080 [1:59:35<6:08:29,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9807/40080 [1:59:36<6:08:15,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9808/40080 [1:59:37<6:08:11,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9809/40080 [1:59:37<6:08:03,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9810/40080 [1:59:38<6:07:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.6133, 'grad_norm': 2.953125, 'learning_rate': 2.1504379832384013e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2458.48, 'epoch': 0.98}
+ 24%|█████████████████████████████████████████                                                                                                                               | 9810/40080 [1:59:38<6:07:56,  1.37it/s] 24%|█████████████████████████████████████████                                                                                                                               | 9811/40080 [1:59:39<6:08:31,  1.37it/s] 24%|█████████████████████████████████████████▏                                                                                                                              | 9812/40080 [1:59:40<6:07:40,  1.37it/s] 24%|█████████████████████████████████████████▏                                                                                                                              | 9813/40080 [1:59:40<6:07:44,  1.37it/s] 24%|█████████████████████████████████████████▏                                                                                                                              | 9814/40080 [1:59:41<6:07:07,  1.37it/s] 24%|█████████████████████████████████████████▏                                                                                                                              | 9815/40080 [1:59:42<6:07:04,  1.37it/s] 24%|���████████████████████████████████████████▏                                                                                                                              | 9816/40080 [1:59:42<6:06:47,  1.38it/s] 24%|█████████████████████████████████████████▏                                                                                                                              | 9817/40080 [1:59:43<6:07:39,  1.37it/s] 24%|█████████████████████████████████████████▏                                                                                                                              | 9818/40080 [1:59:44<6:07:15,  1.37it/s] 24%|█████████████████████████████████████████▏                                                                                                                              | 9819/40080 [1:59:45<6:07:22,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9820/40080 [1:59:45<6:06:45,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5826, 'grad_norm': 3.390625, 'learning_rate': 2.149757436044394e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2483.31, 'epoch': 0.98}
+ 25%|█████████████████████████████████████████▏                                                                                                                              | 9820/40080 [1:59:45<6:06:45,  1.38it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9821/40080 [1:59:46<6:07:14,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9822/40080 [1:59:47<6:06:20,  1.38it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9823/40080 [1:59:48<6:05:55,  1.38it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9824/40080 [1:59:48<6:06:20,  1.38it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9825/40080 [1:59:49<6:06:56,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9826/40080 [1:59:50<6:06:48,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9827/40080 [1:59:50<6:06:05,  1.38it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9828/40080 [1:59:51<6:06:52,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9829/40080 [1:59:52<6:07:17,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9830/40080 [1:59:53<6:06:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5197, 'grad_norm': 2.828125, 'learning_rate': 2.1490763349431614e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2479.53, 'epoch': 0.98}
+ 25%|█████████████████████████████████████████▏                                                                                                                              | 9830/40080 [1:59:53<6:06:56,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9831/40080 [1:59:53<6:07:29,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9832/40080 [1:59:54<6:07:16,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9833/40080 [1:59:55<6:07:27,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9834/40080 [1:59:56<6:07:28,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9835/40080 [1:59:56<6:07:35,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9836/40080 [1:59:57<6:07:17,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9837/40080 [1:59:58<6:06:52,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9838/40080 [1:59:58<6:06:46,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9839/40080 [1:59:59<6:07:18,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9840/40080 [2:00:00<6:07:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4671, 'grad_norm': 2.578125, 'learning_rate': 2.148394680354002e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2380.68, 'epoch': 0.98}
+ 25%|█████████████████████████████████████████▏                                                                                                                              | 9840/40080 [2:00:00<6:07:33,  1.37it/s] 25%|█████████████████████████████████████████▏                                                                                                                              | 9841/40080 [2:00:01<6:07:17,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9842/40080 [2:00:01<6:06:58,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9843/40080 [2:00:02<6:08:04,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9844/40080 [2:00:03<6:08:05,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9845/40080 [2:00:04<6:07:42,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9846/40080 [2:00:04<6:07:29,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9847/40080 [2:00:05<6:08:07,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9848/40080 [2:00:06<6:07:58,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9849/40080 [2:00:07<6:08:14,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9850/40080 [2:00:07<6:07:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.553, 'grad_norm': 3.96875, 'learning_rate': 2.1477124726965553e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.42, 'epoch': 0.98}
+ 25%|█████████████████████████████████████████▎                                                                                                                              | 9850/40080 [2:00:07<6:07:25,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9851/40080 [2:00:08<6:08:13,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9852/40080 [2:00:09<6:07:17,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9853/40080 [2:00:09<6:07:39,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9854/40080 [2:00:10<6:07:29,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9855/40080 [2:00:11<6:07:14,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9856/40080 [2:00:12<6:06:50,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9857/40080 [2:00:12<6:05:59,  1.38it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9858/40080 [2:00:13<6:05:26,  1.38it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9859/40080 [2:00:14<6:06:12,  1.38it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9860/40080 [2:00:15<6:06:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5949, 'grad_norm': 3.078125, 'learning_rate': 2.1470297123908e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2272.79, 'epoch': 0.98}
+ 25%|█████████████████████████████████████████▎                                                                                                                              | 9860/40080 [2:00:15<6:06:56,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9861/40080 [2:00:15<6:08:07,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9862/40080 [2:00:16<6:06:33,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9863/40080 [2:00:17<6:06:08,  1.38it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9864/40080 [2:00:17<6:06:19,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9865/40080 [2:00:18<6:06:15,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9866/40080 [2:00:19<6:06:56,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9867/40080 [2:00:20<6:07:19,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9868/40080 [2:00:20<6:07:02,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9869/40080 [2:00:21<6:07:31,  1.37it/s] 25%|█████████████████████████████████████████▎                                                                                                                              | 9870/40080 [2:00:22<6:07:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.5343, 'grad_norm': 3.25, 'learning_rate': 2.1463463998570568e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.03, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▎                                                                                                                              | 9870/40080 [2:00:22<6:07:21,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9871/40080 [2:00:23<6:06:42,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9872/40080 [2:00:23<6:07:09,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9873/40080 [2:00:24<6:08:46,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9874/40080 [2:00:25<6:09:00,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9875/40080 [2:00:25<6:08:53,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9876/40080 [2:00:26<6:09:17,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9877/40080 [2:00:27<6:09:42,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9878/40080 [2:00:28<6:09:16,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9879/40080 [2:00:28<6:10:33,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9880/40080 [2:00:29<6:10:05,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.5676, 'grad_norm': 2.953125, 'learning_rate': 2.145662535515985e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2302.1, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▍                                                                                                                              | 9880/40080 [2:00:29<6:10:05,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9881/40080 [2:00:30<6:09:11,  1.36it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9882/40080 [2:00:31<6:08:07,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9883/40080 [2:00:31<6:07:31,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9884/40080 [2:00:32<6:07:10,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9885/40080 [2:00:33<6:06:57,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9886/40080 [2:00:34<6:05:59,  1.37it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9887/40080 [2:00:34<6:05:35,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9888/40080 [2:00:35<6:04:17,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9889/40080 [2:00:36<6:04:17,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9890/40080 [2:00:36<6:04:44,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5889, 'grad_norm': 2.796875, 'learning_rate': 2.1449781197885843e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2314.78, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▍                                                                                                                              | 9890/40080 [2:00:36<6:04:44,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9891/40080 [2:00:37<6:05:32,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9892/40080 [2:00:38<6:05:37,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9893/40080 [2:00:39<6:05:10,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9894/40080 [2:00:39<6:04:09,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9895/40080 [2:00:40<6:04:46,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9896/40080 [2:00:41<6:03:50,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9897/40080 [2:00:41<6:03:49,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9898/40080 [2:00:42<6:04:31,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9899/40080 [2:00:43<6:04:29,  1.38it/s] 25%|█████████████████████████████████████████▍                                                                                                                              | 9900/40080 [2:00:44<6:03:51,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4797, 'grad_norm': 3.5625, 'learning_rate': 2.1442931530961935e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2235.2, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▍                                                                                                                              | 9900/40080 [2:00:44<6:03:51,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9901/40080 [2:00:44<6:03:58,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9902/40080 [2:00:45<6:03:56,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9903/40080 [2:00:46<6:04:26,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9904/40080 [2:00:47<6:04:02,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9905/40080 [2:00:47<6:04:01,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9906/40080 [2:00:48<6:04:36,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9907/40080 [2:00:49<6:04:45,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9908/40080 [2:00:49<6:05:05,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9909/40080 [2:00:50<6:04:54,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9910/40080 [2:00:51<6:05:03,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5592, 'grad_norm': 3.734375, 'learning_rate': 2.1436076358604907e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.54, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▌                                                                                                                              | 9910/40080 [2:00:51<6:05:03,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9911/40080 [2:00:52<6:05:27,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9912/40080 [2:00:52<6:05:50,  1.37it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9913/40080 [2:00:53<6:05:37,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9914/40080 [2:00:54<6:05:11,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9915/40080 [2:00:55<6:04:44,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9916/40080 [2:00:55<6:04:23,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9917/40080 [2:00:56<6:04:33,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9918/40080 [2:00:57<6:04:36,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9919/40080 [2:00:57<6:04:27,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9920/40080 [2:00:58<6:04:30,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5923, 'grad_norm': 2.34375, 'learning_rate': 2.1429215685034927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2404.87, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▌                                                                                                                              | 9920/40080 [2:00:58<6:04:30,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9921/40080 [2:00:59<6:04:58,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9922/40080 [2:01:00<6:04:21,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9923/40080 [2:01:00<6:04:24,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9924/40080 [2:01:01<6:05:02,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9925/40080 [2:01:02<6:05:15,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9926/40080 [2:01:03<6:05:38,  1.37it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9927/40080 [2:01:03<6:05:17,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9928/40080 [2:01:04<6:05:10,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9929/40080 [2:01:05<6:04:54,  1.38it/s] 25%|█████████████████████████████████████████▌                                                                                                                              | 9930/40080 [2:01:05<6:04:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.526, 'grad_norm': 3.234375, 'learning_rate': 2.1422349514475558e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2342.15, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▌                                                                                                                              | 9930/40080 [2:01:05<6:04:50,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9931/40080 [2:01:06<6:05:45,  1.37it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9932/40080 [2:01:07<6:05:36,  1.37it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9933/40080 [2:01:08<6:05:16,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9934/40080 [2:01:08<6:05:38,  1.37it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9935/40080 [2:01:09<6:05:38,  1.37it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9936/40080 [2:01:10<6:05:13,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9937/40080 [2:01:11<6:04:34,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9938/40080 [2:01:11<6:04:29,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9939/40080 [2:01:12<6:04:41,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9940/40080 [2:01:13<6:04:01,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5268, 'grad_norm': 3.265625, 'learning_rate': 2.1415477851153734e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.9, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▋                                                                                                                              | 9940/40080 [2:01:13<6:04:01,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9941/40080 [2:01:13<6:05:07,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9942/40080 [2:01:14<6:04:15,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9943/40080 [2:01:15<6:04:02,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9944/40080 [2:01:16<6:03:29,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9945/40080 [2:01:16<6:03:24,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9946/40080 [2:01:17<6:03:58,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9947/40080 [2:01:18<6:03:30,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9948/40080 [2:01:18<6:03:34,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9949/40080 [2:01:19<6:04:16,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9950/40080 [2:01:20<6:03:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4687, 'grad_norm': 3.546875, 'learning_rate': 2.140860069929978e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2529.89, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▋                                                                                                                              | 9950/40080 [2:01:20<6:03:50,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9951/40080 [2:01:21<6:04:47,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9952/40080 [2:01:21<6:04:46,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9953/40080 [2:01:22<6:04:46,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9954/40080 [2:01:23<6:04:26,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9955/40080 [2:01:24<6:03:52,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9956/40080 [2:01:24<6:04:05,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9957/40080 [2:01:25<6:04:21,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9958/40080 [2:01:26<6:04:14,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9959/40080 [2:01:26<6:04:53,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                              | 9960/40080 [2:01:27<6:04:38,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.5186, 'grad_norm': 2.578125, 'learning_rate': 2.1401718063147395e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.36, 'epoch': 0.99}
+ 25%|█████████████████████████████████████████▋                                                                                                                              | 9960/40080 [2:01:27<6:04:38,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9961/40080 [2:01:28<6:05:04,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9962/40080 [2:01:29<6:04:45,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9963/40080 [2:01:29<6:04:33,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9964/40080 [2:01:30<6:05:07,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9965/40080 [2:01:31<6:04:28,  1.38it/s] 25%|██████████████████████████████���██████████▊                                                                                                                              | 9966/40080 [2:01:32<6:04:12,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9967/40080 [2:01:32<6:04:13,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9968/40080 [2:01:33<6:04:44,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9969/40080 [2:01:34<6:04:11,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9970/40080 [2:01:34<6:04:24,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4581, 'grad_norm': 2.171875, 'learning_rate': 2.1394829946933663e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.72, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▊                                                                                                                              | 9970/40080 [2:01:34<6:04:24,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9971/40080 [2:01:35<6:04:56,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9972/40080 [2:01:36<6:04:30,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9973/40080 [2:01:37<6:04:56,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9974/40080 [2:01:37<6:05:16,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9975/40080 [2:01:38<6:04:07,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9976/40080 [2:01:39<6:04:13,  1.38it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9977/40080 [2:01:40<7:01:01,  1.19it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9978/40080 [2:01:41<6:43:13,  1.24it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9979/40080 [2:01:41<6:31:22,  1.28it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9980/40080 [2:01:42<6:22:51,  1.31it/s]                                                                                                                                                                                                                      {'loss': 0.5183, 'grad_norm': 3.25, 'learning_rate': 2.138793635489903e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2350.04, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▊                                                                                                                              | 9980/40080 [2:01:42<6:22:51,  1.31it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9981/40080 [2:01:43<6:18:00,  1.33it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9982/40080 [2:01:44<6:14:16,  1.34it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9983/40080 [2:01:44<6:10:53,  1.35it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9984/40080 [2:01:45<6:09:29,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9985/40080 [2:01:46<6:07:31,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9986/40080 [2:01:46<6:05:59,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9987/40080 [2:01:47<6:05:30,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9988/40080 [2:01:48<6:05:56,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9989/40080 [2:01:49<6:04:57,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                              | 9990/40080 [2:01:49<6:04:32,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.493, 'grad_norm': 2.390625, 'learning_rate': 2.1381037291287318e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2590.86, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▊                                                                                                                              | 9990/40080 [2:01:49<6:04:32,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9991/40080 [2:01:50<6:04:26,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9992/40080 [2:01:51<6:04:04,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9993/40080 [2:01:52<6:03:23,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9994/40080 [2:01:52<6:02:55,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9995/40080 [2:01:53<6:02:27,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9996/40080 [2:01:54<6:02:34,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9997/40080 [2:01:54<6:03:03,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9998/40080 [2:01:55<6:03:11,  1.38it/s] 25%|█████████████████████████████████████████▉                                                                                                                              | 9999/40080 [2:01:56<6:03:15,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10000/40080 [2:01:57<6:03:16,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4775, 'grad_norm': 2.53125, 'learning_rate': 2.1374132760345715e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2330.85, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▋                                                                                                                             | 10000/40080 [2:01:57<6:03:16,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10001/40080 [2:01:57<6:03:57,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10002/40080 [2:01:58<6:03:30,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10003/40080 [2:01:59<6:03:36,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10004/40080 [2:02:00<6:03:26,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10005/40080 [2:02:00<6:02:36,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10006/40080 [2:02:01<6:02:46,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10007/40080 [2:02:02<6:03:05,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10008/40080 [2:02:02<6:02:35,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10009/40080 [2:02:03<6:02:41,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10010/40080 [2:02:04<6:02:00,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.6381, 'grad_norm': 4.625, 'learning_rate': 2.1367222766324786e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2226.06, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▋                                                                                                                             | 10010/40080 [2:02:04<6:02:00,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10011/40080 [2:02:05<6:02:10,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10012/40080 [2:02:05<6:03:08,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10013/40080 [2:02:06<6:03:27,  1.38it/s] 25%|█████████████████████████████████████████▋                                                                                                                             | 10014/40080 [2:02:07<6:25:16,  1.30it/s] 25%|█████████████████████████████████████████▍                                                                                                                            | 10015/40080 [2:02:10<13:17:38,  1.59s/it] 25%|█████████████████████████████████████████▍                                                                                                                            | 10016/40080 [2:02:11<11:13:06,  1.34s/it] 25%|█████████████████████████████████████████▋                                                                                                                             | 10017/40080 [2:02:12<9:40:48,  1.16s/it] 25%|█████████████████████████████████████████▋                                                                                                                             | 10018/40080 [2:02:13<8:36:58,  1.03s/it] 25%|█████████████████████████████████████████▋                                                                                                                             | 10019/40080 [2:02:13<7:51:21,  1.06it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10020/40080 [2:02:14<7:19:55,  1.14it/s]                                                                                                                                                                                                                      {'loss': 0.4756, 'grad_norm': 2.34375, 'learning_rate': 2.136030731347844e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.65, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▊                                                                                                                             | 10020/40080 [2:02:14<7:19:55,  1.14it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10021/40080 [2:02:15<6:58:49,  1.20it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10022/40080 [2:02:16<6:43:13,  1.24it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10023/40080 [2:02:16<6:32:23,  1.28it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10024/40080 [2:02:17<6:24:43,  1.30it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10025/40080 [2:02:18<6:19:25,  1.32it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10026/40080 [2:02:18<6:15:38,  1.33it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10027/40080 [2:02:19<6:12:47,  1.34it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10028/40080 [2:02:20<6:10:47,  1.35it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10029/40080 [2:02:21<6:09:12,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10030/40080 [2:02:21<6:08:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3821, 'grad_norm': 2.9375, 'learning_rate': 2.1353386406063962e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.67, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▊                                                                                                                             | 10030/40080 [2:02:21<6:08:04,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10031/40080 [2:02:22<6:07:44,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10032/40080 [2:02:23<6:06:58,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10033/40080 [2:02:24<6:06:42,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10034/40080 [2:02:24<6:06:20,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10035/40080 [2:02:25<6:06:06,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10036/40080 [2:02:26<6:06:33,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10037/40080 [2:02:27<6:06:26,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10038/40080 [2:02:27<6:06:17,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10039/40080 [2:02:28<6:06:30,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10040/40080 [2:02:29<6:06:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3844, 'grad_norm': 3.703125, 'learning_rate': 2.1346460048341993e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.94, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▊                                                                                                                             | 10040/40080 [2:02:29<6:06:12,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10041/40080 [2:02:29<6:06:40,  1.37it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10042/40080 [2:02:30<6:06:52,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10043/40080 [2:02:31<6:07:02,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10044/40080 [2:02:32<6:06:46,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10045/40080 [2:02:32<6:07:17,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10046/40080 [2:02:33<6:06:52,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10047/40080 [2:02:34<6:06:47,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10048/40080 [2:02:35<6:06:59,  1.36it/s] 25%|█████████████████████████████████████████▊                                                                                                                             | 10049/40080 [2:02:35<6:07:04,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10050/40080 [2:02:36<6:06:52,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3741, 'grad_norm': 3.015625, 'learning_rate': 2.1339528244576523e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2638.91, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▉                                                                                                                             | 10050/40080 [2:02:36<6:06:52,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10051/40080 [2:02:37<6:07:04,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10052/40080 [2:02:38<6:06:35,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10053/40080 [2:02:38<6:08:17,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10054/40080 [2:02:39<6:07:50,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10055/40080 [2:02:40<6:07:57,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10056/40080 [2:02:40<6:07:15,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10057/40080 [2:02:41<6:06:43,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10058/40080 [2:02:42<6:06:52,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10059/40080 [2:02:43<6:06:40,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10060/40080 [2:02:43<6:07:01,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3115, 'grad_norm': 2.640625, 'learning_rate': 2.1332590999034896e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2509.38, 'epoch': 1.0}
+ 25%|█████████████████████████████████████████▉                                                                                                                             | 10060/40080 [2:02:43<6:07:01,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10061/40080 [2:02:44<6:07:43,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10062/40080 [2:02:45<6:07:38,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10063/40080 [2:02:46<6:07:28,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10064/40080 [2:02:46<6:06:54,  1.36it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10065/40080 [2:02:47<6:06:20,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10066/40080 [2:02:48<6:05:57,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10067/40080 [2:02:49<6:06:01,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10068/40080 [2:02:49<6:06:00,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10069/40080 [2:02:50<6:06:20,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10070/40080 [2:02:51<6:06:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3792, 'grad_norm': 3.140625, 'learning_rate': 2.1325648315987805e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2604.58, 'epoch': 1.01}
+ 25%|█████████████████████████████████████████▉                                                                                                                             | 10070/40080 [2:02:51<6:06:06,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10071/40080 [2:02:51<6:06:10,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10072/40080 [2:02:52<6:06:03,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10073/40080 [2:02:53<6:05:51,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10074/40080 [2:02:54<6:06:05,  1.37it/s] 25%|█████████████████████████████████████████���                                                                                                                             | 10075/40080 [2:02:54<6:05:50,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10076/40080 [2:02:55<6:05:53,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10077/40080 [2:02:56<6:05:44,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10078/40080 [2:02:57<6:05:43,  1.37it/s] 25%|█████████████████████████████████████████▉                                                                                                                             | 10079/40080 [2:02:57<6:05:33,  1.37it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10080/40080 [2:02:58<6:05:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4351, 'grad_norm': 3.40625, 'learning_rate': 2.13187001997093e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.32, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████                                                                                                                             | 10080/40080 [2:02:58<6:05:17,  1.37it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10081/40080 [2:02:59<6:06:08,  1.37it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10082/40080 [2:03:00<6:06:09,  1.37it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10083/40080 [2:03:00<6:06:11,  1.37it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10084/40080 [2:03:01<6:06:32,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10085/40080 [2:03:02<6:06:34,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10086/40080 [2:03:02<6:06:40,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10087/40080 [2:03:03<6:06:40,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10088/40080 [2:03:04<6:06:50,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10089/40080 [2:03:05<6:06:35,  1.36it/s] 25%|��█████████████████████████████████████████                                                                                                                             | 10090/40080 [2:03:05<6:06:16,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3877, 'grad_norm': 2.8125, 'learning_rate': 2.131174665447677e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2750.35, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████                                                                                                                             | 10090/40080 [2:03:05<6:06:16,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10091/40080 [2:03:06<6:06:41,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10092/40080 [2:03:07<6:06:25,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10093/40080 [2:03:08<6:06:11,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10094/40080 [2:03:08<6:05:55,  1.37it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10095/40080 [2:03:09<6:05:59,  1.37it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10096/40080 [2:03:10<6:08:45,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10097/40080 [2:03:11<6:10:02,  1.35it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10098/40080 [2:03:11<6:09:10,  1.35it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10099/40080 [2:03:12<6:08:51,  1.35it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10100/40080 [2:03:13<6:08:09,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3788, 'grad_norm': 3.015625, 'learning_rate': 2.1304787684570945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.64, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████                                                                                                                             | 10100/40080 [2:03:13<6:08:09,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10101/40080 [2:03:13<6:07:59,  1.36it/s] 25%|█████��████████████████████████████████████                                                                                                                             | 10102/40080 [2:03:14<6:06:50,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10103/40080 [2:03:15<6:07:00,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10104/40080 [2:03:16<6:07:07,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10105/40080 [2:03:16<6:06:33,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10106/40080 [2:03:17<6:06:41,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10107/40080 [2:03:18<6:07:22,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10108/40080 [2:03:19<6:08:03,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10109/40080 [2:03:19<6:07:34,  1.36it/s] 25%|██████████████████████████████████████████                                                                                                                             | 10110/40080 [2:03:20<6:07:19,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4102, 'grad_norm': 2.90625, 'learning_rate': 2.1297823294275886e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.26, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████                                                                                                                             | 10110/40080 [2:03:20<6:07:19,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10111/40080 [2:03:21<6:07:48,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10112/40080 [2:03:22<6:08:11,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10113/40080 [2:03:22<6:08:03,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10114/40080 [2:03:23<6:07:37,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10115/40080 [2:03:24<6:07:10,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10116/40080 [2:03:24<6:06:50,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10117/40080 [2:03:25<6:06:30,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10118/40080 [2:03:26<6:06:14,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10119/40080 [2:03:27<6:06:22,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10120/40080 [2:03:27<6:06:29,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4066, 'grad_norm': 2.53125, 'learning_rate': 2.1290853487879015e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2552.74, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████▏                                                                                                                            | 10120/40080 [2:03:27<6:06:29,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10121/40080 [2:03:28<6:07:24,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10122/40080 [2:03:29<6:06:49,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10123/40080 [2:03:30<6:06:21,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10124/40080 [2:03:30<6:06:24,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10125/40080 [2:03:31<6:06:28,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10126/40080 [2:03:32<6:06:32,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10127/40080 [2:03:33<6:06:37,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10128/40080 [2:03:33<6:06:11,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10129/40080 [2:03:34<6:06:11,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10130/40080 [2:03:35<6:08:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4273, 'grad_norm': 3.640625, 'learning_rate': 2.1283878269671056e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2578.49, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████▏                                                                                                                            | 10130/40080 [2:03:35<6:08:04,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10131/40080 [2:03:36<6:07:48,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10132/40080 [2:03:36<6:07:18,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10133/40080 [2:03:37<6:07:46,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10134/40080 [2:03:38<6:07:34,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10135/40080 [2:03:38<6:07:37,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10136/40080 [2:03:39<6:09:23,  1.35it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10137/40080 [2:03:40<6:08:25,  1.35it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10138/40080 [2:03:41<6:07:14,  1.36it/s] 25%|██████████████████████████████████████████▏                                                                                                                            | 10139/40080 [2:03:41<6:06:52,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10140/40080 [2:03:42<6:06:31,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.382, 'grad_norm': 3.9375, 'learning_rate': 2.1276897643946093e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.58, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████▎                                                                                                                            | 10140/40080 [2:03:42<6:06:31,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10141/40080 [2:03:43<6:06:07,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10142/40080 [2:03:44<6:06:24,  1.36it/s] 25%|████���█████████████████████████████████████▎                                                                                                                            | 10143/40080 [2:03:44<6:06:17,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10144/40080 [2:03:45<6:06:22,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10145/40080 [2:03:46<6:06:36,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10146/40080 [2:03:47<6:06:20,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10147/40080 [2:03:47<6:06:17,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10148/40080 [2:03:48<6:06:24,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10149/40080 [2:03:49<6:06:01,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10150/40080 [2:03:49<6:06:42,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.372, 'grad_norm': 3.125, 'learning_rate': 2.1269911615001524e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2569.02, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████▎                                                                                                                            | 10150/40080 [2:03:49<6:06:42,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10151/40080 [2:03:50<6:07:02,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10152/40080 [2:03:51<6:06:56,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10153/40080 [2:03:52<6:06:28,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10154/40080 [2:03:52<6:06:11,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10155/40080 [2:03:53<6:06:12,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10156/40080 [2:03:54<6:06:01,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10157/40080 [2:03:55<6:06:17,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10158/40080 [2:03:55<6:06:17,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10159/40080 [2:03:56<6:06:13,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10160/40080 [2:03:57<6:06:07,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3501, 'grad_norm': 3.078125, 'learning_rate': 2.1262920187138073e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.36, 'epoch': 1.01}
+ 25%|██████████████████████████████████████████▎                                                                                                                            | 10160/40080 [2:03:57<6:06:07,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10161/40080 [2:03:58<6:06:23,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10162/40080 [2:03:58<6:05:48,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10163/40080 [2:03:59<6:06:11,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10164/40080 [2:04:00<6:06:19,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10165/40080 [2:04:01<6:05:58,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10166/40080 [2:04:01<6:05:37,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10167/40080 [2:04:02<6:05:50,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10168/40080 [2:04:03<6:06:13,  1.36it/s] 25%|██████████████████████████████████████████▎                                                                                                                            | 10169/40080 [2:04:03<6:06:08,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10170/40080 [2:04:04<6:06:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3756, 'grad_norm': 3.046875, 'learning_rate': 2.1255923364659804e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2605.58, 'epoch': 1.02}
+ 25%|██████████████████████████████████████████▍                                                                                                                            | 10170/40080 [2:04:04<6:06:02,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10171/40080 [2:04:05<6:06:29,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10172/40080 [2:04:06<6:06:01,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10173/40080 [2:04:06<6:05:25,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10174/40080 [2:04:07<6:05:48,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10175/40080 [2:04:08<6:05:13,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10176/40080 [2:04:09<6:04:51,  1.37it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10177/40080 [2:04:09<6:07:45,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10178/40080 [2:04:10<6:07:30,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10179/40080 [2:04:11<6:09:49,  1.35it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10180/40080 [2:04:12<6:08:54,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4022, 'grad_norm': 3.34375, 'learning_rate': 2.1248921151874075e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.47, 'epoch': 1.02}
+ 25%|██████████████████████████████████████████▍                                                                                                                            | 10180/40080 [2:04:12<6:08:54,  1.35it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10181/40080 [2:04:12<6:08:45,  1.35it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10182/40080 [2:04:13<6:08:10,  1.35it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10183/40080 [2:04:14<6:06:53,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10184/40080 [2:04:14<6:06:12,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10185/40080 [2:04:15<6:06:20,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10186/40080 [2:04:16<6:06:27,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10187/40080 [2:04:17<6:05:54,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10188/40080 [2:04:17<6:05:32,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10189/40080 [2:04:18<6:05:47,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10190/40080 [2:04:19<6:05:33,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3811, 'grad_norm': 2.578125, 'learning_rate': 2.1241913553091582e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2495.42, 'epoch': 1.02}
+ 25%|██████████████████████████████████████████▍                                                                                                                            | 10190/40080 [2:04:19<6:05:33,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10191/40080 [2:04:20<6:06:26,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10192/40080 [2:04:20<6:06:14,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10193/40080 [2:04:21<6:06:07,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10194/40080 [2:04:22<6:06:04,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10195/40080 [2:04:23<6:05:45,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10196/40080 [2:04:23<6:05:23,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10197/40080 [2:04:24<6:05:31,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10198/40080 [2:04:25<6:05:22,  1.36it/s] 25%|██████████████████████████████████████████▍                                                                                                                            | 10199/40080 [2:04:26<6:05:13,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10200/40080 [2:04:26<6:05:32,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3255, 'grad_norm': 3.359375, 'learning_rate': 2.1234900572626337e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.39, 'epoch': 1.02}
+ 25%|██████████████████████████████████████████▌                                                                                                                            | 10200/40080 [2:04:26<6:05:32,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10201/40080 [2:04:27<6:06:21,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10202/40080 [2:04:28<6:05:32,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10203/40080 [2:04:28<6:05:44,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10204/40080 [2:04:29<6:05:55,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10205/40080 [2:04:30<6:05:14,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10206/40080 [2:04:31<6:04:56,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10207/40080 [2:04:31<6:05:20,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10208/40080 [2:04:32<6:05:37,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10209/40080 [2:04:33<6:05:30,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10210/40080 [2:04:34<6:05:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3567, 'grad_norm': 3.0, 'learning_rate': 2.1227882214795654e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.51, 'epoch': 1.02}
+ 25%|████████████████████████████████████████��█▌                                                                                                                            | 10210/40080 [2:04:34<6:05:02,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10211/40080 [2:04:34<6:05:23,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10212/40080 [2:04:35<6:04:52,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10213/40080 [2:04:36<6:04:45,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10214/40080 [2:04:37<6:04:44,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10215/40080 [2:04:37<6:04:48,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10216/40080 [2:04:38<6:04:57,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10217/40080 [2:04:39<6:05:20,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10218/40080 [2:04:39<6:06:00,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10219/40080 [2:04:40<6:05:51,  1.36it/s] 25%|██████████████████████████████████████████▌                                                                                                                            | 10220/40080 [2:04:41<6:05:44,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3636, 'grad_norm': 3.203125, 'learning_rate': 2.1220858483920166e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2307.21, 'epoch': 1.02}
+ 25%|██████████████████████████████████████████▌                                                                                                                            | 10220/40080 [2:04:41<6:05:44,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10221/40080 [2:04:42<6:06:25,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10222/40080 [2:04:42<6:06:56,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10223/40080 [2:04:43<6:05:59,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10224/40080 [2:04:44<6:05:32,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10225/40080 [2:04:45<6:05:26,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10226/40080 [2:04:45<6:05:06,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10227/40080 [2:04:46<6:05:05,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10228/40080 [2:04:47<6:05:00,  1.36it/s] 26%|██████████████████████████████████████████▌                                                                                                                            | 10229/40080 [2:04:48<6:05:12,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10230/40080 [2:04:48<6:04:36,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3647, 'grad_norm': 3.421875, 'learning_rate': 2.1213829384323808e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2589.07, 'epoch': 1.02}
+ 26%|██████████████████████████████████████████▋                                                                                                                            | 10230/40080 [2:04:48<6:04:36,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10231/40080 [2:04:49<6:05:09,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10232/40080 [2:04:50<6:05:44,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10233/40080 [2:04:50<6:05:10,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10234/40080 [2:04:51<6:05:15,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10235/40080 [2:04:52<6:05:07,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10236/40080 [2:04:53<6:04:41,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10237/40080 [2:04:53<6:04:40,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10238/40080 [2:04:54<6:03:57,  1.37it/s] 26%|████████████████████████████████████���█████▋                                                                                                                            | 10239/40080 [2:04:55<6:03:52,  1.37it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10240/40080 [2:04:56<6:05:45,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4198, 'grad_norm': 3.59375, 'learning_rate': 2.120679492033383e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.03, 'epoch': 1.02}
+ 26%|██████████████████████████████████████████▋                                                                                                                            | 10240/40080 [2:04:56<6:05:45,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10241/40080 [2:04:56<6:07:08,  1.35it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10242/40080 [2:04:57<6:06:54,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10243/40080 [2:04:58<6:06:08,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10244/40080 [2:04:59<6:05:41,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10245/40080 [2:04:59<6:05:02,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10246/40080 [2:05:00<6:05:09,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10247/40080 [2:05:01<6:04:59,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10248/40080 [2:05:01<6:04:32,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10249/40080 [2:05:02<6:04:31,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10250/40080 [2:05:03<6:04:17,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3701, 'grad_norm': 2.5625, 'learning_rate': 2.1199755096280765e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2374.73, 'epoch': 1.02}
+ 26%|██████████████████████████████████████████▋                                                                                                                            | 10250/40080 [2:05:03<6:04:17,  1.36it/s] 26%|████████████████████████████████���█████████▋                                                                                                                            | 10251/40080 [2:05:04<6:04:21,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10252/40080 [2:05:04<6:04:19,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10253/40080 [2:05:05<6:04:10,  1.37it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10254/40080 [2:05:06<6:04:10,  1.37it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10255/40080 [2:05:07<6:04:15,  1.36it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10256/40080 [2:05:07<6:04:04,  1.37it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10257/40080 [2:05:08<6:03:43,  1.37it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10258/40080 [2:05:09<6:03:14,  1.37it/s] 26%|██████████████████████████████████████████▋                                                                                                                            | 10259/40080 [2:05:10<6:03:40,  1.37it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10260/40080 [2:05:10<6:03:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3654, 'grad_norm': 3.65625, 'learning_rate': 2.119270991649847e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2548.94, 'epoch': 1.02}
+ 26%|██████████████████████████████████████████▊                                                                                                                            | 10260/40080 [2:05:10<6:03:42,  1.37it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10261/40080 [2:05:11<6:04:17,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10262/40080 [2:05:12<6:04:21,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10263/40080 [2:05:12<6:04:58,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10264/40080 [2:05:13<6:04:50,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10265/40080 [2:05:14<6:04:40,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10266/40080 [2:05:15<6:05:08,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10267/40080 [2:05:15<6:05:06,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10268/40080 [2:05:16<6:04:49,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10269/40080 [2:05:17<6:04:48,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10270/40080 [2:05:18<6:05:24,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3376, 'grad_norm': 3.3125, 'learning_rate': 2.118565938532408e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2459.32, 'epoch': 1.03}
+ 26%|██████████████████████████████████████████▊                                                                                                                            | 10270/40080 [2:05:18<6:05:24,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10271/40080 [2:05:18<6:05:45,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10272/40080 [2:05:19<6:05:12,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10273/40080 [2:05:20<6:04:40,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10274/40080 [2:05:21<6:04:30,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10275/40080 [2:05:21<6:04:02,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10276/40080 [2:05:22<6:03:53,  1.37it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10277/40080 [2:05:23<6:03:11,  1.37it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10278/40080 [2:05:23<6:03:32,  1.37it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10279/40080 [2:05:24<6:03:41,  1.37it/s] 26%|█████████████████████████████��████████████▊                                                                                                                            | 10280/40080 [2:05:25<6:03:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.391, 'grad_norm': 3.078125, 'learning_rate': 2.117860350709803e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2472.67, 'epoch': 1.03}
+ 26%|██████████████████████████████████████████▊                                                                                                                            | 10280/40080 [2:05:25<6:03:50,  1.37it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10281/40080 [2:05:26<6:04:18,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10282/40080 [2:05:26<6:04:11,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10283/40080 [2:05:27<6:04:35,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10284/40080 [2:05:28<6:04:36,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10285/40080 [2:05:29<6:04:28,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10286/40080 [2:05:29<6:03:50,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10287/40080 [2:05:30<6:03:48,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10288/40080 [2:05:31<6:03:45,  1.36it/s] 26%|██████████████████████████████████████████▊                                                                                                                            | 10289/40080 [2:05:32<6:03:51,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10290/40080 [2:05:32<6:03:47,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3786, 'grad_norm': 2.96875, 'learning_rate': 2.1171542286164064e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.9, 'epoch': 1.03}
+ 26%|██████████████████████████████████████████▉                                                                                                                            | 10290/40080 [2:05:32<6:03:47,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10291/40080 [2:05:33<6:04:30,  1.36it/s] 26%|█████████████████████████��████████████████▉                                                                                                                            | 10292/40080 [2:05:34<6:04:25,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10293/40080 [2:05:34<6:03:58,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10294/40080 [2:05:35<6:04:00,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10295/40080 [2:05:36<6:03:33,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10296/40080 [2:05:37<6:03:13,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10297/40080 [2:05:37<6:03:09,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10298/40080 [2:05:38<6:03:03,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10299/40080 [2:05:39<6:03:01,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10300/40080 [2:05:40<6:02:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3793, 'grad_norm': 2.84375, 'learning_rate': 2.1164475726869183e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2413.79, 'epoch': 1.03}
+ 26%|██████████████████████████████████████████▉                                                                                                                            | 10300/40080 [2:05:40<6:02:59,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10301/40080 [2:05:40<6:03:46,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10302/40080 [2:05:41<6:03:32,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10303/40080 [2:05:42<6:03:33,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10304/40080 [2:05:43<6:03:51,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10305/40080 [2:05:43<6:03:11,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10306/40080 [2:05:44<6:03:29,  1.37it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10307/40080 [2:05:45<6:03:42,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10308/40080 [2:05:45<6:03:42,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10309/40080 [2:05:46<6:03:51,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10310/40080 [2:05:47<6:03:49,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3668, 'grad_norm': 2.703125, 'learning_rate': 2.1157403833563694e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2632.13, 'epoch': 1.03}
+ 26%|██████████████████████████████████████████▉                                                                                                                            | 10310/40080 [2:05:47<6:03:49,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10311/40080 [2:05:48<6:06:09,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10312/40080 [2:05:48<6:05:37,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10313/40080 [2:05:49<6:05:17,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10314/40080 [2:05:50<6:07:02,  1.35it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10315/40080 [2:05:51<6:05:49,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10316/40080 [2:05:51<6:05:03,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10317/40080 [2:05:52<6:04:45,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10318/40080 [2:05:53<6:04:26,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10319/40080 [2:05:54<6:04:08,  1.36it/s] 26%|██████████████████████████████████████████▉                                                                                                                            | 10320/40080 [2:05:54<6:04:31,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3414, 'grad_norm': 2.8125, 'learning_rate': 2.1150326610601187e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2640.21, 'epoch': 1.03}
+ 26%|██████████████████████████████████████████▉                                                                                                                            | 10320/40080 [2:05:54<6:04:31,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10321/40080 [2:05:55<6:06:34,  1.35it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10322/40080 [2:05:56<6:05:41,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10323/40080 [2:05:57<6:05:19,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10324/40080 [2:05:57<6:04:18,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10325/40080 [2:05:58<6:04:08,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10326/40080 [2:05:59<6:04:10,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10327/40080 [2:05:59<6:03:41,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10328/40080 [2:06:00<6:03:39,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10329/40080 [2:06:01<6:03:37,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10330/40080 [2:06:02<6:03:42,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3792, 'grad_norm': 3.1875, 'learning_rate': 2.114324406233853e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2489.73, 'epoch': 1.03}
+ 26%|███████████████████████████████████████████                                                                                                                            | 10330/40080 [2:06:02<6:03:42,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10331/40080 [2:06:02<6:06:24,  1.35it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10332/40080 [2:06:03<6:06:31,  1.35it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10333/40080 [2:06:04<6:06:00,  1.35it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10334/40080 [2:06:05<6:05:02,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10335/40080 [2:06:05<6:04:56,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10336/40080 [2:06:06<6:04:38,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10337/40080 [2:06:07<6:04:03,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10338/40080 [2:06:08<6:03:47,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10339/40080 [2:06:08<6:03:40,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10340/40080 [2:06:09<6:03:26,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3765, 'grad_norm': 3.234375, 'learning_rate': 2.113615619313587e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.85, 'epoch': 1.03}
+ 26%|███████████████████████████████████████████                                                                                                                            | 10340/40080 [2:06:09<6:03:26,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10341/40080 [2:06:10<6:03:57,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10342/40080 [2:06:10<6:03:48,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10343/40080 [2:06:11<6:03:12,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10344/40080 [2:06:12<6:03:21,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10345/40080 [2:06:13<6:03:32,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10346/40080 [2:06:13<6:03:08,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10347/40080 [2:06:14<6:03:24,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10348/40080 [2:06:15<6:03:19,  1.36it/s] 26%|███████████████████████████████████████████                                                                                                                            | 10349/40080 [2:06:16<6:03:23,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10350/40080 [2:06:16<6:03:26,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3234, 'grad_norm': 2.9375, 'learning_rate': 2.112906300735663e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.46, 'epoch': 1.03}
+ 26%|███████████████████████████████████████████▏                                                                                                                           | 10350/40080 [2:06:16<6:03:26,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10351/40080 [2:06:17<6:03:37,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10352/40080 [2:06:18<6:03:30,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10353/40080 [2:06:19<6:03:26,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10354/40080 [2:06:19<6:03:18,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10355/40080 [2:06:20<6:02:58,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10356/40080 [2:06:21<6:03:22,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10357/40080 [2:06:21<6:03:14,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10358/40080 [2:06:22<6:03:15,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10359/40080 [2:06:23<6:03:25,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10360/40080 [2:06:24<6:03:19,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3445, 'grad_norm': 2.796875, 'learning_rate': 2.112196450936751e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2693.76, 'epoch': 1.03}
+ 26%|███████████████████████████████████████████▏                                                                                                                           | 10360/40080 [2:06:24<6:03:19,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10361/40080 [2:06:24<6:03:39,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10362/40080 [2:06:25<6:03:25,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10363/40080 [2:06:26<6:03:23,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10364/40080 [2:06:27<6:02:54,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10365/40080 [2:06:27<6:03:03,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10366/40080 [2:06:28<6:03:20,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10367/40080 [2:06:29<6:03:03,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10368/40080 [2:06:30<6:03:05,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10369/40080 [2:06:30<6:03:10,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10370/40080 [2:06:31<6:03:19,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3966, 'grad_norm': 3.21875, 'learning_rate': 2.1114860703538465e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2466.44, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▏                                                                                                                           | 10370/40080 [2:06:31<6:03:19,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10371/40080 [2:06:32<6:04:48,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10372/40080 [2:06:32<6:04:08,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10373/40080 [2:06:33<6:03:46,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10374/40080 [2:06:34<6:02:58,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10375/40080 [2:06:35<6:02:28,  1.37it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10376/40080 [2:06:35<6:02:31,  1.37it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10377/40080 [2:06:36<6:02:33,  1.37it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10378/40080 [2:06:37<6:02:49,  1.36it/s] 26%|███████████████████████████████████████████▏                                                                                                                           | 10379/40080 [2:06:38<6:02:31,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10380/40080 [2:06:38<6:02:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3355, 'grad_norm': 2.890625, 'learning_rate': 2.1107751594242738e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.78, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▎                                                                                                                           | 10380/40080 [2:06:38<6:02:27,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10381/40080 [2:06:39<6:03:01,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10382/40080 [2:06:40<6:02:26,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10383/40080 [2:06:41<6:02:30,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10384/40080 [2:06:41<6:02:00,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10385/40080 [2:06:42<6:01:48,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10386/40080 [2:06:43<6:01:34,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10387/40080 [2:06:43<6:01:28,  1.37it/s] 26%|██████████████████████████████���████████████▎                                                                                                                           | 10388/40080 [2:06:44<6:01:23,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10389/40080 [2:06:45<6:01:27,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10390/40080 [2:06:46<6:01:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3952, 'grad_norm': 4.15625, 'learning_rate': 2.1100637185856827e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.3, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▎                                                                                                                           | 10390/40080 [2:06:46<6:01:13,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10391/40080 [2:06:46<6:01:47,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10392/40080 [2:06:47<6:01:31,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10393/40080 [2:06:48<6:01:37,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10394/40080 [2:06:49<6:02:06,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10395/40080 [2:06:49<6:02:21,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10396/40080 [2:06:50<6:02:09,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10397/40080 [2:06:51<6:02:26,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10398/40080 [2:06:52<6:02:36,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10399/40080 [2:06:52<6:02:17,  1.37it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10400/40080 [2:06:53<6:04:23,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4243, 'grad_norm': 3.3125, 'learning_rate': 2.1093517482760483e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2404.75, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▎                                                                                                                           | 10400/40080 [2:06:53<6:04:23,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10401/40080 [2:06:54<6:04:20,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10402/40080 [2:06:54<6:04:09,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10403/40080 [2:06:55<6:05:01,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10404/40080 [2:06:56<6:05:16,  1.35it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10405/40080 [2:06:57<6:04:45,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10406/40080 [2:06:57<6:03:43,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10407/40080 [2:06:58<6:03:17,  1.36it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10408/40080 [2:06:59<6:06:12,  1.35it/s] 26%|███████████████████████████████████████████▎                                                                                                                           | 10409/40080 [2:07:00<6:05:03,  1.35it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10410/40080 [2:07:00<6:03:59,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3759, 'grad_norm': 2.875, 'learning_rate': 2.1086392489336738e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2410.51, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▍                                                                                                                           | 10410/40080 [2:07:00<6:03:59,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10411/40080 [2:07:01<6:04:18,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10412/40080 [2:07:02<6:03:49,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10413/40080 [2:07:03<6:03:47,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10414/40080 [2:07:03<6:03:46,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10415/40080 [2:07:04<6:04:00,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10416/40080 [2:07:05<6:05:11,  1.35it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10417/40080 [2:07:06<6:04:23,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10418/40080 [2:07:06<6:04:03,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10419/40080 [2:07:07<6:03:37,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10420/40080 [2:07:08<6:03:12,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4327, 'grad_norm': 2.875, 'learning_rate': 2.107926220997186e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2532.5, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▍                                                                                                                           | 10420/40080 [2:07:08<6:03:12,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10421/40080 [2:07:08<6:04:10,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10422/40080 [2:07:09<6:03:43,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10423/40080 [2:07:10<6:03:24,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10424/40080 [2:07:11<6:03:24,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10425/40080 [2:07:11<6:03:19,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10426/40080 [2:07:12<6:02:58,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10427/40080 [2:07:13<6:02:53,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10428/40080 [2:07:14<6:02:44,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10429/40080 [2:07:14<6:02:26,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10430/40080 [2:07:15<6:02:37,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3774, 'grad_norm': 3.34375, 'learning_rate': 2.1072126649055386e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2431.3, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▍                                                                                                                           | 10430/40080 [2:07:15<6:02:37,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10431/40080 [2:07:16<6:03:41,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10432/40080 [2:07:17<6:03:11,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10433/40080 [2:07:17<6:02:13,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10434/40080 [2:07:18<6:02:21,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10435/40080 [2:07:19<6:02:11,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10436/40080 [2:07:19<6:02:14,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10437/40080 [2:07:20<6:02:34,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10438/40080 [2:07:21<6:01:58,  1.36it/s] 26%|███████████████████████████████████████████▍                                                                                                                           | 10439/40080 [2:07:22<6:02:03,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10440/40080 [2:07:22<6:02:10,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4126, 'grad_norm': 3.578125, 'learning_rate': 2.10649858109801e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2400.68, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▌                                                                                                                           | 10440/40080 [2:07:22<6:02:10,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10441/40080 [2:07:23<6:02:08,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10442/40080 [2:07:24<6:02:08,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10443/40080 [2:07:25<6:02:12,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10444/40080 [2:07:25<6:01:58,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10445/40080 [2:07:26<6:01:55,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10446/40080 [2:07:27<6:01:43,  1.37it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10447/40080 [2:07:28<6:01:15,  1.37it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10448/40080 [2:07:28<6:01:39,  1.37it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10449/40080 [2:07:29<6:02:11,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10450/40080 [2:07:30<6:02:24,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3563, 'grad_norm': 3.203125, 'learning_rate': 2.1057839700142025e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2546.33, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▌                                                                                                                           | 10450/40080 [2:07:30<6:02:24,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10451/40080 [2:07:30<6:02:55,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10452/40080 [2:07:31<6:03:00,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10453/40080 [2:07:32<6:02:40,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10454/40080 [2:07:33<6:02:09,  1.36it/s] 26%|███████████████████���███████████████████████▌                                                                                                                           | 10455/40080 [2:07:33<6:02:06,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10456/40080 [2:07:34<6:01:55,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10457/40080 [2:07:35<6:01:56,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10458/40080 [2:07:36<6:02:16,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10459/40080 [2:07:36<6:02:23,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10460/40080 [2:07:37<6:04:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3703, 'grad_norm': 3.203125, 'learning_rate': 2.1050688320940447e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.57, 'epoch': 1.04}
+ 26%|███████████████████████████████████████████▌                                                                                                                           | 10460/40080 [2:07:37<6:04:02,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10461/40080 [2:07:38<6:03:36,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10462/40080 [2:07:39<6:02:56,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10463/40080 [2:07:39<6:02:20,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10464/40080 [2:07:40<6:02:15,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10465/40080 [2:07:41<6:02:07,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10466/40080 [2:07:41<6:02:11,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10467/40080 [2:07:42<6:02:41,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10468/40080 [2:07:43<6:02:44,  1.36it/s] 26%|███████████████████████████████████████████▌                                                                                                                           | 10469/40080 [2:07:44<6:02:26,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10470/40080 [2:07:44<6:02:32,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3584, 'grad_norm': 3.484375, 'learning_rate': 2.104353167777788e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2520.62, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▋                                                                                                                           | 10470/40080 [2:07:44<6:02:32,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10471/40080 [2:07:45<6:03:10,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10472/40080 [2:07:46<6:02:36,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10473/40080 [2:07:47<6:02:21,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10474/40080 [2:07:47<6:02:27,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10475/40080 [2:07:48<6:02:31,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10476/40080 [2:07:49<6:01:58,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10477/40080 [2:07:50<6:01:45,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10478/40080 [2:07:50<6:01:39,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10479/40080 [2:07:51<6:01:27,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10480/40080 [2:07:52<6:01:26,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3826, 'grad_norm': 3.4375, 'learning_rate': 2.103636977506009e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2446.27, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▋                                                                                                                           | 10480/40080 [2:07:52<6:01:26,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10481/40080 [2:07:52<6:01:34,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10482/40080 [2:07:53<6:01:28,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10483/40080 [2:07:54<6:01:42,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10484/40080 [2:07:55<6:01:17,  1.37it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10485/40080 [2:07:55<6:01:20,  1.37it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10486/40080 [2:07:56<6:01:21,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10487/40080 [2:07:57<6:01:08,  1.37it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10488/40080 [2:07:58<6:01:23,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10489/40080 [2:07:58<6:01:08,  1.37it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10490/40080 [2:07:59<6:01:26,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3371, 'grad_norm': 3.09375, 'learning_rate': 2.1029202617196074e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2393.9, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▋                                                                                                                           | 10490/40080 [2:07:59<6:01:26,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10491/40080 [2:08:00<6:03:58,  1.35it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10492/40080 [2:08:01<6:06:11,  1.35it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10493/40080 [2:08:01<6:04:34,  1.35it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10494/40080 [2:08:02<6:03:35,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10495/40080 [2:08:03<6:04:11,  1.35it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10496/40080 [2:08:04<6:03:37,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10497/40080 [2:08:04<6:04:23,  1.35it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10498/40080 [2:08:05<6:03:26,  1.36it/s] 26%|███████████████████████████████████████████▋                                                                                                                           | 10499/40080 [2:08:06<6:03:44,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10500/40080 [2:08:06<6:03:18,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3923, 'grad_norm': 3.03125, 'learning_rate': 2.102203020859806e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2445.86, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▊                                                                                                                           | 10500/40080 [2:08:06<6:03:18,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10501/40080 [2:08:07<6:02:59,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10502/40080 [2:08:08<6:02:35,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10503/40080 [2:08:09<6:02:45,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10504/40080 [2:08:09<6:04:46,  1.35it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10505/40080 [2:08:10<6:06:50,  1.34it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10506/40080 [2:08:11<6:05:02,  1.35it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10507/40080 [2:08:12<6:04:32,  1.35it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10508/40080 [2:08:12<6:06:40,  1.34it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10509/40080 [2:08:13<6:09:08,  1.34it/s] 26%|████████████████████���██████████████████████▊                                                                                                                           | 10510/40080 [2:08:14<6:10:38,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.3713, 'grad_norm': 2.546875, 'learning_rate': 2.1014852553681527e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2533.71, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▊                                                                                                                           | 10510/40080 [2:08:14<6:10:38,  1.33it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10511/40080 [2:08:15<6:11:58,  1.32it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10512/40080 [2:08:15<6:08:47,  1.34it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10513/40080 [2:08:16<6:06:20,  1.35it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10514/40080 [2:08:17<6:04:26,  1.35it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10515/40080 [2:08:18<6:03:46,  1.35it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10516/40080 [2:08:18<6:03:20,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10517/40080 [2:08:19<6:03:37,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10518/40080 [2:08:20<6:02:41,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10519/40080 [2:08:21<6:02:26,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10520/40080 [2:08:21<6:02:07,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3394, 'grad_norm': 2.890625, 'learning_rate': 2.1007669656865164e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2500.74, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▊                                                                                                                           | 10520/40080 [2:08:21<6:02:07,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10521/40080 [2:08:22<6:04:18,  1.35it/s] 26%|█████��█████████████████████████████████████▊                                                                                                                           | 10522/40080 [2:08:23<6:03:23,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10523/40080 [2:08:24<6:04:25,  1.35it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10524/40080 [2:08:24<6:03:27,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10525/40080 [2:08:25<6:02:22,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10526/40080 [2:08:26<6:01:33,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10527/40080 [2:08:26<6:01:07,  1.36it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10528/40080 [2:08:27<6:00:43,  1.37it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10529/40080 [2:08:28<6:00:05,  1.37it/s] 26%|███████████████████████████████████████████▊                                                                                                                           | 10530/40080 [2:08:29<6:00:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3918, 'grad_norm': 3.09375, 'learning_rate': 2.1000481522570896e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2563.53, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▊                                                                                                                           | 10530/40080 [2:08:29<6:00:04,  1.37it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10531/40080 [2:08:29<6:03:53,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10532/40080 [2:08:30<6:06:12,  1.34it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10533/40080 [2:08:31<6:07:29,  1.34it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10534/40080 [2:08:32<6:06:43,  1.34it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10535/40080 [2:08:32<6:07:48,  1.34it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10536/40080 [2:08:33<6:05:21,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10537/40080 [2:08:34<6:04:01,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10538/40080 [2:08:35<6:02:33,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10539/40080 [2:08:35<6:02:02,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10540/40080 [2:08:36<6:01:16,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3635, 'grad_norm': 2.90625, 'learning_rate': 2.0993288155223868e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2532.3, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▉                                                                                                                           | 10540/40080 [2:08:36<6:01:16,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10541/40080 [2:08:37<6:01:17,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10542/40080 [2:08:38<6:01:20,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10543/40080 [2:08:38<6:00:56,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10544/40080 [2:08:39<6:00:57,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10545/40080 [2:08:40<6:04:36,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10546/40080 [2:08:40<6:05:46,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10547/40080 [2:08:41<6:05:31,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10548/40080 [2:08:42<6:03:58,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10549/40080 [2:08:43<6:03:01,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10550/40080 [2:08:43<6:02:10,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3708, 'grad_norm': 4.78125, 'learning_rate': 2.0986089559252452e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2270.27, 'epoch': 1.05}
+ 26%|███████████████████████████████████████████▉                                                                                                                           | 10550/40080 [2:08:43<6:02:10,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10551/40080 [2:08:44<6:02:08,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10552/40080 [2:08:45<6:01:57,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10553/40080 [2:08:46<6:01:17,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10554/40080 [2:08:46<6:00:45,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10555/40080 [2:08:47<6:02:35,  1.36it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10556/40080 [2:08:48<6:05:02,  1.35it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10557/40080 [2:08:49<6:07:19,  1.34it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10558/40080 [2:08:49<6:08:08,  1.34it/s] 26%|███████████████████████████████████████████▉                                                                                                                           | 10559/40080 [2:08:50<6:07:04,  1.34it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10560/40080 [2:08:51<6:04:54,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3612, 'grad_norm': 2.875, 'learning_rate': 2.097888573908824e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.8, 'epoch': 1.05}
+ 26%|████████████████████████████████████████████                                                                                                                           | 10560/40080 [2:08:51<6:04:54,  1.35it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10561/40080 [2:08:52<6:03:57,  1.35it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10562/40080 [2:08:52<6:02:29,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10563/40080 [2:08:53<6:01:36,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10564/40080 [2:08:54<6:01:49,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10565/40080 [2:08:55<6:03:52,  1.35it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10566/40080 [2:08:55<6:02:49,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10567/40080 [2:08:56<6:01:47,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10568/40080 [2:08:57<6:06:18,  1.34it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10569/40080 [2:08:57<6:05:02,  1.35it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10570/40080 [2:08:58<6:05:22,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4002, 'grad_norm': 3.140625, 'learning_rate': 2.0971676699166025e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2692.28, 'epoch': 1.06}
+ 26%|████████████████████████████████████████████                                                                                                                           | 10570/40080 [2:08:58<6:05:22,  1.35it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10571/40080 [2:08:59<6:06:56,  1.34it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10572/40080 [2:09:00<6:05:06,  1.35it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10573/40080 [2:09:00<6:03:23,  1.35it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10574/40080 [2:09:01<6:02:09,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10575/40080 [2:09:02<6:01:11,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10576/40080 [2:09:03<6:00:47,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10577/40080 [2:09:03<6:00:41,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10578/40080 [2:09:04<6:00:01,  1.37it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10579/40080 [2:09:05<6:00:03,  1.37it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10580/40080 [2:09:06<6:00:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3633, 'grad_norm': 3.421875, 'learning_rate': 2.0964462443923837e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.53, 'epoch': 1.06}
+ 26%|████████████████████████████████████████████                                                                                                                           | 10580/40080 [2:09:06<6:00:20,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10581/40080 [2:09:06<6:00:35,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10582/40080 [2:09:07<6:00:17,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10583/40080 [2:09:08<6:00:22,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10584/40080 [2:09:09<6:00:11,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10585/40080 [2:09:09<6:00:11,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10586/40080 [2:09:10<6:00:06,  1.37it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10587/40080 [2:09:11<5:59:51,  1.37it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10588/40080 [2:09:11<6:00:12,  1.36it/s] 26%|████████████████████████████████████████████                                                                                                                           | 10589/40080 [2:09:12<6:04:10,  1.35it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10590/40080 [2:09:13<6:05:53,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3816, 'grad_norm': 3.796875, 'learning_rate': 2.0957242977802893e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.87, 'epoch': 1.06}
+ 26%|████████████████████████████████████████████▏                                                                                                                          | 10590/40080 [2:09:13<6:05:53,  1.34it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10591/40080 [2:09:14<6:04:18,  1.35it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10592/40080 [2:09:14<6:02:59,  1.35it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10593/40080 [2:09:15<6:01:22,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10594/40080 [2:09:16<6:00:48,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10595/40080 [2:09:17<6:00:22,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10596/40080 [2:09:17<5:59:44,  1.37it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10597/40080 [2:09:18<5:59:22,  1.37it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10598/40080 [2:09:19<7:11:05,  1.14it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10599/40080 [2:09:20<6:49:06,  1.20it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10600/40080 [2:09:21<6:33:59,  1.25it/s]                                                                                                                                                                                                                      {'loss': 0.4351, 'grad_norm': 2.90625, 'learning_rate': 2.095001830524764e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2647.35, 'epoch': 1.06}
+ 26%|████████████████████████████████████████████▏                                                                                                                          | 10600/40080 [2:09:21<6:33:59,  1.25it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10601/40080 [2:09:21<6:23:53,  1.28it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10602/40080 [2:09:22<6:16:19,  1.31it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10603/40080 [2:09:23<6:10:32,  1.33it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10604/40080 [2:09:24<6:06:57,  1.34it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10605/40080 [2:09:24<6:04:15,  1.35it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10606/40080 [2:09:25<6:02:35,  1.35it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10607/40080 [2:09:26<6:01:09,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10608/40080 [2:09:27<6:00:50,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10609/40080 [2:09:27<6:01:04,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10610/40080 [2:09:28<6:01:04,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3763, 'grad_norm': 3.328125, 'learning_rate': 2.0942788430705706e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2538.81, 'epoch': 1.06}
+ 26%|████████████████████████████████████████████▏                                                                                                                          | 10610/40080 [2:09:28<6:01:04,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10611/40080 [2:09:29<6:00:34,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10612/40080 [2:09:30<6:00:27,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10613/40080 [2:09:30<6:01:08,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10614/40080 [2:09:31<6:01:14,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10615/40080 [2:09:32<6:01:11,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10616/40080 [2:09:32<6:00:49,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10617/40080 [2:09:33<6:00:45,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10618/40080 [2:09:34<5:59:46,  1.36it/s] 26%|████████████████████████████████████████████▏                                                                                                                          | 10619/40080 [2:09:35<5:59:19,  1.37it/s] 26%|████████████████████████████████████████████▎                                                                                                                          | 10620/40080 [2:09:35<5:59:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3716, 'grad_norm': 3.515625, 'learning_rate': 2.0935553358627947e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2579.16, 'epoch': 1.06}
+ 26%|████████████████████████████████████████████▎                                                                                                                          | 10620/40080 [2:09:35<5:59:07,  1.37it/s] 26%|████████████████████████████████████████████▎                                                                                                                          | 10621/40080 [2:09:36<5:59:49,  1.36it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10622/40080 [2:09:37<5:59:21,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10623/40080 [2:09:38<5:58:57,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10624/40080 [2:09:38<5:59:06,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10625/40080 [2:09:39<5:58:47,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10626/40080 [2:09:40<5:58:29,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10627/40080 [2:09:40<5:58:33,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10628/40080 [2:09:41<5:58:39,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10629/40080 [2:09:42<5:58:36,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10630/40080 [2:09:43<5:58:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4004, 'grad_norm': 4.21875, 'learning_rate': 2.0928313093468405e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.37, 'epoch': 1.06}
+ 27%|████████████████████████████████████████████▎                                                                                                                          | 10630/40080 [2:09:43<5:58:39,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10631/40080 [2:09:43<5:59:00,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10632/40080 [2:09:44<5:58:50,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10633/40080 [2:09:45<5:58:47,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10634/40080 [2:09:46<5:59:33,  1.36it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10635/40080 [2:09:46<5:59:24,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10636/40080 [2:09:47<5:59:11,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10637/40080 [2:09:48<5:59:21,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10638/40080 [2:09:49<5:59:04,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10639/40080 [2:09:49<5:58:43,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10640/40080 [2:09:50<5:58:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.374, 'grad_norm': 2.796875, 'learning_rate': 2.0921067639684315e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2520.12, 'epoch': 1.06}
+ 27%|████████████████████████████████████████████▎                                                                                                                          | 10640/40080 [2:09:50<5:58:54,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10641/40080 [2:09:51<5:59:25,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10642/40080 [2:09:51<5:59:11,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10643/40080 [2:09:52<5:59:03,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10644/40080 [2:09:53<5:59:03,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10645/40080 [2:09:54<5:58:55,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10646/40080 [2:09:54<5:58:44,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10647/40080 [2:09:55<5:59:03,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10648/40080 [2:09:56<5:58:55,  1.37it/s] 27%|████████████████████████████████████████████▎                                                                                                                          | 10649/40080 [2:09:57<5:59:12,  1.37it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10650/40080 [2:09:57<5:59:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3821, 'grad_norm': 3.59375, 'learning_rate': 2.0913817001736112e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.83, 'epoch': 1.06}
+ 27%|████████████████████████████████████████████▍                                                                                                                          | 10650/40080 [2:09:57<5:59:11,  1.37it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10651/40080 [2:09:58<5:59:11,  1.37it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10652/40080 [2:09:59<5:58:56,  1.37it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10653/40080 [2:10:00<6:00:47,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10654/40080 [2:10:00<5:59:40,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10655/40080 [2:10:01<5:59:29,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10656/40080 [2:10:02<5:59:06,  1.37it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10657/40080 [2:10:02<5:59:48,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10658/40080 [2:10:03<6:02:04,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10659/40080 [2:10:04<6:02:38,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10660/40080 [2:10:05<6:01:09,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4051, 'grad_norm': 2.90625, 'learning_rate': 2.090656118408743e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.73, 'epoch': 1.06}
+ 27%|████████████████████████████████████████████▍                                                                                                                          | 10660/40080 [2:10:05<6:01:09,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10661/40080 [2:10:05<6:00:48,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10662/40080 [2:10:06<6:02:12,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10663/40080 [2:10:07<6:03:16,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10664/40080 [2:10:08<6:02:31,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10665/40080 [2:10:08<6:01:15,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10666/40080 [2:10:09<6:00:00,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10667/40080 [2:10:10<5:59:30,  1.36it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10668/40080 [2:10:11<6:03:47,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10669/40080 [2:10:11<6:06:42,  1.34it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10670/40080 [2:10:12<6:07:01,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3469, 'grad_norm': 3.484375, 'learning_rate': 2.089930019120507e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2280.71, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▍                                                                                                                          | 10670/40080 [2:10:12<6:07:01,  1.34it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10671/40080 [2:10:13<6:04:55,  1.34it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10672/40080 [2:10:14<6:03:16,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10673/40080 [2:10:14<6:03:03,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10674/40080 [2:10:15<6:04:07,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10675/40080 [2:10:16<6:02:51,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10676/40080 [2:10:17<6:02:15,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10677/40080 [2:10:17<6:02:11,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10678/40080 [2:10:18<6:01:40,  1.35it/s] 27%|████████████████████████████████████████████▍                                                                                                                          | 10679/40080 [2:10:19<6:01:11,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10680/40080 [2:10:19<6:01:22,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3593, 'grad_norm': 3.875, 'learning_rate': 2.0892034027559043e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2486.52, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▌                                                                                                                          | 10680/40080 [2:10:19<6:01:22,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10681/40080 [2:10:20<6:02:16,  1.35it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10682/40080 [2:10:21<6:01:49,  1.35it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10683/40080 [2:10:22<6:01:01,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10684/40080 [2:10:22<6:00:19,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10685/40080 [2:10:23<6:00:33,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10686/40080 [2:10:24<5:59:54,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10687/40080 [2:10:25<6:00:13,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10688/40080 [2:10:25<6:00:25,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10689/40080 [2:10:26<6:00:36,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10690/40080 [2:10:27<6:00:40,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3743, 'grad_norm': 3.0625, 'learning_rate': 2.0884762697622535e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.05, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▌                                                                                                                          | 10690/40080 [2:10:27<6:00:40,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10691/40080 [2:10:28<6:01:14,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10692/40080 [2:10:28<6:00:41,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10693/40080 [2:10:29<6:00:25,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10694/40080 [2:10:30<6:00:26,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10695/40080 [2:10:31<6:00:12,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10696/40080 [2:10:31<6:00:22,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10697/40080 [2:10:32<6:00:22,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10698/40080 [2:10:33<6:00:05,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10699/40080 [2:10:33<5:59:45,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10700/40080 [2:10:34<5:59:26,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3924, 'grad_norm': 2.890625, 'learning_rate': 2.08774862058719e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.78, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▌                                                                                                                          | 10700/40080 [2:10:34<5:59:26,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10701/40080 [2:10:35<5:59:49,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10702/40080 [2:10:36<6:00:06,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10703/40080 [2:10:36<6:00:01,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10704/40080 [2:10:37<5:59:33,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10705/40080 [2:10:38<5:59:19,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10706/40080 [2:10:39<5:58:43,  1.36it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10707/40080 [2:10:39<5:58:29,  1.37it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10708/40080 [2:10:40<5:58:35,  1.37it/s] 27%|████████████████████████████████████████████▌                                                                                                                          | 10709/40080 [2:10:41<5:58:39,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10710/40080 [2:10:42<5:58:54,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3186, 'grad_norm': 2.890625, 'learning_rate': 2.087020455678669e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2382.4, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▋                                                                                                                          | 10710/40080 [2:10:42<5:58:54,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10711/40080 [2:10:42<6:01:31,  1.35it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10712/40080 [2:10:43<6:03:13,  1.35it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10713/40080 [2:10:44<6:02:02,  1.35it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10714/40080 [2:10:45<6:00:57,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10715/40080 [2:10:45<6:00:11,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10716/40080 [2:10:46<5:59:38,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10717/40080 [2:10:47<5:59:15,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10718/40080 [2:10:47<5:58:55,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10719/40080 [2:10:48<5:58:58,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10720/40080 [2:10:49<5:58:34,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.417, 'grad_norm': 3.875, 'learning_rate': 2.0862917754849616e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2639.88, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▋                                                                                                                          | 10720/40080 [2:10:49<5:58:34,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10721/40080 [2:10:50<5:59:25,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10722/40080 [2:10:50<5:59:14,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10723/40080 [2:10:51<5:58:55,  1.36it/s] 27%|█████████████████████��██████████████████████▋                                                                                                                          | 10724/40080 [2:10:52<5:58:53,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10725/40080 [2:10:53<5:58:02,  1.37it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10726/40080 [2:10:53<5:57:57,  1.37it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10727/40080 [2:10:54<5:58:00,  1.37it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10728/40080 [2:10:55<5:57:53,  1.37it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10729/40080 [2:10:55<5:58:21,  1.37it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10730/40080 [2:10:56<5:58:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4074, 'grad_norm': 3.265625, 'learning_rate': 2.085562580454657e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2552.91, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▋                                                                                                                          | 10730/40080 [2:10:56<5:58:17,  1.37it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10731/40080 [2:10:57<5:58:54,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10732/40080 [2:10:58<5:58:44,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10733/40080 [2:10:58<5:58:38,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10734/40080 [2:10:59<5:58:47,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10735/40080 [2:11:00<5:58:53,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10736/40080 [2:11:01<5:58:27,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10737/40080 [2:11:01<5:58:20,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10738/40080 [2:11:02<5:58:56,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10739/40080 [2:11:03<5:58:27,  1.36it/s] 27%|████████████████████████████████████████████▋                                                                                                                          | 10740/40080 [2:11:04<5:58:35,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.39, 'grad_norm': 3.40625, 'learning_rate': 2.084832871036661e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.46, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▋                                                                                                                          | 10740/40080 [2:11:04<5:58:35,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10741/40080 [2:11:04<5:59:05,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10742/40080 [2:11:05<5:59:16,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10743/40080 [2:11:06<5:59:07,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10744/40080 [2:11:07<5:59:28,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10745/40080 [2:11:07<5:59:48,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10746/40080 [2:11:08<5:59:50,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10747/40080 [2:11:09<5:59:44,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10748/40080 [2:11:09<5:59:24,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10749/40080 [2:11:10<5:58:56,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10750/40080 [2:11:11<5:59:08,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4252, 'grad_norm': 2.859375, 'learning_rate': 2.0841026476801965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2686.3, 'epoch': 1.07}
+ 27%|███████████████████████████��████████████████▊                                                                                                                          | 10750/40080 [2:11:11<5:59:08,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10751/40080 [2:11:12<5:59:42,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10752/40080 [2:11:12<5:59:03,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10753/40080 [2:11:13<5:58:48,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10754/40080 [2:11:14<5:58:36,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10755/40080 [2:11:15<5:58:27,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10756/40080 [2:11:15<5:58:30,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10757/40080 [2:11:16<5:58:32,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10758/40080 [2:11:17<5:57:34,  1.37it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10759/40080 [2:11:18<5:57:31,  1.37it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10760/40080 [2:11:18<5:57:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3544, 'grad_norm': 2.71875, 'learning_rate': 2.0833719108348015e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2581.04, 'epoch': 1.07}
+ 27%|████████████████████████████████████████████▊                                                                                                                          | 10760/40080 [2:11:18<5:57:41,  1.37it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10761/40080 [2:11:19<5:57:58,  1.37it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10762/40080 [2:11:20<5:58:22,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10763/40080 [2:11:20<5:58:38,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10764/40080 [2:11:21<5:57:58,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10765/40080 [2:11:22<5:57:45,  1.37it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10766/40080 [2:11:23<5:57:49,  1.37it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10767/40080 [2:11:23<5:57:55,  1.36it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10768/40080 [2:11:24<5:57:34,  1.37it/s] 27%|████████████████████████████████████████████▊                                                                                                                          | 10769/40080 [2:11:25<5:57:29,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10770/40080 [2:11:26<5:57:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3754, 'grad_norm': 2.640625, 'learning_rate': 2.082640660950332e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.54, 'epoch': 1.08}
+ 27%|████████████████████████████████████████████▉                                                                                                                          | 10770/40080 [2:11:26<5:57:25,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10771/40080 [2:11:26<5:57:45,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10772/40080 [2:11:27<5:57:48,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10773/40080 [2:11:28<5:57:28,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10774/40080 [2:11:29<5:57:45,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10775/40080 [2:11:29<5:57:27,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10776/40080 [2:11:30<5:57:34,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10777/40080 [2:11:31<5:57:45,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10778/40080 [2:11:31<5:57:42,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10779/40080 [2:11:32<5:57:17,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10780/40080 [2:11:33<5:57:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.39, 'grad_norm': 2.625, 'learning_rate': 2.0819088984769587e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2333.38, 'epoch': 1.08}
+ 27%|████████████████████████████████████████████▉                                                                                                                          | 10780/40080 [2:11:33<5:57:24,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10781/40080 [2:11:34<5:57:45,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10782/40080 [2:11:34<5:57:30,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10783/40080 [2:11:35<5:57:14,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10784/40080 [2:11:36<5:57:14,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10785/40080 [2:11:37<5:57:17,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10786/40080 [2:11:37<5:57:24,  1.37it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10787/40080 [2:11:38<5:57:52,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10788/40080 [2:11:39<5:58:15,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10789/40080 [2:11:39<5:57:43,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10790/40080 [2:11:40<5:57:56,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4041, 'grad_norm': 3.421875, 'learning_rate': 2.0811766238651675e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2640.59, 'epoch': 1.08}
+ 27%|████████████████████████████████████████████▉                                                                                                                          | 10790/40080 [2:11:40<5:57:56,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10791/40080 [2:11:41<5:58:41,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10792/40080 [2:11:42<5:59:09,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10793/40080 [2:11:42<5:58:26,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10794/40080 [2:11:43<5:58:26,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10795/40080 [2:11:44<5:58:17,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10796/40080 [2:11:45<5:58:10,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10797/40080 [2:11:45<5:57:59,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10798/40080 [2:11:46<5:57:54,  1.36it/s] 27%|████████████████████████████████████████████▉                                                                                                                          | 10799/40080 [2:11:47<5:57:57,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10800/40080 [2:11:48<5:57:55,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3759, 'grad_norm': 2.984375, 'learning_rate': 2.0804438375657602e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2614.4, 'epoch': 1.08}
+ 27%|█████████████████████████████████████████████                                                                                                                          | 10800/40080 [2:11:48<5:57:55,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10801/40080 [2:11:48<5:58:09,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10802/40080 [2:11:49<5:59:38,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10803/40080 [2:11:50<5:59:05,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10804/40080 [2:11:51<5:58:33,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10805/40080 [2:11:51<5:58:14,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10806/40080 [2:11:52<5:57:48,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10807/40080 [2:11:53<5:57:58,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10808/40080 [2:11:53<5:57:54,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10809/40080 [2:11:54<5:57:44,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10810/40080 [2:11:55<5:57:38,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3279, 'grad_norm': 2.546875, 'learning_rate': 2.0797105400298543e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2363.96, 'epoch': 1.08}
+ 27%|█████████████████████████████████████████████                                                                                                                          | 10810/40080 [2:11:55<5:57:38,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10811/40080 [2:11:56<5:58:20,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10812/40080 [2:11:56<5:57:58,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10813/40080 [2:11:57<5:57:31,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10814/40080 [2:11:58<5:57:28,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10815/40080 [2:11:59<5:56:43,  1.37it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10816/40080 [2:11:59<5:57:18,  1.37it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10817/40080 [2:12:00<5:57:06,  1.37it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10818/40080 [2:12:01<5:56:57,  1.37it/s] 27%|████████████████��████████████████████████████                                                                                                                          | 10819/40080 [2:12:01<5:57:15,  1.37it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10820/40080 [2:12:02<5:57:36,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3981, 'grad_norm': 2.75, 'learning_rate': 2.078976731708881e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2583.42, 'epoch': 1.08}
+ 27%|█████████████████████████████████████████████                                                                                                                          | 10820/40080 [2:12:02<5:57:36,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10821/40080 [2:12:03<5:58:02,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10822/40080 [2:12:04<5:57:33,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10823/40080 [2:12:04<5:57:14,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10824/40080 [2:12:05<5:56:49,  1.37it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10825/40080 [2:12:06<5:56:54,  1.37it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10826/40080 [2:12:07<5:57:03,  1.37it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10827/40080 [2:12:07<5:57:34,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10828/40080 [2:12:08<5:57:52,  1.36it/s] 27%|█████████████████████████████████████████████                                                                                                                          | 10829/40080 [2:12:09<5:57:51,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10830/40080 [2:12:10<5:57:30,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4142, 'grad_norm': 3.265625, 'learning_rate': 2.078242413054585e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2524.84, 'epoch': 1.08}
+ 27%|█████████████████████████████████████████████▏                                                                                                                         | 10830/40080 [2:12:10<5:57:30,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10831/40080 [2:12:10<5:57:56,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10832/40080 [2:12:11<5:57:45,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10833/40080 [2:12:12<5:57:33,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10834/40080 [2:12:13<5:57:52,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10835/40080 [2:12:13<5:57:54,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10836/40080 [2:12:14<5:58:19,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10837/40080 [2:12:15<5:59:29,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10838/40080 [2:12:15<5:59:26,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10839/40080 [2:12:16<5:58:36,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10840/40080 [2:12:17<5:58:14,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4036, 'grad_norm': 2.828125, 'learning_rate': 2.077507584519028e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.34, 'epoch': 1.08}
+ 27%|█████████████████████████████████████████████▏                                                                                                                         | 10840/40080 [2:12:17<5:58:14,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10841/40080 [2:12:18<5:58:05,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10842/40080 [2:12:18<5:57:37,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10843/40080 [2:12:19<5:57:26,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10844/40080 [2:12:20<5:57:20,  1.36it/s] 27%|███████████��█████████████████████████████████▏                                                                                                                         | 10845/40080 [2:12:21<5:57:16,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10846/40080 [2:12:21<5:57:13,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10847/40080 [2:12:22<5:56:48,  1.37it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10848/40080 [2:12:23<5:56:48,  1.37it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10849/40080 [2:12:24<5:56:56,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10850/40080 [2:12:24<5:56:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3966, 'grad_norm': 3.265625, 'learning_rate': 2.076772246554583e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2368.6, 'epoch': 1.08}
+ 27%|█████████████████████████████████████████████▏                                                                                                                         | 10850/40080 [2:12:24<5:56:37,  1.37it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10851/40080 [2:12:25<5:57:25,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10852/40080 [2:12:26<5:57:21,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10853/40080 [2:12:26<5:57:04,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10854/40080 [2:12:27<5:56:58,  1.36it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10855/40080 [2:12:28<5:56:33,  1.37it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10856/40080 [2:12:29<5:56:41,  1.37it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10857/40080 [2:12:29<5:56:44,  1.37it/s] 27%|█████████████████████████████████████████████▏                                                                                                                         | 10858/40080 [2:12:30<5:56:44,  1.37it/s] 27%|██████████████████████████████���██████████████▏                                                                                                                         | 10859/40080 [2:12:31<5:56:42,  1.37it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10860/40080 [2:12:32<5:56:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3766, 'grad_norm': 2.3125, 'learning_rate': 2.076036399613938e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2343.13, 'epoch': 1.08}
+ 27%|█████████████████████████████████████████████▎                                                                                                                         | 10860/40080 [2:12:32<5:56:05,  1.37it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10861/40080 [2:12:32<5:56:54,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10862/40080 [2:12:33<5:56:50,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10863/40080 [2:12:34<5:56:20,  1.37it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10864/40080 [2:12:35<5:56:51,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10865/40080 [2:12:35<5:56:31,  1.37it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10866/40080 [2:12:36<5:56:37,  1.37it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10867/40080 [2:12:37<5:56:53,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10868/40080 [2:12:37<5:57:05,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10869/40080 [2:12:38<5:56:27,  1.37it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10870/40080 [2:12:39<5:56:47,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3495, 'grad_norm': 3.515625, 'learning_rate': 2.0753000441500937e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2299.61, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▎                                                                                                                         | 10870/40080 [2:12:39<5:56:47,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10871/40080 [2:12:40<5:56:56,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10872/40080 [2:12:40<5:56:40,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10873/40080 [2:12:41<5:57:02,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10874/40080 [2:12:42<5:57:37,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10875/40080 [2:12:43<5:57:20,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10876/40080 [2:12:43<5:57:33,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10877/40080 [2:12:44<5:57:44,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10878/40080 [2:12:45<5:58:17,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10879/40080 [2:12:46<5:57:57,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10880/40080 [2:12:46<5:57:41,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3467, 'grad_norm': 2.5, 'learning_rate': 2.074563180616364e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2569.65, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▎                                                                                                                         | 10880/40080 [2:12:46<5:57:41,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10881/40080 [2:12:47<5:58:06,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10882/40080 [2:12:48<5:57:41,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10883/40080 [2:12:48<5:57:40,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10884/40080 [2:12:49<5:57:14,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10885/40080 [2:12:50<5:56:47,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10886/40080 [2:12:51<5:56:18,  1.37it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10887/40080 [2:12:51<5:56:40,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10888/40080 [2:12:52<5:56:46,  1.36it/s] 27%|█████████████████████████████████████████████▎                                                                                                                         | 10889/40080 [2:12:53<5:56:28,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10890/40080 [2:12:54<5:56:34,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3626, 'grad_norm': 2.78125, 'learning_rate': 2.0738258094663758e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2571.69, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▍                                                                                                                         | 10890/40080 [2:12:54<5:56:34,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10891/40080 [2:12:54<5:56:51,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10892/40080 [2:12:55<5:56:40,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10893/40080 [2:12:56<5:56:18,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10894/40080 [2:12:57<5:56:19,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10895/40080 [2:12:57<5:56:16,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10896/40080 [2:12:58<5:56:09,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10897/40080 [2:12:59<5:55:57,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10898/40080 [2:12:59<5:56:21,  1.36it/s] 27%|████████████████████████████████████���████████▍                                                                                                                         | 10899/40080 [2:13:00<5:55:58,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10900/40080 [2:13:01<5:56:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3679, 'grad_norm': 2.828125, 'learning_rate': 2.0730879311540684e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2519.04, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▍                                                                                                                         | 10900/40080 [2:13:01<5:56:06,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10901/40080 [2:13:02<5:56:23,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10902/40080 [2:13:02<5:56:02,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10903/40080 [2:13:03<5:56:11,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10904/40080 [2:13:04<5:56:06,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10905/40080 [2:13:05<5:56:05,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10906/40080 [2:13:05<5:56:20,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10907/40080 [2:13:06<5:55:55,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10908/40080 [2:13:07<5:56:23,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10909/40080 [2:13:07<5:56:33,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10910/40080 [2:13:08<5:56:17,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.442, 'grad_norm': 4.28125, 'learning_rate': 2.0723495461336927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.02, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▍                                                                                                                         | 10910/40080 [2:13:08<5:56:17,  1.36it/s] 27%|███��█████████████████████████████████████████▍                                                                                                                         | 10911/40080 [2:13:09<5:56:21,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10912/40080 [2:13:10<5:56:25,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10913/40080 [2:13:10<5:56:30,  1.36it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10914/40080 [2:13:11<5:55:56,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10915/40080 [2:13:12<5:55:47,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10916/40080 [2:13:13<5:55:35,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10917/40080 [2:13:13<5:55:38,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10918/40080 [2:13:14<5:55:59,  1.37it/s] 27%|█████████████████████████████████████████████▍                                                                                                                         | 10919/40080 [2:13:15<5:56:12,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10920/40080 [2:13:16<5:56:25,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4164, 'grad_norm': 3.109375, 'learning_rate': 2.0716106548598133e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2561.98, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▌                                                                                                                         | 10920/40080 [2:13:16<5:56:25,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10921/40080 [2:13:16<5:57:18,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10922/40080 [2:13:17<5:57:23,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10923/40080 [2:13:18<5:57:05,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10924/40080 [2:13:19<5:56:59,  1.36it/s] 27%|█████████████████████��███████████████████████▌                                                                                                                         | 10925/40080 [2:13:19<5:57:20,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10926/40080 [2:13:20<5:56:43,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10927/40080 [2:13:21<5:56:40,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10928/40080 [2:13:21<5:56:16,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10929/40080 [2:13:22<5:56:01,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10930/40080 [2:13:23<5:55:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3644, 'grad_norm': 4.25, 'learning_rate': 2.070871257787304e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2578.14, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▌                                                                                                                         | 10930/40080 [2:13:23<5:55:47,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10931/40080 [2:13:24<5:56:15,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10932/40080 [2:13:24<5:55:57,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10933/40080 [2:13:25<5:56:17,  1.36it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10934/40080 [2:13:26<5:55:34,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10935/40080 [2:13:27<5:55:35,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10936/40080 [2:13:27<5:55:23,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10937/40080 [2:13:28<5:55:23,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10938/40080 [2:13:29<5:55:16,  1.37it/s] 27%|█████████████████████████████████████████���███▌                                                                                                                         | 10939/40080 [2:13:29<5:55:15,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10940/40080 [2:13:30<5:55:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4305, 'grad_norm': 3.21875, 'learning_rate': 2.070131355371352e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2700.82, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▌                                                                                                                         | 10940/40080 [2:13:30<5:55:25,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10941/40080 [2:13:31<5:55:45,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10942/40080 [2:13:32<5:55:21,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10943/40080 [2:13:32<5:55:26,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10944/40080 [2:13:33<5:55:06,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10945/40080 [2:13:34<5:55:10,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10946/40080 [2:13:35<5:55:11,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10947/40080 [2:13:35<5:55:27,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10948/40080 [2:13:36<5:55:28,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10949/40080 [2:13:37<5:55:07,  1.37it/s] 27%|█████████████████████████████████████████████▌                                                                                                                         | 10950/40080 [2:13:38<5:55:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4072, 'grad_norm': 2.65625, 'learning_rate': 2.0693909480674545e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.59, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▌                                                                                                                         | 10950/40080 [2:13:38<5:55:21,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10951/40080 [2:13:38<5:55:23,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10952/40080 [2:13:39<5:55:26,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10953/40080 [2:13:40<5:55:20,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10954/40080 [2:13:40<5:55:22,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10955/40080 [2:13:41<5:55:13,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10956/40080 [2:13:42<5:55:03,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10957/40080 [2:13:43<5:55:07,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10958/40080 [2:13:43<5:55:30,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10959/40080 [2:13:44<5:55:32,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10960/40080 [2:13:45<5:55:56,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3517, 'grad_norm': 3.109375, 'learning_rate': 2.0686500363314196e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2573.06, 'epoch': 1.09}
+ 27%|█████████████████████████████████████████████▋                                                                                                                         | 10960/40080 [2:13:45<5:55:56,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10961/40080 [2:13:46<5:56:20,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10962/40080 [2:13:46<5:56:00,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10963/40080 [2:13:47<5:56:00,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10964/40080 [2:13:48<5:56:11,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10965/40080 [2:13:49<5:55:41,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10966/40080 [2:13:49<5:55:58,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10967/40080 [2:13:50<5:56:01,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10968/40080 [2:13:51<5:55:49,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10969/40080 [2:13:51<5:55:26,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10970/40080 [2:13:52<5:55:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3661, 'grad_norm': 2.65625, 'learning_rate': 2.0679086206193666e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2715.48, 'epoch': 1.1}
+ 27%|█████████████████████████████████████████████▋                                                                                                                         | 10970/40080 [2:13:52<5:55:23,  1.37it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10971/40080 [2:13:53<5:55:46,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10972/40080 [2:13:54<5:56:11,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10973/40080 [2:13:54<5:56:06,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10974/40080 [2:13:55<5:55:54,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10975/40080 [2:13:56<5:55:41,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10976/40080 [2:13:57<5:55:42,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10977/40080 [2:13:57<5:55:37,  1.36it/s] 27%|█████████████████████████████████████████████▋                                                                                                                         | 10978/40080 [2:13:58<5:55:25,  1.36it/s] 27%|█████████████████████████████████████████████��                                                                                                                         | 10979/40080 [2:13:59<5:55:43,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10980/40080 [2:14:00<5:55:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3936, 'grad_norm': 3.640625, 'learning_rate': 2.067166701387725e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2321.46, 'epoch': 1.1}
+ 27%|█████████████████████████████████████████████▊                                                                                                                         | 10980/40080 [2:14:00<5:55:05,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10981/40080 [2:14:00<5:55:54,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10982/40080 [2:14:01<5:57:09,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10983/40080 [2:14:02<5:56:37,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10984/40080 [2:14:02<5:56:10,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10985/40080 [2:14:03<5:56:03,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10986/40080 [2:14:04<5:55:53,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10987/40080 [2:14:05<5:55:56,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10988/40080 [2:14:05<5:55:30,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10989/40080 [2:14:06<5:55:08,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10990/40080 [2:14:07<5:55:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3627, 'grad_norm': 3.46875, 'learning_rate': 2.066424279093233e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2623.6, 'epoch': 1.1}
+ 27%|█████████████████████████████████████████████▊                                                                                                                         | 10990/40080 [2:14:07<5:55:10,  1.37it/s] 27%|██████████████���██████████████████████████████▊                                                                                                                         | 10991/40080 [2:14:08<5:55:33,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10992/40080 [2:14:08<5:55:17,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10993/40080 [2:14:09<5:55:08,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10994/40080 [2:14:10<5:54:56,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10995/40080 [2:14:11<5:54:49,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10996/40080 [2:14:11<5:54:57,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10997/40080 [2:14:12<5:55:11,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10998/40080 [2:14:13<5:54:51,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 10999/40080 [2:14:13<5:55:43,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11000/40080 [2:14:14<5:55:30,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4099, 'grad_norm': 3.515625, 'learning_rate': 2.0656813541929404e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.87, 'epoch': 1.1}
+ 27%|█████████████████████████████████████████████▊                                                                                                                         | 11000/40080 [2:14:14<5:55:30,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11001/40080 [2:14:15<5:55:35,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11002/40080 [2:14:16<5:55:36,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11003/40080 [2:14:16<5:55:22,  1.36it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11004/40080 [2:14:17<5:54:45,  1.37it/s] 27%|████████████████████████████████��████████████▊                                                                                                                         | 11005/40080 [2:14:18<5:54:32,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11006/40080 [2:14:19<5:54:43,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11007/40080 [2:14:19<5:54:27,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11008/40080 [2:14:20<5:54:22,  1.37it/s] 27%|█████████████████████████████████████████████▊                                                                                                                         | 11009/40080 [2:14:21<5:54:40,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11010/40080 [2:14:22<5:54:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3461, 'grad_norm': 2.875, 'learning_rate': 2.064937927144205e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.35, 'epoch': 1.1}
+ 27%|█████████████████████████████████████████████▉                                                                                                                         | 11010/40080 [2:14:22<5:54:55,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11011/40080 [2:14:22<5:55:02,  1.36it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11012/40080 [2:14:23<5:54:37,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11013/40080 [2:14:24<5:54:45,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11014/40080 [2:14:24<5:54:24,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11015/40080 [2:14:25<5:54:31,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11016/40080 [2:14:26<5:54:43,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11017/40080 [2:14:27<5:54:28,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11018/40080 [2:14:27<5:54:36,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11019/40080 [2:14:28<5:54:24,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11020/40080 [2:14:29<5:54:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3731, 'grad_norm': 3.640625, 'learning_rate': 2.0641939984046933e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.93, 'epoch': 1.1}
+ 27%|█████████████████████████████████████████████▉                                                                                                                         | 11020/40080 [2:14:29<5:54:26,  1.37it/s] 27%|█████████████████████████████████████████████▉                                                                                                                         | 11021/40080 [2:14:30<5:54:27,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11022/40080 [2:14:30<5:54:39,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11023/40080 [2:14:31<5:55:09,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11024/40080 [2:14:32<5:55:14,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11025/40080 [2:14:33<5:54:51,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11026/40080 [2:14:33<5:54:49,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11027/40080 [2:14:34<5:54:38,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11028/40080 [2:14:35<5:54:45,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11029/40080 [2:14:35<5:54:45,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11030/40080 [2:14:36<5:54:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3653, 'grad_norm': 3.234375, 'learning_rate': 2.063449568432383e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.33, 'epoch': 1.1}
+ 28%|█████████████████████████████████████████████▉                                                                                                                         | 11030/40080 [2:14:36<5:54:40,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11031/40080 [2:14:37<5:54:54,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11032/40080 [2:14:38<5:55:04,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11033/40080 [2:14:38<5:54:31,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11034/40080 [2:14:39<5:54:43,  1.36it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11035/40080 [2:14:40<5:54:35,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11036/40080 [2:14:41<5:54:22,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11037/40080 [2:14:41<5:54:11,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11038/40080 [2:14:42<5:54:18,  1.37it/s] 28%|█████████████████████████████████████████████▉                                                                                                                         | 11039/40080 [2:14:43<5:54:18,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11040/40080 [2:14:43<5:54:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3393, 'grad_norm': 2.953125, 'learning_rate': 2.062704637685558e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.77, 'epoch': 1.1}
+ 28%|██████████████████████████████████████████████                                                                                                                         | 11040/40080 [2:14:43<5:54:30,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11041/40080 [2:14:44<5:54:51,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11042/40080 [2:14:45<5:54:44,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11043/40080 [2:14:46<5:54:42,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11044/40080 [2:14:46<5:54:26,  1.37it/s] 28%|██████████████████████████████████████��███████                                                                                                                         | 11045/40080 [2:14:47<5:54:41,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11046/40080 [2:14:48<5:54:12,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11047/40080 [2:14:49<5:53:58,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11048/40080 [2:14:49<5:54:03,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11049/40080 [2:14:50<5:54:08,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11050/40080 [2:14:51<5:54:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4006, 'grad_norm': 4.21875, 'learning_rate': 2.0619592066228117e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.24, 'epoch': 1.1}
+ 28%|██████████████████████████████████████████████                                                                                                                         | 11050/40080 [2:14:51<5:54:14,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11051/40080 [2:14:52<5:54:24,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11052/40080 [2:14:52<5:54:19,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11053/40080 [2:14:53<5:54:19,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11054/40080 [2:14:54<5:54:13,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11055/40080 [2:14:54<5:54:09,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11056/40080 [2:14:55<5:54:02,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11057/40080 [2:14:56<5:54:20,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11058/40080 [2:14:57<5:54:10,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11059/40080 [2:14:57<5:54:08,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11060/40080 [2:14:58<5:53:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3797, 'grad_norm': 4.0, 'learning_rate': 2.061213275703045e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2435.07, 'epoch': 1.1}
+ 28%|██████████████████████████████████████████████                                                                                                                         | 11060/40080 [2:14:58<5:53:52,  1.37it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11061/40080 [2:14:59<5:54:41,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11062/40080 [2:15:00<5:54:31,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11063/40080 [2:15:00<5:54:39,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11064/40080 [2:15:01<5:54:26,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11065/40080 [2:15:02<5:54:21,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11066/40080 [2:15:03<5:54:35,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11067/40080 [2:15:03<5:54:32,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11068/40080 [2:15:04<5:54:52,  1.36it/s] 28%|██████████████████████████████████████████████                                                                                                                         | 11069/40080 [2:15:05<5:55:04,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11070/40080 [2:15:05<5:54:40,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3935, 'grad_norm': 3.4375, 'learning_rate': 2.0604668453854668e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2459.11, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▏                                                                                                                        | 11070/40080 [2:15:05<5:54:40,  1.36it/s] 28%|█████████████████████████��████████████████████▏                                                                                                                        | 11071/40080 [2:15:06<5:54:25,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11072/40080 [2:15:07<5:54:31,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11073/40080 [2:15:08<5:54:17,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11074/40080 [2:15:08<5:54:43,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11075/40080 [2:15:09<5:54:33,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11076/40080 [2:15:10<5:54:16,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11077/40080 [2:15:11<5:54:25,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11078/40080 [2:15:11<5:54:04,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11079/40080 [2:15:12<5:54:05,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11080/40080 [2:15:13<5:53:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3557, 'grad_norm': 3.171875, 'learning_rate': 2.059719916129593e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2593.08, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▏                                                                                                                        | 11080/40080 [2:15:13<5:53:50,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11081/40080 [2:15:14<5:54:17,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11082/40080 [2:15:14<5:54:18,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11083/40080 [2:15:15<5:54:16,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11084/40080 [2:15:16<5:54:10,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11085/40080 [2:15:16<5:53:53,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11086/40080 [2:15:17<5:54:15,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11087/40080 [2:15:18<5:54:02,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11088/40080 [2:15:19<5:53:48,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11089/40080 [2:15:19<5:53:47,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11090/40080 [2:15:20<5:53:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3631, 'grad_norm': 3.40625, 'learning_rate': 2.0589724883952473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2583.35, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▏                                                                                                                        | 11090/40080 [2:15:20<5:53:38,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11091/40080 [2:15:21<5:53:53,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11092/40080 [2:15:22<5:53:35,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11093/40080 [2:15:22<5:53:51,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11094/40080 [2:15:23<5:54:08,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11095/40080 [2:15:24<5:53:53,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11096/40080 [2:15:25<5:53:59,  1.36it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11097/40080 [2:15:25<5:53:30,  1.37it/s] 28%|██████████████████████████████████████████████▏                                                                                                                        | 11098/40080 [2:15:26<5:53:15,  1.37it/s] 28%|██████████████████████████████████████████���███▏                                                                                                                        | 11099/40080 [2:15:27<5:53:39,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11100/40080 [2:15:27<5:53:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3801, 'grad_norm': 2.640625, 'learning_rate': 2.05822456264256e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2311.85, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▎                                                                                                                        | 11100/40080 [2:15:27<5:53:41,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11101/40080 [2:15:28<5:53:55,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11102/40080 [2:15:29<5:54:06,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11103/40080 [2:15:30<5:53:27,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11104/40080 [2:15:30<5:53:47,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11105/40080 [2:15:31<5:53:34,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11106/40080 [2:15:32<5:53:44,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11107/40080 [2:15:33<5:53:59,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11108/40080 [2:15:33<5:53:39,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11109/40080 [2:15:34<5:53:39,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11110/40080 [2:15:35<5:54:01,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4028, 'grad_norm': 3.234375, 'learning_rate': 2.057476139331968e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2648.11, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▎                                                                                                                        | 11110/40080 [2:15:35<5:54:01,  1.36it/s] 28%|��█████████████████████████████████████████████▎                                                                                                                        | 11111/40080 [2:15:36<5:54:31,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11112/40080 [2:15:36<5:54:06,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11113/40080 [2:15:37<5:54:04,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11114/40080 [2:15:38<5:53:48,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11115/40080 [2:15:38<5:53:51,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11116/40080 [2:15:39<5:53:52,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11117/40080 [2:15:40<5:53:26,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11118/40080 [2:15:41<5:53:30,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11119/40080 [2:15:41<5:52:53,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11120/40080 [2:15:42<5:53:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3596, 'grad_norm': 3.015625, 'learning_rate': 2.056727218924214e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2455.12, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▎                                                                                                                        | 11120/40080 [2:15:42<5:53:08,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11121/40080 [2:15:43<5:53:39,  1.36it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11122/40080 [2:15:44<5:53:05,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11123/40080 [2:15:44<5:53:18,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11124/40080 [2:15:45<5:52:36,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11125/40080 [2:15:46<5:52:42,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11126/40080 [2:15:46<5:52:53,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11127/40080 [2:15:47<5:53:17,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11128/40080 [2:15:48<5:53:23,  1.37it/s] 28%|██████████████████████████████████████████████▎                                                                                                                        | 11129/40080 [2:15:49<5:53:26,  1.37it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11130/40080 [2:15:49<5:53:49,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3667, 'grad_norm': 3.40625, 'learning_rate': 2.055977801880348e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2489.96, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▍                                                                                                                        | 11130/40080 [2:15:49<5:53:49,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11131/40080 [2:15:50<5:54:18,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11132/40080 [2:15:51<5:54:08,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11133/40080 [2:15:52<5:53:38,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11134/40080 [2:15:52<5:53:44,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11135/40080 [2:15:53<5:54:01,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11136/40080 [2:15:54<5:53:31,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11137/40080 [2:15:55<5:53:28,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11138/40080 [2:15:55<5:53:34,  1.36it/s] 28%|█████████████████��████████████████████████████▍                                                                                                                        | 11139/40080 [2:15:56<5:53:19,  1.37it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11140/40080 [2:15:57<5:53:23,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4134, 'grad_norm': 3.171875, 'learning_rate': 2.055227888661724e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2642.2, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▍                                                                                                                        | 11140/40080 [2:15:57<5:53:23,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11141/40080 [2:15:57<5:53:48,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11142/40080 [2:15:58<5:53:22,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11143/40080 [2:15:59<5:53:23,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11144/40080 [2:16:00<5:53:28,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11145/40080 [2:16:00<5:53:22,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11146/40080 [2:16:01<5:52:54,  1.37it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11147/40080 [2:16:02<5:52:42,  1.37it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11148/40080 [2:16:03<5:52:52,  1.37it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11149/40080 [2:16:03<5:53:18,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11150/40080 [2:16:04<5:53:32,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4068, 'grad_norm': 2.59375, 'learning_rate': 2.054477479730003e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.57, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▍                                                                                                                        | 11150/40080 [2:16:04<5:53:32,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11151/40080 [2:16:05<5:54:07,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11152/40080 [2:16:06<5:53:40,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11153/40080 [2:16:06<5:53:32,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11154/40080 [2:16:07<5:53:44,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11155/40080 [2:16:08<5:53:31,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11156/40080 [2:16:08<5:53:29,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11157/40080 [2:16:09<5:53:32,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11158/40080 [2:16:10<5:53:20,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11159/40080 [2:16:11<5:53:24,  1.36it/s] 28%|██████████████████████████████████████████████▍                                                                                                                        | 11160/40080 [2:16:11<5:53:23,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3853, 'grad_norm': 3.375, 'learning_rate': 2.0537265755471503e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2595.65, 'epoch': 1.11}
+ 28%|██████████████████████████████████████████████▍                                                                                                                        | 11160/40080 [2:16:11<5:53:23,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11161/40080 [2:16:12<5:53:24,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11162/40080 [2:16:13<5:53:24,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11163/40080 [2:16:14<5:53:14,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11164/40080 [2:16:14<5:52:45,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11165/40080 [2:16:15<5:52:58,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11166/40080 [2:16:16<5:52:48,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11167/40080 [2:16:17<5:52:58,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11168/40080 [2:16:17<5:52:54,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11169/40080 [2:16:18<5:52:55,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11170/40080 [2:16:19<5:52:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3565, 'grad_norm': 3.640625, 'learning_rate': 2.052975176575436e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.02, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▌                                                                                                                        | 11170/40080 [2:16:19<5:52:51,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11171/40080 [2:16:19<5:53:20,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11172/40080 [2:16:20<5:53:06,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11173/40080 [2:16:21<5:53:02,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11174/40080 [2:16:22<5:53:10,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11175/40080 [2:16:22<5:52:59,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11176/40080 [2:16:23<5:52:52,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11177/40080 [2:16:24<5:52:41,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11178/40080 [2:16:25<5:53:07,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11179/40080 [2:16:25<5:52:46,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11180/40080 [2:16:26<5:52:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3698, 'grad_norm': 2.59375, 'learning_rate': 2.0522232832774356e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2692.16, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▌                                                                                                                        | 11180/40080 [2:16:26<5:52:32,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11181/40080 [2:16:27<5:53:01,  1.36it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11182/40080 [2:16:28<5:52:45,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11183/40080 [2:16:28<5:52:36,  1.37it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11184/40080 [2:16:29<6:48:34,  1.18it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11185/40080 [2:16:30<6:31:36,  1.23it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11186/40080 [2:16:31<6:19:58,  1.27it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11187/40080 [2:16:32<6:11:39,  1.30it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11188/40080 [2:16:32<6:05:58,  1.32it/s] 28%|██████████████████████████████████████████████▌                                                                                                                        | 11189/40080 [2:16:33<6:01:54,  1.33it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11190/40080 [2:16:34<5:59:07,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3641, 'grad_norm': 3.5625, 'learning_rate': 2.0514708961160287e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2489.54, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▋                                                                                                                        | 11190/40080 [2:16:34<5:59:07,  1.34it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11191/40080 [2:16:35<5:57:45,  1.35it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11192/40080 [2:16:35<5:56:28,  1.35it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11193/40080 [2:16:36<5:55:25,  1.35it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11194/40080 [2:16:37<5:54:51,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11195/40080 [2:16:37<5:54:25,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11196/40080 [2:16:38<5:53:53,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11197/40080 [2:16:39<5:53:30,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11198/40080 [2:16:40<5:53:00,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11199/40080 [2:16:40<5:52:42,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11200/40080 [2:16:41<5:52:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4351, 'grad_norm': 3.59375, 'learning_rate': 2.0507180155543978e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2628.25, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▋                                                                                                                        | 11200/40080 [2:16:41<5:52:33,  1.37it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11201/40080 [2:16:42<5:52:49,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11202/40080 [2:16:43<5:52:36,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11203/40080 [2:16:43<5:52:40,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11204/40080 [2:16:44<5:52:29,  1.37it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11205/40080 [2:16:45<5:52:27,  1.37it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11206/40080 [2:16:46<5:52:25,  1.37it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11207/40080 [2:16:46<5:52:39,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11208/40080 [2:16:47<5:52:09,  1.37it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11209/40080 [2:16:48<5:52:13,  1.37it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11210/40080 [2:16:48<5:52:31,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3791, 'grad_norm': 3.40625, 'learning_rate': 2.049964642056031e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.54, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▋                                                                                                                        | 11210/40080 [2:16:48<5:52:31,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11211/40080 [2:16:49<5:52:58,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11212/40080 [2:16:50<5:52:39,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11213/40080 [2:16:51<5:52:32,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11214/40080 [2:16:51<5:52:49,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11215/40080 [2:16:52<5:52:55,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11216/40080 [2:16:53<5:52:55,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11217/40080 [2:16:54<5:52:41,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11218/40080 [2:16:54<5:52:41,  1.36it/s] 28%|██████████████████████████████████████████████▋                                                                                                                        | 11219/40080 [2:16:55<5:52:51,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11220/40080 [2:16:56<5:52:24,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.445, 'grad_norm': 3.96875, 'learning_rate': 2.0492107760847178e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2732.07, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▊                                                                                                                        | 11220/40080 [2:16:56<5:52:24,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11221/40080 [2:16:57<5:52:32,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11222/40080 [2:16:57<5:52:01,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11223/40080 [2:16:58<5:51:59,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11224/40080 [2:16:59<5:52:02,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11225/40080 [2:16:59<5:51:54,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11226/40080 [2:17:00<5:52:12,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11227/40080 [2:17:01<5:51:58,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11228/40080 [2:17:02<5:51:50,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11229/40080 [2:17:02<5:51:37,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11230/40080 [2:17:03<5:52:40,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4343, 'grad_norm': 3.796875, 'learning_rate': 2.048456418104553e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2291.46, 'epoch': 1.12}
+ 28%|██████████████████████████████���███████████████▊                                                                                                                        | 11230/40080 [2:17:03<5:52:40,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11231/40080 [2:17:04<5:54:24,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11232/40080 [2:17:05<5:53:34,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11233/40080 [2:17:05<5:53:16,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11234/40080 [2:17:06<5:52:24,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11235/40080 [2:17:07<5:52:22,  1.36it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11236/40080 [2:17:07<5:51:51,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11237/40080 [2:17:08<5:51:42,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11238/40080 [2:17:09<5:51:14,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11239/40080 [2:17:10<5:50:59,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11240/40080 [2:17:10<5:51:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3878, 'grad_norm': 3.3125, 'learning_rate': 2.0477015685799326e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2417.01, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▊                                                                                                                        | 11240/40080 [2:17:10<5:51:07,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11241/40080 [2:17:11<5:51:27,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11242/40080 [2:17:12<5:51:39,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11243/40080 [2:17:13<5:51:34,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11244/40080 [2:17:13<5:51:42,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11245/40080 [2:17:14<5:51:15,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11246/40080 [2:17:15<5:51:19,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11247/40080 [2:17:16<5:51:32,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11248/40080 [2:17:16<5:51:27,  1.37it/s] 28%|██████████████████████████████████████████████▊                                                                                                                        | 11249/40080 [2:17:17<5:51:19,  1.37it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11250/40080 [2:17:18<5:51:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3776, 'grad_norm': 3.25, 'learning_rate': 2.046946227975556e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.72, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▉                                                                                                                        | 11250/40080 [2:17:18<5:51:11,  1.37it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11251/40080 [2:17:18<5:53:50,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11252/40080 [2:17:19<5:52:50,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11253/40080 [2:17:20<5:52:42,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11254/40080 [2:17:21<5:52:29,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11255/40080 [2:17:21<5:52:07,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11256/40080 [2:17:22<5:52:00,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11257/40080 [2:17:23<5:52:24,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11258/40080 [2:17:24<5:52:25,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11259/40080 [2:17:24<5:52:03,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11260/40080 [2:17:25<5:51:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3887, 'grad_norm': 3.296875, 'learning_rate': 2.0461903967564248e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.69, 'epoch': 1.12}
+ 28%|██████████████████████████████████████████████▉                                                                                                                        | 11260/40080 [2:17:25<5:51:48,  1.37it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11261/40080 [2:17:26<5:52:02,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11262/40080 [2:17:27<5:51:53,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11263/40080 [2:17:27<5:51:55,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11264/40080 [2:17:28<5:52:10,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11265/40080 [2:17:29<5:51:50,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11266/40080 [2:17:29<5:52:03,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11267/40080 [2:17:30<5:52:09,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11268/40080 [2:17:31<5:52:31,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11269/40080 [2:17:32<5:52:18,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11270/40080 [2:17:32<5:52:30,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4002, 'grad_norm': 3.171875, 'learning_rate': 2.0454340753878426e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2606.02, 'epoch': 1.13}
+ 28%|██████████████████████████████████████████████▉                                                                                                                        | 11270/40080 [2:17:32<5:52:30,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11271/40080 [2:17:33<5:52:50,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11272/40080 [2:17:34<5:52:58,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11273/40080 [2:17:35<5:52:42,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11274/40080 [2:17:35<5:52:22,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11275/40080 [2:17:36<5:52:10,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11276/40080 [2:17:37<5:52:10,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11277/40080 [2:17:38<5:51:57,  1.36it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11278/40080 [2:17:38<5:51:38,  1.37it/s] 28%|██████████████████████████████████████████████▉                                                                                                                        | 11279/40080 [2:17:39<5:51:45,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11280/40080 [2:17:40<5:52:22,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3599, 'grad_norm': 3.40625, 'learning_rate': 2.0446772643354147e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2617.9, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████                                                                                                                        | 11280/40080 [2:17:40<5:52:22,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11281/40080 [2:17:40<5:52:14,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11282/40080 [2:17:41<5:52:00,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11283/40080 [2:17:42<5:51:31,  1.37it/s] 28%|██████████████��████████████████████████████████                                                                                                                        | 11284/40080 [2:17:43<5:51:04,  1.37it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11285/40080 [2:17:43<5:51:37,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11286/40080 [2:17:44<5:51:32,  1.37it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11287/40080 [2:17:45<5:51:40,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11288/40080 [2:17:46<5:51:41,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11289/40080 [2:17:46<5:51:48,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11290/40080 [2:17:47<5:51:54,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3883, 'grad_norm': 3.546875, 'learning_rate': 2.043919964065048e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2598.42, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████                                                                                                                        | 11290/40080 [2:17:47<5:51:54,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11291/40080 [2:17:48<5:54:02,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11292/40080 [2:17:49<5:53:26,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11293/40080 [2:17:49<5:53:06,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11294/40080 [2:17:50<5:52:48,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11295/40080 [2:17:51<5:52:06,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11296/40080 [2:17:51<5:52:02,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11297/40080 [2:17:52<5:52:12,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11298/40080 [2:17:53<5:51:59,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11299/40080 [2:17:54<5:52:03,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11300/40080 [2:17:54<5:51:48,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.327, 'grad_norm': 2.703125, 'learning_rate': 2.0431621750429504e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2564.09, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████                                                                                                                        | 11300/40080 [2:17:54<5:51:48,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11301/40080 [2:17:55<5:52:14,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11302/40080 [2:17:56<5:52:02,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11303/40080 [2:17:57<5:52:12,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11304/40080 [2:17:57<5:52:05,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11305/40080 [2:17:58<5:52:00,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11306/40080 [2:17:59<5:52:27,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11307/40080 [2:18:00<5:52:23,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11308/40080 [2:18:00<5:52:21,  1.36it/s] 28%|███████████████████████████████████████████████                                                                                                                        | 11309/40080 [2:18:01<5:52:02,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11310/40080 [2:18:02<5:51:28,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4119, 'grad_norm': 3.34375, 'learning_rate': 2.042403897735631e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2580.92, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████▏                                                                                                                       | 11310/40080 [2:18:02<5:51:28,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11311/40080 [2:18:02<5:52:10,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11312/40080 [2:18:03<5:52:29,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11313/40080 [2:18:04<5:52:51,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11314/40080 [2:18:05<5:52:41,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11315/40080 [2:18:05<5:51:52,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11316/40080 [2:18:06<5:51:34,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11317/40080 [2:18:07<5:51:23,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11318/40080 [2:18:08<5:51:16,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11319/40080 [2:18:08<5:51:16,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11320/40080 [2:18:09<5:51:27,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.368, 'grad_norm': 3.390625, 'learning_rate': 2.041645132609899e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2489.46, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████▏                                                                                                                       | 11320/40080 [2:18:09<5:51:27,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11321/40080 [2:18:10<5:52:18,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11322/40080 [2:18:11<5:52:27,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11323/40080 [2:18:11<5:52:28,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11324/40080 [2:18:12<5:52:38,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11325/40080 [2:18:13<5:52:36,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11326/40080 [2:18:14<5:52:35,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11327/40080 [2:18:14<5:52:12,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11328/40080 [2:18:15<5:51:40,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11329/40080 [2:18:16<5:51:24,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11330/40080 [2:18:16<5:50:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4276, 'grad_norm': 3.046875, 'learning_rate': 2.040885880132864e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.04, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████▏                                                                                                                       | 11330/40080 [2:18:16<5:50:59,  1.37it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11331/40080 [2:18:17<5:51:28,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11332/40080 [2:18:18<5:51:19,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11333/40080 [2:18:19<5:51:09,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11334/40080 [2:18:19<5:51:19,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11335/40080 [2:18:20<5:51:05,  1.36it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11336/40080 [2:18:21<5:50:48,  1.37it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11337/40080 [2:18:22<5:50:32,  1.37it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11338/40080 [2:18:22<5:50:19,  1.37it/s] 28%|███████████████████████████████████████████████▏                                                                                                                       | 11339/40080 [2:18:23<5:49:56,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11340/40080 [2:18:24<5:50:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3311, 'grad_norm': 2.359375, 'learning_rate': 2.0401261407719357e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.82, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████▎                                                                                                                       | 11340/40080 [2:18:24<5:50:08,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11341/40080 [2:18:24<5:50:38,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11342/40080 [2:18:25<5:50:21,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11343/40080 [2:18:26<5:50:12,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11344/40080 [2:18:27<5:49:49,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11345/40080 [2:18:27<5:50:03,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11346/40080 [2:18:28<5:49:59,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11347/40080 [2:18:29<5:50:00,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11348/40080 [2:18:30<5:49:47,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11349/40080 [2:18:30<5:50:10,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11350/40080 [2:18:31<5:50:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3414, 'grad_norm': 2.9375, 'learning_rate': 2.0393659149948246e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2591.95, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████▎                                                                                                                       | 11350/40080 [2:18:31<5:50:15,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11351/40080 [2:18:32<5:50:21,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11352/40080 [2:18:33<5:50:24,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11353/40080 [2:18:33<5:50:10,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11354/40080 [2:18:34<5:50:07,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11355/40080 [2:18:35<5:50:08,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11356/40080 [2:18:35<5:50:06,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11357/40080 [2:18:36<5:50:12,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11358/40080 [2:18:37<5:50:02,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11359/40080 [2:18:38<5:50:06,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11360/40080 [2:18:38<5:49:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3711, 'grad_norm': 2.609375, 'learning_rate': 2.0386052032695384e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2757.89, 'epoch': 1.13}
+ 28%|███████████████████████████████████████████████▎                                                                                                                       | 11360/40080 [2:18:38<5:49:46,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11361/40080 [2:18:39<5:50:06,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11362/40080 [2:18:40<5:49:41,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11363/40080 [2:18:41<5:49:35,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11364/40080 [2:18:41<5:49:21,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11365/40080 [2:18:42<5:49:45,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11366/40080 [2:18:43<5:49:27,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11367/40080 [2:18:44<5:49:43,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11368/40080 [2:18:44<5:49:46,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11369/40080 [2:18:45<5:49:40,  1.37it/s] 28%|███████████████████████████████████████████████▎                                                                                                                       | 11370/40080 [2:18:46<5:49:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.409, 'grad_norm': 3.84375, 'learning_rate': 2.037844006064386e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2593.42, 'epoch': 1.14}
+ 28%|███████████████████████████████████████████████▎                                                                                                                       | 11370/40080 [2:18:46<5:49:19,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11371/40080 [2:18:46<5:49:40,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11372/40080 [2:18:47<5:49:38,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11373/40080 [2:18:48<5:49:28,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11374/40080 [2:18:49<5:49:32,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11375/40080 [2:18:49<5:49:36,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11376/40080 [2:18:50<5:49:39,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11377/40080 [2:18:51<5:49:15,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11378/40080 [2:18:52<5:48:47,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11379/40080 [2:18:52<5:48:51,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11380/40080 [2:18:53<5:49:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3531, 'grad_norm': 2.8125, 'learning_rate': 2.0370823238479746e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.44, 'epoch': 1.14}
+ 28%|███████████████████████████████████████████████▍                                                                                                                       | 11380/40080 [2:18:53<5:49:02,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11381/40080 [2:18:54<5:49:29,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11382/40080 [2:18:54<5:49:38,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11383/40080 [2:18:55<5:49:39,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11384/40080 [2:18:56<5:49:36,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11385/40080 [2:18:57<5:49:04,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11386/40080 [2:18:57<5:49:19,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11387/40080 [2:18:58<5:48:52,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11388/40080 [2:18:59<5:49:03,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11389/40080 [2:19:00<5:49:04,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11390/40080 [2:19:00<5:49:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3806, 'grad_norm': 3.5, 'learning_rate': 2.036320157089209e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2537.08, 'epoch': 1.14}
+ 28%|███████████████████████████████████████████████▍                                                                                                                       | 11390/40080 [2:19:00<5:49:37,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11391/40080 [2:19:01<5:50:09,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11392/40080 [2:19:02<5:49:57,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11393/40080 [2:19:03<5:50:14,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11394/40080 [2:19:03<5:50:02,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11395/40080 [2:19:04<5:49:49,  1.37it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11396/40080 [2:19:05<5:53:50,  1.35it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11397/40080 [2:19:05<5:52:39,  1.36it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11398/40080 [2:19:06<5:51:29,  1.36it/s] 28%|███████████████████████████████████████████████▍                                                                                                                       | 11399/40080 [2:19:07<5:51:07,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11400/40080 [2:19:08<5:50:21,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3631, 'grad_norm': 3.046875, 'learning_rate': 2.0355575062572933e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2624.34, 'epoch': 1.14}
+ 28%|███████████████████████████████████████████████▌                                                                                                                       | 11400/40080 [2:19:08<5:50:21,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11401/40080 [2:19:08<5:50:35,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11402/40080 [2:19:09<5:50:10,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11403/40080 [2:19:10<5:49:52,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11404/40080 [2:19:11<5:49:59,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11405/40080 [2:19:11<5:49:33,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11406/40080 [2:19:12<5:49:18,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11407/40080 [2:19:13<5:49:03,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11408/40080 [2:19:13<5:48:56,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11409/40080 [2:19:14<5:49:05,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11410/40080 [2:19:15<5:49:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3321, 'grad_norm': 3.078125, 'learning_rate': 2.0347943718217298e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2527.84, 'epoch': 1.14}
+ 28%|███████████████████████████████████████████████▌                                                                                                                       | 11410/40080 [2:19:15<5:49:28,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11411/40080 [2:19:16<5:50:42,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11412/40080 [2:19:16<5:51:38,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11413/40080 [2:19:17<5:50:29,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11414/40080 [2:19:18<5:50:16,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11415/40080 [2:19:19<5:49:59,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11416/40080 [2:19:19<5:50:02,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11417/40080 [2:19:20<5:49:59,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11418/40080 [2:19:21<5:49:20,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11419/40080 [2:19:22<5:49:42,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11420/40080 [2:19:22<5:49:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4095, 'grad_norm': 4.0, 'learning_rate': 2.0340307542523178e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2637.34, 'epoch': 1.14}
+ 28%|███████████████████████████████████████████████▌                                                                                                                       | 11420/40080 [2:19:22<5:49:41,  1.37it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11421/40080 [2:19:23<5:50:23,  1.36it/s] 28%|███████████████████████████████████████████████▌                                                                                                                       | 11422/40080 [2:19:24<5:49:50,  1.37it/s] 29%|███████████████████████████████████████████████▌                                                                                                                       | 11423/40080 [2:19:24<5:49:25,  1.37it/s] 29%|███████████████████████████████████████████████▌                                                                                                                       | 11424/40080 [2:19:25<5:49:24,  1.37it/s] 29%|███████████████████████████████████████████████▌                                                                                                                       | 11425/40080 [2:19:26<5:49:01,  1.37it/s] 29%|███████████████████████████████████████████████▌                                                                                                                       | 11426/40080 [2:19:27<5:49:14,  1.37it/s] 29%|███████████████████████████████████████████████▌                                                                                                                       | 11427/40080 [2:19:27<5:48:50,  1.37it/s] 29%|███████████████████████████████████████████████▌                                                                                                                       | 11428/40080 [2:19:28<5:48:50,  1.37it/s] 29%|███████████████████████████████████████████████▌                                                                                                                       | 11429/40080 [2:19:29<5:48:52,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11430/40080 [2:19:30<5:48:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4096, 'grad_norm': 3.265625, 'learning_rate': 2.033266654019155e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2408.25, 'epoch': 1.14}
+ 29%|███████████████████████████████████████████████▋                                                                                                                       | 11430/40080 [2:19:30<5:48:40,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11431/40080 [2:19:30<5:48:59,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11432/40080 [2:19:31<5:48:40,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11433/40080 [2:19:32<5:48:39,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11434/40080 [2:19:33<5:48:46,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11435/40080 [2:19:33<5:48:47,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11436/40080 [2:19:34<5:48:47,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11437/40080 [2:19:35<5:48:37,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11438/40080 [2:19:35<5:48:31,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11439/40080 [2:19:36<5:48:33,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11440/40080 [2:19:37<5:48:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4145, 'grad_norm': 2.53125, 'learning_rate': 2.032502071592634e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2423.87, 'epoch': 1.14}
+ 29%|███████████████████████████████████████████████▋                                                                                                                       | 11440/40080 [2:19:37<5:48:43,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11441/40080 [2:19:38<5:49:11,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11442/40080 [2:19:38<5:49:00,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11443/40080 [2:19:39<5:48:56,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11444/40080 [2:19:40<5:48:43,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11445/40080 [2:19:41<5:48:20,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11446/40080 [2:19:41<5:47:57,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11447/40080 [2:19:42<5:47:50,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11448/40080 [2:19:43<5:48:15,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11449/40080 [2:19:43<5:48:10,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11450/40080 [2:19:44<5:48:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3651, 'grad_norm': 3.90625, 'learning_rate': 2.0317370074434468e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2276.69, 'epoch': 1.14}
+ 29%|███████████████████████████████████████████████▋                                                                                                                       | 11450/40080 [2:19:44<5:48:14,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11451/40080 [2:19:45<5:49:09,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11452/40080 [2:19:46<5:48:50,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11453/40080 [2:19:46<5:48:59,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11454/40080 [2:19:47<5:48:40,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11455/40080 [2:19:48<5:48:56,  1.37it/s] 29%|████████████████████████���██████████████████████▋                                                                                                                       | 11456/40080 [2:19:49<5:49:14,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11457/40080 [2:19:49<5:49:00,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11458/40080 [2:19:50<5:48:52,  1.37it/s] 29%|███████████████████████████████████████████████▋                                                                                                                       | 11459/40080 [2:19:51<5:48:37,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11460/40080 [2:19:52<5:48:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3676, 'grad_norm': 3.59375, 'learning_rate': 2.0309714620425814e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2499.47, 'epoch': 1.14}
+ 29%|███████████████████████████████████████████████▊                                                                                                                       | 11460/40080 [2:19:52<5:48:41,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11461/40080 [2:19:52<5:49:18,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11462/40080 [2:19:53<5:49:00,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11463/40080 [2:19:54<5:48:55,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11464/40080 [2:19:54<5:48:24,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11465/40080 [2:19:55<5:48:37,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11466/40080 [2:19:56<5:48:34,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11467/40080 [2:19:57<5:48:33,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11468/40080 [2:19:57<5:48:13,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11469/40080 [2:19:58<5:48:27,  1.37it/s] 29%|██████████████████████��████████████████████████▊                                                                                                                       | 11470/40080 [2:19:59<5:48:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3706, 'grad_norm': 3.59375, 'learning_rate': 2.0302054358613205e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2586.36, 'epoch': 1.15}
+ 29%|███████████████████████████████████████████████▊                                                                                                                       | 11470/40080 [2:19:59<5:48:28,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11471/40080 [2:20:00<5:49:06,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11472/40080 [2:20:00<5:49:17,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11473/40080 [2:20:01<5:48:57,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11474/40080 [2:20:02<5:48:49,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11475/40080 [2:20:02<5:48:21,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11476/40080 [2:20:03<5:48:10,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11477/40080 [2:20:04<5:48:14,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11478/40080 [2:20:05<5:48:19,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11479/40080 [2:20:05<5:48:24,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11480/40080 [2:20:06<5:48:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.359, 'grad_norm': 2.5, 'learning_rate': 2.029438929371245e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2321.0, 'epoch': 1.15}
+ 29%|███████████████████████████████████████████████▊                                                                                                                       | 11480/40080 [2:20:06<5:48:37,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11481/40080 [2:20:07<5:49:01,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11482/40080 [2:20:08<5:48:43,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11483/40080 [2:20:08<5:48:51,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11484/40080 [2:20:09<5:48:35,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11485/40080 [2:20:10<5:48:39,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11486/40080 [2:20:11<5:48:03,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11487/40080 [2:20:11<5:48:17,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11488/40080 [2:20:12<5:48:04,  1.37it/s] 29%|███████████████████████████████████████████████▊                                                                                                                       | 11489/40080 [2:20:13<5:48:23,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11490/40080 [2:20:13<5:48:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3901, 'grad_norm': 3.453125, 'learning_rate': 2.0286719430442295e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2596.12, 'epoch': 1.15}
+ 29%|███████████████████████████████████████████████▉                                                                                                                       | 11490/40080 [2:20:13<5:48:08,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11491/40080 [2:20:14<5:48:27,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11492/40080 [2:20:15<5:48:00,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11493/40080 [2:20:16<5:47:35,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11494/40080 [2:20:16<5:47:39,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11495/40080 [2:20:17<5:47:50,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11496/40080 [2:20:18<5:48:09,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11497/40080 [2:20:19<5:48:08,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11498/40080 [2:20:19<5:48:22,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11499/40080 [2:20:20<5:48:51,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11500/40080 [2:20:21<5:48:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4074, 'grad_norm': 3.375, 'learning_rate': 2.0279044773524454e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2475.82, 'epoch': 1.15}
+ 29%|███████████████████████████████████████████████▉                                                                                                                       | 11500/40080 [2:20:21<5:48:43,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11501/40080 [2:20:22<5:49:13,  1.36it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11502/40080 [2:20:22<5:48:49,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11503/40080 [2:20:23<5:48:23,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11504/40080 [2:20:24<5:47:43,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11505/40080 [2:20:24<5:48:08,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11506/40080 [2:20:25<5:48:26,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11507/40080 [2:20:26<5:47:56,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11508/40080 [2:20:27<5:47:50,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11509/40080 [2:20:27<5:47:56,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11510/40080 [2:20:28<5:47:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.364, 'grad_norm': 3.328125, 'learning_rate': 2.0271365327683587e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.92, 'epoch': 1.15}
+ 29%|███████████████████████████████████████████████▉                                                                                                                       | 11510/40080 [2:20:28<5:47:54,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11511/40080 [2:20:29<5:47:57,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11512/40080 [2:20:30<5:47:45,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11513/40080 [2:20:30<5:47:40,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11514/40080 [2:20:31<5:47:52,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11515/40080 [2:20:32<5:48:17,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11516/40080 [2:20:32<5:48:26,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11517/40080 [2:20:33<5:48:13,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11518/40080 [2:20:34<5:48:31,  1.37it/s] 29%|███████████████████████████████████████████████▉                                                                                                                       | 11519/40080 [2:20:35<5:48:18,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11520/40080 [2:20:35<5:47:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3982, 'grad_norm': 2.765625, 'learning_rate': 2.02636810976473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2471.37, 'epoch': 1.15}
+ 29%|████████████████████████████████████████████████                                                                                                                       | 11520/40080 [2:20:35<5:47:44,  1.37it/s] 29%|███████████████████████���████████████████████████                                                                                                                       | 11521/40080 [2:20:36<5:48:11,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11522/40080 [2:20:37<5:48:08,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11523/40080 [2:20:38<5:48:02,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11524/40080 [2:20:38<5:47:35,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11525/40080 [2:20:39<5:47:19,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11526/40080 [2:20:40<5:47:10,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11527/40080 [2:20:41<5:47:14,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11528/40080 [2:20:41<5:47:21,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11529/40080 [2:20:42<5:47:31,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11530/40080 [2:20:43<5:47:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3636, 'grad_norm': 2.625, 'learning_rate': 2.0255992088146147e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2529.12, 'epoch': 1.15}
+ 29%|████████████████████████████████████████████████                                                                                                                       | 11530/40080 [2:20:43<5:47:37,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11531/40080 [2:20:43<5:48:18,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11532/40080 [2:20:44<5:48:18,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11533/40080 [2:20:45<5:47:24,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11534/40080 [2:20:46<5:47:26,  1.37it/s] 29%|██████████████████████���█████████████████████████                                                                                                                       | 11535/40080 [2:20:46<5:47:39,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11536/40080 [2:20:47<5:47:40,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11537/40080 [2:20:48<5:47:30,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11538/40080 [2:20:49<5:46:59,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11539/40080 [2:20:49<5:46:57,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11540/40080 [2:20:50<5:46:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4309, 'grad_norm': 3.09375, 'learning_rate': 2.0248298303913628e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2677.87, 'epoch': 1.15}
+ 29%|████████████████████████████████████████████████                                                                                                                       | 11540/40080 [2:20:50<5:46:59,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11541/40080 [2:20:51<5:47:20,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11542/40080 [2:20:51<5:47:03,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11543/40080 [2:20:52<5:47:11,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11544/40080 [2:20:53<5:47:29,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11545/40080 [2:20:54<5:47:20,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11546/40080 [2:20:54<5:47:28,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11547/40080 [2:20:55<5:47:09,  1.37it/s] 29%|████████████████████████████████████████████████                                                                                                                       | 11548/40080 [2:20:56<5:47:36,  1.37it/s] 29%|████████████████████��███████████████████████████                                                                                                                       | 11549/40080 [2:20:57<5:47:13,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11550/40080 [2:20:57<5:47:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3773, 'grad_norm': 2.84375, 'learning_rate': 2.024059974968617e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2579.77, 'epoch': 1.15}
+ 29%|████████████████████████████████████████████████▏                                                                                                                      | 11550/40080 [2:20:57<5:47:30,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11551/40080 [2:20:58<5:47:56,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11552/40080 [2:20:59<5:47:30,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11553/40080 [2:20:59<5:47:21,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11554/40080 [2:21:00<5:47:23,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11555/40080 [2:21:01<5:47:35,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11556/40080 [2:21:02<5:47:08,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11557/40080 [2:21:02<5:47:11,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11558/40080 [2:21:03<5:46:58,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11559/40080 [2:21:04<5:46:49,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11560/40080 [2:21:05<5:47:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.337, 'grad_norm': 2.734375, 'learning_rate': 2.0232896430203148e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2677.88, 'epoch': 1.15}
+ 29%|████████████████████████████████████████████████▏                                                                                                                      | 11560/40080 [2:21:05<5:47:21,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11561/40080 [2:21:05<5:47:55,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11562/40080 [2:21:06<5:47:12,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11563/40080 [2:21:07<5:47:31,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11564/40080 [2:21:08<5:47:36,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11565/40080 [2:21:08<5:47:27,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11566/40080 [2:21:09<5:47:46,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11567/40080 [2:21:10<5:47:51,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11568/40080 [2:21:10<5:47:46,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11569/40080 [2:21:11<5:47:20,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11570/40080 [2:21:12<5:47:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3852, 'grad_norm': 4.1875, 'learning_rate': 2.022518835020687e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.58, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▏                                                                                                                      | 11570/40080 [2:21:12<5:47:16,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11571/40080 [2:21:13<5:47:39,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11572/40080 [2:21:13<5:47:14,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11573/40080 [2:21:14<5:47:02,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11574/40080 [2:21:15<5:47:04,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11575/40080 [2:21:16<5:47:15,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11576/40080 [2:21:16<5:47:36,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11577/40080 [2:21:17<5:47:36,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11578/40080 [2:21:18<5:48:08,  1.36it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11579/40080 [2:21:19<5:47:47,  1.37it/s] 29%|████████████████████████████████████████████████▏                                                                                                                      | 11580/40080 [2:21:19<5:47:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4005, 'grad_norm': 3.140625, 'learning_rate': 2.021747551444257e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2625.04, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▏                                                                                                                      | 11580/40080 [2:21:19<5:47:29,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11581/40080 [2:21:20<5:48:00,  1.36it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11582/40080 [2:21:21<5:47:40,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11583/40080 [2:21:21<5:47:29,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11584/40080 [2:21:22<5:47:20,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11585/40080 [2:21:23<5:47:13,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11586/40080 [2:21:24<5:47:25,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11587/40080 [2:21:24<5:47:13,  1.37it/s] 29%|██████████████████████████████████████████��█████▎                                                                                                                      | 11588/40080 [2:21:25<5:46:50,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11589/40080 [2:21:26<5:47:01,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11590/40080 [2:21:27<5:46:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3312, 'grad_norm': 2.453125, 'learning_rate': 2.020975792765841e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2598.25, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▎                                                                                                                      | 11590/40080 [2:21:27<5:46:44,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11591/40080 [2:21:27<5:47:23,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11592/40080 [2:21:28<5:46:38,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11593/40080 [2:21:29<5:46:48,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11594/40080 [2:21:29<5:47:03,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11595/40080 [2:21:30<5:47:05,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11596/40080 [2:21:31<5:46:50,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11597/40080 [2:21:32<5:47:05,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11598/40080 [2:21:32<5:47:44,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11599/40080 [2:21:33<5:47:33,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11600/40080 [2:21:34<5:47:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.412, 'grad_norm': 3.296875, 'learning_rate': 2.0202035594605474e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2500.75, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▎                                                                                                                      | 11600/40080 [2:21:34<5:47:22,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11601/40080 [2:21:35<5:47:55,  1.36it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11602/40080 [2:21:35<5:47:18,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11603/40080 [2:21:36<5:47:13,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11604/40080 [2:21:37<5:46:36,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11605/40080 [2:21:38<5:46:38,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11606/40080 [2:21:38<5:46:27,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11607/40080 [2:21:39<5:46:38,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11608/40080 [2:21:40<5:46:45,  1.37it/s] 29%|████████████████████████████████████████████████▎                                                                                                                      | 11609/40080 [2:21:40<5:46:40,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11610/40080 [2:21:41<5:46:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3422, 'grad_norm': 2.859375, 'learning_rate': 2.0194308520037785e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2524.22, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▍                                                                                                                      | 11610/40080 [2:21:41<5:46:40,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11611/40080 [2:21:42<5:47:16,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11612/40080 [2:21:43<5:46:52,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11613/40080 [2:21:43<5:46:44,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11614/40080 [2:21:44<5:46:45,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11615/40080 [2:21:45<5:46:52,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11616/40080 [2:21:46<5:47:10,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11617/40080 [2:21:46<5:47:08,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11618/40080 [2:21:47<5:46:56,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11619/40080 [2:21:48<5:47:31,  1.36it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11620/40080 [2:21:48<5:47:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.447, 'grad_norm': 3.75, 'learning_rate': 2.0186576708712262e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.94, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▍                                                                                                                      | 11620/40080 [2:21:48<5:47:28,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11621/40080 [2:21:49<5:48:03,  1.36it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11622/40080 [2:21:50<5:47:43,  1.36it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11623/40080 [2:21:51<5:47:20,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11624/40080 [2:21:51<5:47:27,  1.36it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11625/40080 [2:21:52<5:46:35,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11626/40080 [2:21:53<5:46:34,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11627/40080 [2:21:54<5:46:20,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11628/40080 [2:21:54<5:46:38,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11629/40080 [2:21:55<5:46:30,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11630/40080 [2:21:56<5:46:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3762, 'grad_norm': 4.125, 'learning_rate': 2.0178840165388753e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.5, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▍                                                                                                                      | 11630/40080 [2:21:56<5:46:15,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11631/40080 [2:21:57<5:46:41,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11632/40080 [2:21:57<5:46:50,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11633/40080 [2:21:58<5:47:00,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11634/40080 [2:21:59<5:46:30,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11635/40080 [2:21:59<5:46:51,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11636/40080 [2:22:00<5:46:39,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11637/40080 [2:22:01<5:46:32,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11638/40080 [2:22:02<5:46:20,  1.37it/s] 29%|████████████████████████████████████████████████▍                                                                                                                      | 11639/40080 [2:22:02<5:46:19,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11640/40080 [2:22:03<5:46:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3786, 'grad_norm': 2.75, 'learning_rate': 2.0171098894830016e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2608.54, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▌                                                                                                                      | 11640/40080 [2:22:03<5:46:38,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11641/40080 [2:22:04<5:46:58,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11642/40080 [2:22:05<5:47:16,  1.36it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11643/40080 [2:22:05<5:47:51,  1.36it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11644/40080 [2:22:06<5:47:38,  1.36it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11645/40080 [2:22:07<5:47:29,  1.36it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11646/40080 [2:22:08<5:47:11,  1.36it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11647/40080 [2:22:08<5:46:43,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11648/40080 [2:22:09<5:46:42,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11649/40080 [2:22:10<5:46:41,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11650/40080 [2:22:10<5:46:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4217, 'grad_norm': 3.140625, 'learning_rate': 2.016335290180172e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.49, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▌                                                                                                                      | 11650/40080 [2:22:10<5:46:11,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11651/40080 [2:22:11<5:46:57,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11652/40080 [2:22:12<5:47:04,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11653/40080 [2:22:13<5:47:12,  1.36it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11654/40080 [2:22:13<5:47:00,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11655/40080 [2:22:14<5:46:52,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11656/40080 [2:22:15<5:46:45,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11657/40080 [2:22:16<5:46:27,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11658/40080 [2:22:16<5:45:55,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11659/40080 [2:22:17<5:46:03,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11660/40080 [2:22:18<5:46:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3945, 'grad_norm': 3.25, 'learning_rate': 2.015560219107244e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2586.77, 'epoch': 1.16}
+ 29%|████████████████████████████████████████████████▌                                                                                                                      | 11660/40080 [2:22:18<5:46:14,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11661/40080 [2:22:18<5:46:21,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11662/40080 [2:22:19<5:46:02,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11663/40080 [2:22:20<5:45:56,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11664/40080 [2:22:21<5:46:28,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11665/40080 [2:22:21<5:46:23,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11666/40080 [2:22:22<5:46:23,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11667/40080 [2:22:23<5:45:56,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11668/40080 [2:22:24<5:45:53,  1.37it/s] 29%|████████████████████████████████████████████████▌                                                                                                                      | 11669/40080 [2:22:24<5:45:41,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11670/40080 [2:22:25<5:45:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3557, 'grad_norm': 3.8125, 'learning_rate': 2.0147846767413662e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2425.43, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▋                                                                                                                      | 11670/40080 [2:22:25<5:45:40,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11671/40080 [2:22:26<5:46:05,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11672/40080 [2:22:27<5:46:17,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11673/40080 [2:22:27<5:46:21,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11674/40080 [2:22:28<5:46:16,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11675/40080 [2:22:29<5:45:47,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11676/40080 [2:22:29<5:46:06,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11677/40080 [2:22:30<5:46:10,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11678/40080 [2:22:31<5:46:08,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11679/40080 [2:22:32<5:46:35,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11680/40080 [2:22:32<5:46:53,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.409, 'grad_norm': 3.390625, 'learning_rate': 2.014008663559976e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2547.59, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▋                                                                                                                      | 11680/40080 [2:22:32<5:46:53,  1.36it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11681/40080 [2:22:33<5:46:33,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11682/40080 [2:22:34<5:46:22,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11683/40080 [2:22:35<5:46:00,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11684/40080 [2:22:35<5:46:07,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11685/40080 [2:22:36<5:46:25,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11686/40080 [2:22:37<5:46:17,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11687/40080 [2:22:38<5:46:16,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11688/40080 [2:22:38<5:46:06,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11689/40080 [2:22:39<5:45:54,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11690/40080 [2:22:40<5:46:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4389, 'grad_norm': 3.78125, 'learning_rate': 2.013232180040801e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.66, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▋                                                                                                                      | 11690/40080 [2:22:40<5:46:03,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11691/40080 [2:22:40<5:45:55,  1.37it/s] 29%|████████████████���███████████████████████████████▋                                                                                                                      | 11692/40080 [2:22:41<5:45:29,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11693/40080 [2:22:42<5:45:40,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11694/40080 [2:22:43<5:45:40,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11695/40080 [2:22:43<5:45:36,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11696/40080 [2:22:44<5:45:28,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11697/40080 [2:22:45<5:45:36,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11698/40080 [2:22:46<5:44:55,  1.37it/s] 29%|████████████████████████████████████████████████▋                                                                                                                      | 11699/40080 [2:22:46<5:45:21,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11700/40080 [2:22:47<5:45:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3664, 'grad_norm': 2.953125, 'learning_rate': 2.01245522666186e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.73, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▊                                                                                                                      | 11700/40080 [2:22:47<5:45:35,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11701/40080 [2:22:48<5:45:46,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11702/40080 [2:22:48<5:45:02,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11703/40080 [2:22:49<5:45:19,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11704/40080 [2:22:50<5:45:32,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11705/40080 [2:22:51<5:45:38,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11706/40080 [2:22:51<5:45:57,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11707/40080 [2:22:52<5:46:09,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11708/40080 [2:22:53<5:46:03,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11709/40080 [2:22:54<5:45:53,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11710/40080 [2:22:54<5:46:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3896, 'grad_norm': 2.6875, 'learning_rate': 2.0116778039014592e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2623.81, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▊                                                                                                                      | 11710/40080 [2:22:54<5:46:00,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11711/40080 [2:22:55<5:45:55,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11712/40080 [2:22:56<5:45:40,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11713/40080 [2:22:57<5:45:28,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11714/40080 [2:22:57<5:45:00,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11715/40080 [2:22:58<5:45:22,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11716/40080 [2:22:59<5:45:12,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11717/40080 [2:22:59<5:45:47,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11718/40080 [2:23:00<5:45:49,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11719/40080 [2:23:01<5:45:35,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11720/40080 [2:23:02<5:45:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.369, 'grad_norm': 3.0625, 'learning_rate': 2.010899912238194e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.79, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▊                                                                                                                      | 11720/40080 [2:23:02<5:45:17,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11721/40080 [2:23:02<5:45:39,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11722/40080 [2:23:03<5:45:57,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11723/40080 [2:23:04<5:45:57,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11724/40080 [2:23:05<5:45:48,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11725/40080 [2:23:05<5:45:50,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11726/40080 [2:23:06<5:45:06,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11727/40080 [2:23:07<5:45:05,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11728/40080 [2:23:07<5:45:09,  1.37it/s] 29%|████████████████████████████████████████████████▊                                                                                                                      | 11729/40080 [2:23:08<5:45:15,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11730/40080 [2:23:09<5:44:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4155, 'grad_norm': 3.625, 'learning_rate': 2.0101215521509493e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2578.04, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▉                                                                                                                      | 11730/40080 [2:23:09<5:44:58,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11731/40080 [2:23:10<5:46:00,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11732/40080 [2:23:10<5:46:07,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11733/40080 [2:23:11<5:45:38,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11734/40080 [2:23:12<5:44:59,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11735/40080 [2:23:13<5:45:23,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11736/40080 [2:23:13<5:45:08,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11737/40080 [2:23:14<5:45:11,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11738/40080 [2:23:15<5:47:03,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11739/40080 [2:23:16<5:46:29,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11740/40080 [2:23:16<5:45:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3504, 'grad_norm': 3.296875, 'learning_rate': 2.0093427241188973e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.81, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▉                                                                                                                      | 11740/40080 [2:23:16<5:45:49,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11741/40080 [2:23:17<5:46:30,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11742/40080 [2:23:18<5:46:40,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11743/40080 [2:23:18<5:50:07,  1.35it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11744/40080 [2:23:19<5:51:55,  1.34it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11745/40080 [2:23:20<5:53:28,  1.34it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11746/40080 [2:23:21<5:51:22,  1.34it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11747/40080 [2:23:21<5:48:57,  1.35it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11748/40080 [2:23:22<5:51:14,  1.34it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11749/40080 [2:23:23<5:49:20,  1.35it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11750/40080 [2:23:24<5:47:47,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3253, 'grad_norm': 2.890625, 'learning_rate': 2.0085634286214994e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2434.59, 'epoch': 1.17}
+ 29%|████████████████████████████████████████████████▉                                                                                                                      | 11750/40080 [2:23:24<5:47:47,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11751/40080 [2:23:24<5:47:38,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11752/40080 [2:23:25<5:46:47,  1.36it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11753/40080 [2:23:26<5:45:47,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11754/40080 [2:23:27<5:45:31,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11755/40080 [2:23:27<5:45:39,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11756/40080 [2:23:28<5:45:33,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11757/40080 [2:23:29<5:45:19,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11758/40080 [2:23:30<5:44:40,  1.37it/s] 29%|████████████████████████████████████████████████▉                                                                                                                      | 11759/40080 [2:23:30<5:44:57,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11760/40080 [2:23:31<5:44:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4153, 'grad_norm': 2.953125, 'learning_rate': 2.007783666138504e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2658.5, 'epoch': 1.17}
+ 29%|█████████████████████████████████████████████████                                                                                                                      | 11760/40080 [2:23:31<5:44:46,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11761/40080 [2:23:32<5:45:15,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11762/40080 [2:23:32<5:45:26,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11763/40080 [2:23:33<5:45:21,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11764/40080 [2:23:34<5:45:33,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11765/40080 [2:23:35<5:45:29,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11766/40080 [2:23:35<5:45:19,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11767/40080 [2:23:36<5:45:19,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11768/40080 [2:23:37<5:44:50,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11769/40080 [2:23:38<5:44:45,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11770/40080 [2:23:38<5:45:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3487, 'grad_norm': 3.609375, 'learning_rate': 2.0070034371499478e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2557.66, 'epoch': 1.18}
+ 29%|█████████████████████████████████████████████████                                                                                                                      | 11770/40080 [2:23:38<5:45:29,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11771/40080 [2:23:39<5:49:15,  1.35it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11772/40080 [2:23:40<5:48:16,  1.35it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11773/40080 [2:23:41<6:45:50,  1.16it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11774/40080 [2:23:42<6:27:36,  1.22it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11775/40080 [2:23:42<6:15:10,  1.26it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11776/40080 [2:23:43<6:09:17,  1.28it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11777/40080 [2:23:44<6:04:53,  1.29it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11778/40080 [2:23:45<5:58:56,  1.31it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11779/40080 [2:23:45<5:54:11,  1.33it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11780/40080 [2:23:46<5:50:22,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4175, 'grad_norm': 4.40625, 'learning_rate': 2.0062227421361533e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2538.28, 'epoch': 1.18}
+ 29%|█████████████████████████████████████████████████                                                                                                                      | 11780/40080 [2:23:46<5:50:22,  1.35it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11781/40080 [2:23:47<5:48:54,  1.35it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11782/40080 [2:23:48<5:47:35,  1.36it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11783/40080 [2:23:48<5:46:18,  1.36it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11784/40080 [2:23:49<5:45:28,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11785/40080 [2:23:50<5:45:12,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11786/40080 [2:23:50<5:44:50,  1.37it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11787/40080 [2:23:51<5:48:48,  1.35it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11788/40080 [2:23:52<5:49:09,  1.35it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11789/40080 [2:23:53<5:47:31,  1.36it/s] 29%|█████████████████████████████████████████████████                                                                                                                      | 11790/40080 [2:23:53<5:46:22,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3631, 'grad_norm': 3.390625, 'learning_rate': 2.005441581577731e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2436.27, 'epoch': 1.18}
+ 29%|█████████████████████████████████████████████████                                                                                                                      | 11790/40080 [2:23:53<5:46:22,  1.36it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11791/40080 [2:23:54<5:45:46,  1.36it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11792/40080 [2:23:55<5:44:38,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11793/40080 [2:23:56<5:44:01,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11794/40080 [2:23:56<5:43:55,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11795/40080 [2:23:57<5:43:31,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11796/40080 [2:23:58<5:43:33,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11797/40080 [2:23:59<5:43:25,  1.37it/s] 29%|██████████████████████████████��██████████████████▏                                                                                                                     | 11798/40080 [2:23:59<5:43:19,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11799/40080 [2:24:00<5:43:23,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11800/40080 [2:24:01<5:43:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3427, 'grad_norm': 3.3125, 'learning_rate': 2.004659955955578e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2414.53, 'epoch': 1.18}
+ 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11800/40080 [2:24:01<5:43:37,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11801/40080 [2:24:01<5:44:23,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11802/40080 [2:24:02<5:44:39,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11803/40080 [2:24:03<5:44:38,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11804/40080 [2:24:04<5:44:49,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11805/40080 [2:24:04<5:44:25,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11806/40080 [2:24:05<5:44:53,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11807/40080 [2:24:06<5:45:12,  1.36it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11808/40080 [2:24:07<5:44:34,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11809/40080 [2:24:07<5:44:36,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11810/40080 [2:24:08<5:44:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3972, 'grad_norm': 3.15625, 'learning_rate': 2.0038778657508768e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.28, 'epoch': 1.18}
+ 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11810/40080 [2:24:08<5:44:56,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11811/40080 [2:24:09<5:45:35,  1.36it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11812/40080 [2:24:10<5:45:52,  1.36it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11813/40080 [2:24:10<5:45:25,  1.36it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11814/40080 [2:24:11<5:45:07,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11815/40080 [2:24:12<5:44:13,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11816/40080 [2:24:12<5:44:21,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11817/40080 [2:24:13<5:43:39,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11818/40080 [2:24:14<5:43:37,  1.37it/s] 29%|█████████████████████████████████████████████████▏                                                                                                                     | 11819/40080 [2:24:15<5:43:44,  1.37it/s] 29%|█████████████████████████████████████████████████▎                                                                                                                     | 11820/40080 [2:24:15<5:43:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3781, 'grad_norm': 2.609375, 'learning_rate': 2.0030953114450966e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2546.67, 'epoch': 1.18}
+ 29%|█████████████████████████████████████████████████▎                                                                                                                     | 11820/40080 [2:24:15<5:43:12,  1.37it/s] 29%|█████████████████████████████████████████████████▎                                                                                                                     | 11821/40080 [2:24:16<5:43:49,  1.37it/s] 29%|█████████████████████████████████████████████████▎                                                                                                                     | 11822/40080 [2:24:17<5:44:05,  1.37it/s] 29%|████████████████████████████████████████████���████▎                                                                                                                     | 11823/40080 [2:24:18<5:43:46,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11824/40080 [2:24:18<5:43:53,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11825/40080 [2:24:19<5:43:53,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11826/40080 [2:24:20<5:44:26,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11827/40080 [2:24:20<5:44:19,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11828/40080 [2:24:21<5:43:55,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11829/40080 [2:24:22<5:43:03,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11830/40080 [2:24:23<5:42:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3934, 'grad_norm': 2.609375, 'learning_rate': 2.002312293519993e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.55, 'epoch': 1.18}
+ 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11830/40080 [2:24:23<5:42:46,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11831/40080 [2:24:23<5:43:20,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11832/40080 [2:24:24<5:43:12,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11833/40080 [2:24:25<5:43:27,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11834/40080 [2:24:26<5:43:20,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11835/40080 [2:24:26<5:43:27,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11836/40080 [2:24:27<5:43:43,  1.37it/s] 30%|██████████████████████��██████████████████████████▎                                                                                                                     | 11837/40080 [2:24:28<5:43:24,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11838/40080 [2:24:28<5:43:22,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11839/40080 [2:24:29<5:43:14,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11840/40080 [2:24:30<5:43:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3514, 'grad_norm': 2.359375, 'learning_rate': 2.0015288124576058e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2421.48, 'epoch': 1.18}
+ 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11840/40080 [2:24:30<5:43:21,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11841/40080 [2:24:31<5:43:49,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11842/40080 [2:24:31<5:45:47,  1.36it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11843/40080 [2:24:32<5:47:35,  1.35it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11844/40080 [2:24:33<5:48:23,  1.35it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11845/40080 [2:24:34<5:46:57,  1.36it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11846/40080 [2:24:34<5:46:01,  1.36it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11847/40080 [2:24:35<5:45:15,  1.36it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11848/40080 [2:24:36<5:44:26,  1.37it/s] 30%|█████████████████████████████████████████████████▎                                                                                                                     | 11849/40080 [2:24:37<5:43:44,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11850/40080 [2:24:37<5:43:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3534, 'grad_norm': 3.453125, 'learning_rate': 2.0007448687402597e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2547.46, 'epoch': 1.18}
+ 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11850/40080 [2:24:37<5:43:39,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11851/40080 [2:24:38<5:43:21,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11852/40080 [2:24:39<5:42:47,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11853/40080 [2:24:39<5:43:12,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11854/40080 [2:24:40<5:42:52,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11855/40080 [2:24:41<5:43:33,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11856/40080 [2:24:42<5:42:47,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11857/40080 [2:24:42<5:42:35,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11858/40080 [2:24:43<5:42:51,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11859/40080 [2:24:44<5:42:46,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11860/40080 [2:24:45<5:42:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3913, 'grad_norm': 3.65625, 'learning_rate': 1.999960462850566e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.77, 'epoch': 1.18}
+ 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11860/40080 [2:24:45<5:42:50,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11861/40080 [2:24:45<5:43:05,  1.37it/s] 30%|███████████████████████████████████��█████████████▍                                                                                                                     | 11862/40080 [2:24:46<5:42:24,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11863/40080 [2:24:47<5:42:30,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11864/40080 [2:24:47<5:41:58,  1.38it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11865/40080 [2:24:48<5:42:53,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11866/40080 [2:24:49<5:43:29,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11867/40080 [2:24:50<5:43:28,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11868/40080 [2:24:50<5:43:08,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11869/40080 [2:24:51<5:43:06,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11870/40080 [2:24:52<5:43:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3888, 'grad_norm': 3.328125, 'learning_rate': 1.9991755952714186e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2559.85, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11870/40080 [2:24:52<5:43:27,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11871/40080 [2:24:53<5:44:13,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11872/40080 [2:24:53<5:44:12,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11873/40080 [2:24:54<5:44:34,  1.36it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11874/40080 [2:24:55<5:44:37,  1.36it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11875/40080 [2:24:56<5:44:19,  1.37it/s] 30%|█████████████��███████████████████████████████████▍                                                                                                                     | 11876/40080 [2:24:56<5:44:41,  1.36it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11877/40080 [2:24:57<5:44:36,  1.36it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11878/40080 [2:24:58<5:44:13,  1.37it/s] 30%|█████████████████████████████████████████████████▍                                                                                                                     | 11879/40080 [2:24:58<5:44:14,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11880/40080 [2:24:59<5:43:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3603, 'grad_norm': 3.609375, 'learning_rate': 1.9983902664859964e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2741.61, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11880/40080 [2:24:59<5:43:59,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11881/40080 [2:25:00<5:44:16,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11882/40080 [2:25:01<5:43:57,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11883/40080 [2:25:01<5:43:30,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11884/40080 [2:25:02<5:43:25,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11885/40080 [2:25:03<5:43:37,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11886/40080 [2:25:04<5:43:39,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11887/40080 [2:25:04<5:43:18,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11888/40080 [2:25:05<5:43:40,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11889/40080 [2:25:06<5:43:15,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11890/40080 [2:25:07<5:43:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3719, 'grad_norm': 3.21875, 'learning_rate': 1.997604476977763e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2636.32, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11890/40080 [2:25:07<5:43:26,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11891/40080 [2:25:07<5:43:12,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11892/40080 [2:25:08<5:43:05,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11893/40080 [2:25:09<5:42:58,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11894/40080 [2:25:09<5:42:44,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11895/40080 [2:25:10<5:42:22,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11896/40080 [2:25:11<5:42:25,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11897/40080 [2:25:12<5:42:31,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11898/40080 [2:25:12<5:41:59,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11899/40080 [2:25:13<5:42:13,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11900/40080 [2:25:14<5:42:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3257, 'grad_norm': 3.296875, 'learning_rate': 1.996818227230464e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.74, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11900/40080 [2:25:14<5:42:00,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11901/40080 [2:25:15<5:43:09,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11902/40080 [2:25:15<5:43:00,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11903/40080 [2:25:16<5:42:42,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11904/40080 [2:25:17<5:42:33,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11905/40080 [2:25:17<5:42:55,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11906/40080 [2:25:18<5:43:01,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11907/40080 [2:25:19<5:42:55,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11908/40080 [2:25:20<5:42:40,  1.37it/s] 30%|█████████████████████████████████████████████████▌                                                                                                                     | 11909/40080 [2:25:20<5:42:38,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11910/40080 [2:25:21<5:42:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3542, 'grad_norm': 3.40625, 'learning_rate': 1.9960315177281296e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2527.22, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11910/40080 [2:25:21<5:42:25,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11911/40080 [2:25:22<5:43:24,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11912/40080 [2:25:23<5:42:52,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11913/40080 [2:25:23<5:42:10,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11914/40080 [2:25:24<5:41:59,  1.37it/s] 30%|█████���███████████████████████████████████████████▋                                                                                                                     | 11915/40080 [2:25:25<5:42:16,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11916/40080 [2:25:25<5:42:36,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11917/40080 [2:25:26<5:43:01,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11918/40080 [2:25:27<5:43:09,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11919/40080 [2:25:28<5:43:00,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11920/40080 [2:25:28<5:42:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3727, 'grad_norm': 3.8125, 'learning_rate': 1.9952443489550725e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2713.58, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11920/40080 [2:25:28<5:42:10,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11921/40080 [2:25:29<5:44:07,  1.36it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11922/40080 [2:25:30<5:43:43,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11923/40080 [2:25:31<5:42:52,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11924/40080 [2:25:31<5:42:48,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11925/40080 [2:25:32<5:42:37,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11926/40080 [2:25:33<5:42:40,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11927/40080 [2:25:34<5:42:24,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11928/40080 [2:25:34<5:42:20,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11929/40080 [2:25:35<5:42:00,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11930/40080 [2:25:36<5:41:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.394, 'grad_norm': 3.125, 'learning_rate': 1.9944567213958888e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2575.67, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11930/40080 [2:25:36<5:41:59,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11931/40080 [2:25:36<5:42:22,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11932/40080 [2:25:37<5:42:25,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11933/40080 [2:25:38<5:42:03,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11934/40080 [2:25:39<5:42:03,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11935/40080 [2:25:39<5:42:14,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11936/40080 [2:25:40<5:41:46,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11937/40080 [2:25:41<5:42:13,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11938/40080 [2:25:42<5:42:06,  1.37it/s] 30%|█████████████████████████████████████████████████▋                                                                                                                     | 11939/40080 [2:25:42<5:42:12,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11940/40080 [2:25:43<5:41:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4142, 'grad_norm': 3.484375, 'learning_rate': 1.993668635535456e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2577.41, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11940/40080 [2:25:43<5:41:51,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11941/40080 [2:25:44<5:42:05,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11942/40080 [2:25:44<5:42:30,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11943/40080 [2:25:45<5:42:51,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11944/40080 [2:25:46<5:41:57,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11945/40080 [2:25:47<5:41:38,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11946/40080 [2:25:47<5:41:43,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11947/40080 [2:25:48<5:42:08,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11948/40080 [2:25:49<5:42:22,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11949/40080 [2:25:50<5:42:05,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11950/40080 [2:25:50<5:41:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3472, 'grad_norm': 3.28125, 'learning_rate': 1.992880091858934e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2342.02, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11950/40080 [2:25:50<5:41:52,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11951/40080 [2:25:51<5:42:30,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11952/40080 [2:25:52<5:41:29,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11953/40080 [2:25:52<5:41:09,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11954/40080 [2:25:53<5:41:40,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11955/40080 [2:25:54<5:41:18,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11956/40080 [2:25:55<5:41:30,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11957/40080 [2:25:55<5:41:53,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11958/40080 [2:25:56<5:41:29,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11959/40080 [2:25:57<5:41:31,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11960/40080 [2:25:58<5:40:48,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3285, 'grad_norm': 2.96875, 'learning_rate': 1.9920910908517654e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.88, 'epoch': 1.19}
+ 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11960/40080 [2:25:58<5:40:48,  1.38it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11961/40080 [2:25:58<5:42:10,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11962/40080 [2:25:59<5:41:56,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11963/40080 [2:26:00<5:41:52,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11964/40080 [2:26:00<5:41:48,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11965/40080 [2:26:01<5:41:37,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11966/40080 [2:26:02<5:41:24,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11967/40080 [2:26:03<5:42:25,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11968/40080 [2:26:03<5:42:08,  1.37it/s] 30%|█████████████████████████████████████████████████▊                                                                                                                     | 11969/40080 [2:26:04<5:42:24,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11970/40080 [2:26:05<5:42:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3936, 'grad_norm': 3.578125, 'learning_rate': 1.9913016329996732e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.86, 'epoch': 1.2}
+ 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11970/40080 [2:26:05<5:42:18,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11971/40080 [2:26:06<5:42:58,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11972/40080 [2:26:06<5:42:14,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11973/40080 [2:26:07<5:42:26,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11974/40080 [2:26:08<5:42:28,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11975/40080 [2:26:09<5:42:18,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11976/40080 [2:26:09<5:41:52,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11977/40080 [2:26:10<5:41:38,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11978/40080 [2:26:11<5:41:33,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11979/40080 [2:26:11<5:41:57,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11980/40080 [2:26:12<5:41:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3871, 'grad_norm': 3.125, 'learning_rate': 1.9905117187886622e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2699.43, 'epoch': 1.2}
+ 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11980/40080 [2:26:12<5:41:32,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11981/40080 [2:26:13<5:42:07,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11982/40080 [2:26:14<5:42:32,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11983/40080 [2:26:14<5:42:01,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11984/40080 [2:26:15<5:42:15,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11985/40080 [2:26:16<5:41:52,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11986/40080 [2:26:17<5:41:28,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11987/40080 [2:26:17<5:41:30,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11988/40080 [2:26:18<5:41:15,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11989/40080 [2:26:19<5:41:24,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11990/40080 [2:26:19<5:41:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4131, 'grad_norm': 3.484375, 'learning_rate': 1.989721348705019e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2421.05, 'epoch': 1.2}
+ 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11990/40080 [2:26:19<5:41:38,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11991/40080 [2:26:20<5:42:14,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11992/40080 [2:26:21<5:41:26,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11993/40080 [2:26:22<5:40:53,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11994/40080 [2:26:22<5:40:46,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11995/40080 [2:26:23<5:40:29,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11996/40080 [2:26:24<5:40:46,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11997/40080 [2:26:25<5:40:57,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11998/40080 [2:26:25<5:41:26,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 11999/40080 [2:26:26<5:41:05,  1.37it/s] 30%|█████████████████████████████████████████████████▉                                                                                                                     | 12000/40080 [2:26:27<5:41:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.384, 'grad_norm': 2.96875, 'learning_rate': 1.988930523235309e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.98, 'epoch': 1.2}
+ 30%|█████████████████████████████████████████████████▉                                                                                                                     | 12000/40080 [2:26:27<5:41:01,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12001/40080 [2:26:27<5:41:31,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12002/40080 [2:26:28<5:41:18,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12003/40080 [2:26:29<5:41:31,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12004/40080 [2:26:30<5:41:45,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12005/40080 [2:26:30<5:41:26,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12006/40080 [2:26:31<5:41:41,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12007/40080 [2:26:32<5:41:27,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12008/40080 [2:26:33<5:41:26,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12009/40080 [2:26:33<5:41:50,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12010/40080 [2:26:34<5:41:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3826, 'grad_norm': 2.984375, 'learning_rate': 1.98813924286638e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2611.23, 'epoch': 1.2}
+ 30%|██████████████████████████████████████████████████                                                                                                                     | 12010/40080 [2:26:34<5:41:59,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12011/40080 [2:26:35<5:41:45,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12012/40080 [2:26:36<5:41:52,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12013/40080 [2:26:36<5:41:27,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12014/40080 [2:26:37<5:41:35,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12015/40080 [2:26:38<5:41:24,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12016/40080 [2:26:38<5:41:19,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12017/40080 [2:26:39<5:40:59,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12018/40080 [2:26:40<5:41:21,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12019/40080 [2:26:41<5:41:20,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12020/40080 [2:26:41<5:41:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4208, 'grad_norm': 4.09375, 'learning_rate': 1.9873475080853568e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2632.17, 'epoch': 1.2}
+ 30%|██████████████████████████████████████████████████                                                                                                                     | 12020/40080 [2:26:41<5:41:05,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12021/40080 [2:26:42<5:40:57,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12022/40080 [2:26:43<5:40:33,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12023/40080 [2:26:44<5:40:59,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12024/40080 [2:26:44<5:40:44,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12025/40080 [2:26:45<5:40:52,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12026/40080 [2:26:46<5:41:05,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12027/40080 [2:26:46<5:41:10,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12028/40080 [2:26:47<5:41:00,  1.37it/s] 30%|██████████████████████████████████████████████████                                                                                                                     | 12029/40080 [2:26:48<5:41:22,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12030/40080 [2:26:49<5:41:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3592, 'grad_norm': 3.34375, 'learning_rate': 1.9865553193796473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.77, 'epoch': 1.2}
+ 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12030/40080 [2:26:49<5:41:27,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12031/40080 [2:26:49<5:41:23,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12032/40080 [2:26:50<5:40:46,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12033/40080 [2:26:51<5:40:47,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12034/40080 [2:26:52<5:40:38,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12035/40080 [2:26:52<5:40:48,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12036/40080 [2:26:53<5:40:36,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12037/40080 [2:26:54<5:40:49,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12038/40080 [2:26:54<5:40:55,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12039/40080 [2:26:55<5:40:57,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12040/40080 [2:26:56<5:40:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4046, 'grad_norm': 4.34375, 'learning_rate': 1.9857626772369377e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2362.01, 'epoch': 1.2}
+ 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12040/40080 [2:26:56<5:40:46,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12041/40080 [2:26:57<5:41:09,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12042/40080 [2:26:57<5:41:19,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12043/40080 [2:26:58<5:40:52,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12044/40080 [2:26:59<5:40:35,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12045/40080 [2:27:00<5:40:01,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12046/40080 [2:27:00<5:40:30,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12047/40080 [2:27:01<5:40:50,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12048/40080 [2:27:02<5:40:31,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12049/40080 [2:27:03<5:40:13,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12050/40080 [2:27:03<5:40:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3601, 'grad_norm': 3.265625, 'learning_rate': 1.984969582145192e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2484.28, 'epoch': 1.2}
+ 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12050/40080 [2:27:03<5:40:10,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12051/40080 [2:27:04<5:40:51,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12052/40080 [2:27:05<5:41:10,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12053/40080 [2:27:05<5:41:05,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12054/40080 [2:27:06<5:41:09,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12055/40080 [2:27:07<5:40:57,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12056/40080 [2:27:08<5:40:42,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12057/40080 [2:27:08<5:40:56,  1.37it/s] 30%|██████████████████████████████████████████████████▏                                                                                                                    | 12058/40080 [2:27:09<5:40:52,  1.37it/s] 30%|██████████████████████████��███████████████████████▏                                                                                                                    | 12059/40080 [2:27:10<5:41:05,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12060/40080 [2:27:11<5:40:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4243, 'grad_norm': 3.359375, 'learning_rate': 1.9841760345926546e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.43, 'epoch': 1.2}
+ 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12060/40080 [2:27:11<5:40:52,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12061/40080 [2:27:11<5:40:58,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12062/40080 [2:27:12<5:41:26,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12063/40080 [2:27:13<5:41:01,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12064/40080 [2:27:13<5:40:28,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12065/40080 [2:27:14<5:40:16,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12066/40080 [2:27:15<5:40:27,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12067/40080 [2:27:16<5:40:39,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12068/40080 [2:27:16<5:40:57,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12069/40080 [2:27:17<5:41:10,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12070/40080 [2:27:18<5:41:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3798, 'grad_norm': 3.125, 'learning_rate': 1.9833820350678485e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2499.29, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12070/40080 [2:27:18<5:41:09,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12071/40080 [2:27:19<5:41:27,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12072/40080 [2:27:19<5:41:08,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12073/40080 [2:27:20<5:41:11,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12074/40080 [2:27:21<5:41:19,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12075/40080 [2:27:21<5:40:31,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12076/40080 [2:27:22<5:40:05,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12077/40080 [2:27:23<5:40:02,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12078/40080 [2:27:24<5:39:41,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12079/40080 [2:27:24<5:39:39,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12080/40080 [2:27:25<5:40:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3906, 'grad_norm': 2.984375, 'learning_rate': 1.982587584059574e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.19, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12080/40080 [2:27:25<5:40:04,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12081/40080 [2:27:26<5:40:00,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12082/40080 [2:27:27<5:39:46,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12083/40080 [2:27:27<5:39:55,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12084/40080 [2:27:28<5:40:10,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12085/40080 [2:27:29<5:39:43,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12086/40080 [2:27:30<5:39:52,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12087/40080 [2:27:30<5:39:51,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12088/40080 [2:27:31<5:40:31,  1.37it/s] 30%|██████████████████████████████████████████████████▎                                                                                                                    | 12089/40080 [2:27:32<5:40:20,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12090/40080 [2:27:32<5:40:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4203, 'grad_norm': 3.296875, 'learning_rate': 1.9817926820569093e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.23, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12090/40080 [2:27:32<5:40:12,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12091/40080 [2:27:33<5:40:52,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12092/40080 [2:27:34<5:40:53,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12093/40080 [2:27:35<5:39:57,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12094/40080 [2:27:35<5:39:29,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12095/40080 [2:27:36<5:39:40,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12096/40080 [2:27:37<5:39:45,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12097/40080 [2:27:38<5:40:02,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12098/40080 [2:27:38<5:39:32,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12099/40080 [2:27:39<5:39:53,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12100/40080 [2:27:40<5:39:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3454, 'grad_norm': 3.015625, 'learning_rate': 1.9809973295492117e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.87, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12100/40080 [2:27:40<5:39:52,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12101/40080 [2:27:40<5:40:23,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12102/40080 [2:27:41<5:40:06,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12103/40080 [2:27:42<5:39:33,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12104/40080 [2:27:43<5:39:17,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12105/40080 [2:27:43<5:39:14,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12106/40080 [2:27:44<5:39:10,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12107/40080 [2:27:45<5:39:21,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12108/40080 [2:27:46<5:38:53,  1.38it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12109/40080 [2:27:46<5:39:14,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12110/40080 [2:27:47<5:39:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3983, 'grad_norm': 3.4375, 'learning_rate': 1.9802015270261138e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.79, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12110/40080 [2:27:47<5:39:26,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12111/40080 [2:27:48<5:39:47,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12112/40080 [2:27:48<5:39:33,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12113/40080 [2:27:49<5:39:20,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12114/40080 [2:27:50<5:39:43,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12115/40080 [2:27:51<5:39:23,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12116/40080 [2:27:51<5:39:36,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12117/40080 [2:27:52<5:39:32,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12118/40080 [2:27:53<5:39:02,  1.37it/s] 30%|██████████████████████████████████████████████████▍                                                                                                                    | 12119/40080 [2:27:54<5:39:07,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12120/40080 [2:27:54<5:39:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3946, 'grad_norm': 3.296875, 'learning_rate': 1.9794052749775265e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2385.53, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12120/40080 [2:27:54<5:39:12,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12121/40080 [2:27:55<5:39:43,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12122/40080 [2:27:56<5:39:09,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12123/40080 [2:27:56<5:38:50,  1.38it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12124/40080 [2:27:57<5:39:06,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12125/40080 [2:27:58<5:39:06,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12126/40080 [2:27:59<5:39:03,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12127/40080 [2:27:59<5:39:27,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12128/40080 [2:28:00<5:39:00,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12129/40080 [2:28:01<5:39:11,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12130/40080 [2:28:02<5:39:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3605, 'grad_norm': 3.921875, 'learning_rate': 1.978608573893638e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2533.79, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12130/40080 [2:28:02<5:39:08,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12131/40080 [2:28:02<5:40:11,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12132/40080 [2:28:03<5:40:03,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12133/40080 [2:28:04<5:40:07,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12134/40080 [2:28:04<5:39:44,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12135/40080 [2:28:05<5:39:25,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12136/40080 [2:28:06<5:39:34,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12137/40080 [2:28:07<5:39:31,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12138/40080 [2:28:07<5:39:28,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12139/40080 [2:28:08<5:39:11,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12140/40080 [2:28:09<5:39:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3831, 'grad_norm': 4.09375, 'learning_rate': 1.977811424264911e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.3, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12140/40080 [2:28:09<5:39:11,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12141/40080 [2:28:10<5:39:53,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12142/40080 [2:28:10<5:39:45,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12143/40080 [2:28:11<5:39:52,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12144/40080 [2:28:12<5:39:25,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12145/40080 [2:28:12<5:39:23,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12146/40080 [2:28:13<5:39:29,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12147/40080 [2:28:14<5:39:06,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12148/40080 [2:28:15<5:40:11,  1.37it/s] 30%|██████████████████████████████████████████████████▌                                                                                                                    | 12149/40080 [2:28:15<5:40:33,  1.37it/s] 30%|███████████████████████████���██████████████████████▋                                                                                                                    | 12150/40080 [2:28:16<5:40:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4178, 'grad_norm': 3.28125, 'learning_rate': 1.9770138265820863e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2582.95, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12150/40080 [2:28:16<5:40:35,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12151/40080 [2:28:17<5:41:04,  1.36it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12152/40080 [2:28:18<5:40:50,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12153/40080 [2:28:18<5:40:19,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12154/40080 [2:28:19<5:40:02,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12155/40080 [2:28:20<5:40:38,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12156/40080 [2:28:21<5:40:32,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12157/40080 [2:28:21<5:40:13,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12158/40080 [2:28:22<5:40:27,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12159/40080 [2:28:23<5:40:08,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12160/40080 [2:28:23<5:40:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3467, 'grad_norm': 3.828125, 'learning_rate': 1.97621578133618e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2583.34, 'epoch': 1.21}
+ 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12160/40080 [2:28:23<5:40:10,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12161/40080 [2:28:24<5:40:15,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12162/40080 [2:28:25<5:40:05,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12163/40080 [2:28:26<5:39:43,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12164/40080 [2:28:26<5:39:50,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12165/40080 [2:28:27<5:39:25,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12166/40080 [2:28:28<5:39:16,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12167/40080 [2:28:29<5:38:44,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12168/40080 [2:28:29<5:38:50,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12169/40080 [2:28:30<5:38:25,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12170/40080 [2:28:31<5:38:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3537, 'grad_norm': 3.328125, 'learning_rate': 1.975417289018482e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.0, 'epoch': 1.22}
+ 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12170/40080 [2:28:31<5:38:09,  1.38it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12171/40080 [2:28:31<5:38:52,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12172/40080 [2:28:32<5:38:54,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12173/40080 [2:28:33<5:38:46,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12174/40080 [2:28:34<5:39:30,  1.37it/s] 30%|██████████████████████��███████████████████████████▋                                                                                                                    | 12175/40080 [2:28:34<5:39:28,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12176/40080 [2:28:35<5:39:06,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12177/40080 [2:28:36<5:39:12,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12178/40080 [2:28:37<5:39:18,  1.37it/s] 30%|██████████████████████████████████████████████████▋                                                                                                                    | 12179/40080 [2:28:37<5:39:31,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12180/40080 [2:28:38<5:39:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3984, 'grad_norm': 3.734375, 'learning_rate': 1.9746183501205598e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2424.35, 'epoch': 1.22}
+ 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12180/40080 [2:28:38<5:39:02,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12181/40080 [2:28:39<5:40:07,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12182/40080 [2:28:40<5:39:24,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12183/40080 [2:28:40<5:39:11,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12184/40080 [2:28:41<5:38:56,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12185/40080 [2:28:42<5:38:40,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12186/40080 [2:28:42<5:38:55,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12187/40080 [2:28:43<5:38:20,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12188/40080 [2:28:44<5:38:45,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12189/40080 [2:28:45<5:38:21,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12190/40080 [2:28:45<5:38:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4024, 'grad_norm': 3.984375, 'learning_rate': 1.9738189651342553e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.42, 'epoch': 1.22}
+ 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12190/40080 [2:28:45<5:38:29,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12191/40080 [2:28:46<5:38:56,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12192/40080 [2:28:47<5:39:18,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12193/40080 [2:28:48<5:39:24,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12194/40080 [2:28:48<5:39:48,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12195/40080 [2:28:49<5:39:04,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12196/40080 [2:28:50<5:39:17,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12197/40080 [2:28:50<5:39:12,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12198/40080 [2:28:51<5:39:08,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12199/40080 [2:28:52<5:39:02,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12200/40080 [2:28:53<5:38:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3702, 'grad_norm': 2.59375, 'learning_rate': 1.9730191345516836e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2654.54, 'epoch': 1.22}
+ 30%|████████████████��█████████████████████████████████▊                                                                                                                    | 12200/40080 [2:28:53<5:38:50,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12201/40080 [2:28:53<5:39:22,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12202/40080 [2:28:54<5:39:30,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12203/40080 [2:28:55<5:39:14,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12204/40080 [2:28:56<5:39:12,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12205/40080 [2:28:56<5:39:07,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12206/40080 [2:28:57<5:39:12,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12207/40080 [2:28:58<5:38:54,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12208/40080 [2:28:58<5:38:54,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12209/40080 [2:28:59<5:39:20,  1.37it/s] 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12210/40080 [2:29:00<5:38:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3358, 'grad_norm': 3.53125, 'learning_rate': 1.9722188588652356e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2431.5, 'epoch': 1.22}
+ 30%|██████████████████████████████████████████████████▊                                                                                                                    | 12210/40080 [2:29:00<5:38:59,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12211/40080 [2:29:01<5:39:09,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12212/40080 [2:29:01<5:38:28,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12213/40080 [2:29:02<5:38:29,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12214/40080 [2:29:03<5:39:14,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12215/40080 [2:29:04<5:38:47,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12216/40080 [2:29:04<5:38:30,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12217/40080 [2:29:05<5:38:31,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12218/40080 [2:29:06<5:38:24,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12219/40080 [2:29:07<5:38:08,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12220/40080 [2:29:07<5:37:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3658, 'grad_norm': 3.015625, 'learning_rate': 1.971418138567576e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2449.86, 'epoch': 1.22}
+ 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12220/40080 [2:29:07<5:37:45,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12221/40080 [2:29:08<5:37:34,  1.38it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12222/40080 [2:29:09<5:37:54,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12223/40080 [2:29:09<5:38:18,  1.37it/s] 30%|██████████████████████████████████████████████████▉                                                                                                                    | 12224/40080 [2:29:10<5:37:38,  1.38it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12225/40080 [2:29:11<5:37:51,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12226/40080 [2:29:12<5:37:50,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12227/40080 [2:29:12<5:37:56,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12228/40080 [2:29:13<5:38:49,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12229/40080 [2:29:14<5:38:56,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12230/40080 [2:29:15<5:38:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3403, 'grad_norm': 2.265625, 'learning_rate': 1.970616974151643e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2307.03, 'epoch': 1.22}
+ 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12230/40080 [2:29:15<5:38:42,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12231/40080 [2:29:15<5:39:22,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12232/40080 [2:29:16<5:39:10,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12233/40080 [2:29:17<5:38:58,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12234/40080 [2:29:17<5:38:40,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12235/40080 [2:29:18<5:38:22,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12236/40080 [2:29:19<5:38:22,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12237/40080 [2:29:20<5:38:47,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12238/40080 [2:29:20<5:38:20,  1.37it/s] 31%|██████████████████████████████████████████████████▉                                                                                                                    | 12239/40080 [2:29:21<5:38:03,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12240/40080 [2:29:22<5:38:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3816, 'grad_norm': 3.703125, 'learning_rate': 1.9698153661106473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.98, 'epoch': 1.22}
+ 31%|███████████████████████████████████████████████████                                                                                                                    | 12240/40080 [2:29:22<5:38:31,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12241/40080 [2:29:23<5:39:08,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12242/40080 [2:29:23<5:38:51,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12243/40080 [2:29:24<5:38:16,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12244/40080 [2:29:25<5:38:34,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12245/40080 [2:29:25<5:38:04,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12246/40080 [2:29:26<5:38:03,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12247/40080 [2:29:27<5:37:52,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12248/40080 [2:29:28<5:38:08,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12249/40080 [2:29:28<5:37:53,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12250/40080 [2:29:29<5:37:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4098, 'grad_norm': 3.3125, 'learning_rate': 1.9690133149380742e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2618.57, 'epoch': 1.22}
+ 31%|███████████████████████████████████████████████████                                                                                                                    | 12250/40080 [2:29:29<5:37:40,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12251/40080 [2:29:30<5:37:48,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12252/40080 [2:29:31<5:37:23,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12253/40080 [2:29:31<5:36:35,  1.38it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12254/40080 [2:29:32<5:37:20,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12255/40080 [2:29:33<5:37:23,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12256/40080 [2:29:33<5:37:37,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12257/40080 [2:29:34<5:37:27,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12258/40080 [2:29:35<5:37:37,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12259/40080 [2:29:36<5:37:59,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12260/40080 [2:29:36<5:37:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3402, 'grad_norm': 2.25, 'learning_rate': 1.9682108211276808e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2363.35, 'epoch': 1.22}
+ 31%|███████████████████████████████████████████████████                                                                                                                    | 12260/40080 [2:29:36<5:37:37,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12261/40080 [2:29:37<5:38:42,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12262/40080 [2:29:38<5:38:31,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12263/40080 [2:29:39<5:38:21,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12264/40080 [2:29:39<5:38:24,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12265/40080 [2:29:40<5:37:54,  1.37it/s] 31%|███████████████████████���███████████████████████████                                                                                                                    | 12266/40080 [2:29:41<5:37:11,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12267/40080 [2:29:41<5:37:18,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12268/40080 [2:29:42<5:37:29,  1.37it/s] 31%|███████████████████████████████████████████████████                                                                                                                    | 12269/40080 [2:29:43<5:37:41,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12270/40080 [2:29:44<5:37:03,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3263, 'grad_norm': 4.0, 'learning_rate': 1.9674078851734978e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.37, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12270/40080 [2:29:44<5:37:03,  1.38it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12271/40080 [2:29:44<5:37:46,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12272/40080 [2:29:45<5:37:46,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12273/40080 [2:29:46<5:37:39,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12274/40080 [2:29:47<5:37:59,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12275/40080 [2:29:47<5:38:06,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12276/40080 [2:29:48<5:38:01,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12277/40080 [2:29:49<5:37:51,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12278/40080 [2:29:50<5:37:39,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12279/40080 [2:29:50<5:37:57,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12280/40080 [2:29:51<5:37:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3738, 'grad_norm': 3.6875, 'learning_rate': 1.9666045075698265e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2461.55, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12280/40080 [2:29:51<5:37:36,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12281/40080 [2:29:52<5:39:44,  1.36it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12282/40080 [2:29:52<5:39:25,  1.36it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12283/40080 [2:29:53<5:37:58,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12284/40080 [2:29:54<5:38:13,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12285/40080 [2:29:55<5:37:47,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12286/40080 [2:29:55<5:37:59,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12287/40080 [2:29:56<5:37:36,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12288/40080 [2:29:57<5:37:39,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12289/40080 [2:29:58<5:37:51,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12290/40080 [2:29:58<5:38:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3872, 'grad_norm': 3.03125, 'learning_rate': 1.9658006888112412e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.07, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12290/40080 [2:29:58<5:38:01,  1.37it/s] 31%|███��███████████████████████████████████████████████▏                                                                                                                   | 12291/40080 [2:29:59<5:38:11,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12292/40080 [2:30:00<5:38:32,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12293/40080 [2:30:00<5:38:06,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12294/40080 [2:30:01<5:37:43,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12295/40080 [2:30:02<5:37:55,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12296/40080 [2:30:03<5:38:03,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12297/40080 [2:30:03<5:38:01,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12298/40080 [2:30:04<5:37:35,  1.37it/s] 31%|███████████████████████████████████████████████████▏                                                                                                                   | 12299/40080 [2:30:05<5:37:36,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12300/40080 [2:30:06<5:37:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3795, 'grad_norm': 3.78125, 'learning_rate': 1.9649964293925875e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2548.95, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12300/40080 [2:30:06<5:37:17,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12301/40080 [2:30:06<5:37:15,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12302/40080 [2:30:07<5:37:25,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12303/40080 [2:30:08<5:37:23,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12304/40080 [2:30:08<5:37:25,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12305/40080 [2:30:09<5:37:10,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12306/40080 [2:30:10<5:37:06,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12307/40080 [2:30:11<5:36:53,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12308/40080 [2:30:11<5:36:10,  1.38it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12309/40080 [2:30:12<5:36:47,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12310/40080 [2:30:13<5:36:22,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3598, 'grad_norm': 2.59375, 'learning_rate': 1.9641917298089826e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2615.07, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12310/40080 [2:30:13<5:36:22,  1.38it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12311/40080 [2:30:14<5:37:34,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12312/40080 [2:30:14<5:37:20,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12313/40080 [2:30:15<5:37:20,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12314/40080 [2:30:16<5:37:11,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12315/40080 [2:30:16<5:36:34,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12316/40080 [2:30:17<5:36:30,  1.38it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12317/40080 [2:30:18<5:36:56,  1.37it/s] 31%|██████████████████████████��████████████████████████▎                                                                                                                   | 12318/40080 [2:30:19<5:36:52,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12319/40080 [2:30:19<5:37:07,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12320/40080 [2:30:20<5:37:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3856, 'grad_norm': 2.71875, 'learning_rate': 1.963386590555814e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2654.05, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12320/40080 [2:30:20<5:37:01,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12321/40080 [2:30:21<5:37:24,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12322/40080 [2:30:22<5:36:43,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12323/40080 [2:30:22<5:36:29,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12324/40080 [2:30:23<5:36:57,  1.37it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12325/40080 [2:30:24<5:36:19,  1.38it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12326/40080 [2:30:24<5:36:00,  1.38it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12327/40080 [2:30:25<5:36:11,  1.38it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12328/40080 [2:30:26<5:36:21,  1.38it/s] 31%|███████████████████████████████████████████████████▎                                                                                                                   | 12329/40080 [2:30:27<5:36:27,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12330/40080 [2:30:27<5:36:10,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4281, 'grad_norm': 3.21875, 'learning_rate': 1.962581012128741e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2429.29, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12330/40080 [2:30:27<5:36:10,  1.38it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12331/40080 [2:30:28<5:36:24,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12332/40080 [2:30:29<5:36:26,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12333/40080 [2:30:30<5:36:05,  1.38it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12334/40080 [2:30:30<5:35:32,  1.38it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12335/40080 [2:30:31<5:36:24,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12336/40080 [2:30:32<5:36:27,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12337/40080 [2:30:32<5:36:36,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12338/40080 [2:30:33<5:36:07,  1.38it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12339/40080 [2:30:34<5:36:16,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12340/40080 [2:30:35<5:36:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3792, 'grad_norm': 2.90625, 'learning_rate': 1.9617749950236906e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2331.24, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12340/40080 [2:30:35<5:36:38,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12341/40080 [2:30:35<5:36:49,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12342/40080 [2:30:36<5:36:56,  1.37it/s] 31%|███���███████████████████████████████████████████████▍                                                                                                                   | 12343/40080 [2:30:37<5:36:56,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12344/40080 [2:30:38<5:37:21,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12345/40080 [2:30:38<5:36:54,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12346/40080 [2:30:39<5:37:32,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12347/40080 [2:30:40<5:37:23,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12348/40080 [2:30:41<5:36:47,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12349/40080 [2:30:41<5:36:51,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12350/40080 [2:30:42<5:36:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3907, 'grad_norm': 3.75, 'learning_rate': 1.9609685397368636e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2449.37, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12350/40080 [2:30:42<5:36:34,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12351/40080 [2:30:43<5:37:46,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12352/40080 [2:30:43<5:37:35,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12353/40080 [2:30:44<5:37:20,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12354/40080 [2:30:45<5:37:10,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12355/40080 [2:30:46<5:37:14,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12356/40080 [2:30:46<5:37:29,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12357/40080 [2:30:47<5:37:39,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12358/40080 [2:30:48<5:37:19,  1.37it/s] 31%|███████████████████████████████████████████████████▍                                                                                                                   | 12359/40080 [2:30:49<5:37:18,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12360/40080 [2:30:49<5:36:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3888, 'grad_norm': 4.3125, 'learning_rate': 1.9601616467647282e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.56, 'epoch': 1.23}
+ 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12360/40080 [2:30:49<5:36:48,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12361/40080 [2:30:50<5:37:01,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12362/40080 [2:30:51<5:37:02,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12363/40080 [2:30:52<6:29:01,  1.19it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12364/40080 [2:30:53<6:13:25,  1.24it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12365/40080 [2:30:53<6:02:32,  1.27it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12366/40080 [2:30:54<5:55:10,  1.30it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12367/40080 [2:30:55<5:49:51,  1.32it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12368/40080 [2:30:55<5:45:56,  1.34it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12369/40080 [2:30:56<5:43:01,  1.35it/s] 31%|███████████████████████████��███████████████████████▌                                                                                                                   | 12370/40080 [2:30:57<5:40:55,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3335, 'grad_norm': 3.640625, 'learning_rate': 1.9593543166040222e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.86, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12370/40080 [2:30:57<5:40:55,  1.35it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12371/40080 [2:30:58<5:40:21,  1.36it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12372/40080 [2:30:58<5:38:53,  1.36it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12373/40080 [2:30:59<5:38:00,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12374/40080 [2:31:00<5:38:01,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12375/40080 [2:31:01<5:37:34,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12376/40080 [2:31:01<5:37:14,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12377/40080 [2:31:02<5:36:33,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12378/40080 [2:31:03<5:36:10,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12379/40080 [2:31:03<5:36:43,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12380/40080 [2:31:04<5:37:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3533, 'grad_norm': 3.359375, 'learning_rate': 1.9585465497517536e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2401.19, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12380/40080 [2:31:04<5:37:10,  1.37it/s] 31%|████████████████████████████████████████████��██████▌                                                                                                                   | 12381/40080 [2:31:05<5:37:10,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12382/40080 [2:31:06<5:36:31,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12383/40080 [2:31:06<5:36:50,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12384/40080 [2:31:07<5:36:49,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12385/40080 [2:31:08<5:36:36,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12386/40080 [2:31:09<5:36:53,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12387/40080 [2:31:09<5:37:00,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12388/40080 [2:31:10<5:36:44,  1.37it/s] 31%|███████████████████████████████████████████████████▌                                                                                                                   | 12389/40080 [2:31:11<5:36:37,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12390/40080 [2:31:12<5:36:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3719, 'grad_norm': 3.53125, 'learning_rate': 1.957738346705198e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2389.02, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12390/40080 [2:31:12<5:36:44,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12391/40080 [2:31:12<5:37:07,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12392/40080 [2:31:13<5:36:30,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12393/40080 [2:31:14<5:36:36,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12394/40080 [2:31:14<5:36:10,  1.37it/s] 31%|███���███████████████████████████████████████████████▋                                                                                                                   | 12395/40080 [2:31:15<5:36:40,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12396/40080 [2:31:16<5:36:20,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12397/40080 [2:31:17<5:36:40,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12398/40080 [2:31:17<5:36:23,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12399/40080 [2:31:18<5:37:01,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12400/40080 [2:31:19<5:36:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3994, 'grad_norm': 2.953125, 'learning_rate': 1.9569297079618997e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.77, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12400/40080 [2:31:19<5:36:28,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12401/40080 [2:31:20<5:37:14,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12402/40080 [2:31:20<5:37:12,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12403/40080 [2:31:21<5:36:56,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12404/40080 [2:31:22<5:36:31,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12405/40080 [2:31:22<5:36:15,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12406/40080 [2:31:23<5:36:09,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12407/40080 [2:31:24<5:36:06,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12408/40080 [2:31:25<5:36:28,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12409/40080 [2:31:25<5:36:54,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12410/40080 [2:31:26<5:37:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4209, 'grad_norm': 2.515625, 'learning_rate': 1.956120634019672e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.85, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12410/40080 [2:31:26<5:37:12,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12411/40080 [2:31:27<5:37:18,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12412/40080 [2:31:28<5:36:33,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12413/40080 [2:31:28<5:38:39,  1.36it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12414/40080 [2:31:29<5:37:52,  1.36it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12415/40080 [2:31:30<5:37:38,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12416/40080 [2:31:31<5:37:43,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12417/40080 [2:31:31<5:37:24,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12418/40080 [2:31:32<5:36:51,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12419/40080 [2:31:33<5:36:08,  1.37it/s] 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12420/40080 [2:31:33<5:36:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3419, 'grad_norm': 3.34375, 'learning_rate': 1.9553111253765963e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2461.31, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▋                                                                                                                   | 12420/40080 [2:31:33<5:36:10,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12421/40080 [2:31:34<5:36:15,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12422/40080 [2:31:35<5:36:11,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12423/40080 [2:31:36<5:36:06,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12424/40080 [2:31:36<5:36:00,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12425/40080 [2:31:37<5:35:31,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12426/40080 [2:31:38<5:35:40,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12427/40080 [2:31:39<5:35:48,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12428/40080 [2:31:39<5:35:27,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12429/40080 [2:31:40<5:35:23,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12430/40080 [2:31:41<5:35:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3986, 'grad_norm': 3.671875, 'learning_rate': 1.95450118253102e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2366.39, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12430/40080 [2:31:41<5:35:27,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12431/40080 [2:31:41<5:35:34,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12432/40080 [2:31:42<5:35:41,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12433/40080 [2:31:43<5:35:28,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12434/40080 [2:31:44<5:35:28,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12435/40080 [2:31:44<5:35:46,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12436/40080 [2:31:45<5:35:19,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12437/40080 [2:31:46<5:36:02,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12438/40080 [2:31:47<5:35:45,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12439/40080 [2:31:47<5:36:03,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12440/40080 [2:31:48<5:36:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3934, 'grad_norm': 2.828125, 'learning_rate': 1.9536908059815594e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2580.87, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12440/40080 [2:31:48<5:36:56,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12441/40080 [2:31:49<5:36:45,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12442/40080 [2:31:49<5:36:44,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12443/40080 [2:31:50<5:36:27,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12444/40080 [2:31:51<5:37:03,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12445/40080 [2:31:52<5:36:56,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12446/40080 [2:31:52<5:36:12,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12447/40080 [2:31:53<5:36:11,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12448/40080 [2:31:54<5:36:24,  1.37it/s] 31%|███████████████████████████████████████████████████▊                                                                                                                   | 12449/40080 [2:31:55<5:35:46,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12450/40080 [2:31:55<5:35:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.393, 'grad_norm': 3.171875, 'learning_rate': 1.9528799962270972e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.25, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12450/40080 [2:31:55<5:35:53,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12451/40080 [2:31:56<5:36:35,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12452/40080 [2:31:57<5:36:20,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12453/40080 [2:31:58<5:35:58,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12454/40080 [2:31:58<5:36:17,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12455/40080 [2:31:59<5:35:41,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12456/40080 [2:32:00<5:35:48,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12457/40080 [2:32:00<5:35:26,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12458/40080 [2:32:01<5:34:47,  1.38it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12459/40080 [2:32:02<5:35:23,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12460/40080 [2:32:03<5:35:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3963, 'grad_norm': 3.34375, 'learning_rate': 1.952068753766782e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2296.11, 'epoch': 1.24}
+ 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12460/40080 [2:32:03<5:35:55,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12461/40080 [2:32:03<5:36:58,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12462/40080 [2:32:04<5:36:59,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12463/40080 [2:32:05<5:36:57,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12464/40080 [2:32:06<5:37:08,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12465/40080 [2:32:06<5:36:50,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12466/40080 [2:32:07<5:35:45,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12467/40080 [2:32:08<5:36:01,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12468/40080 [2:32:08<5:35:44,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12469/40080 [2:32:09<5:35:15,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12470/40080 [2:32:10<5:35:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3903, 'grad_norm': 2.953125, 'learning_rate': 1.9512570791000306e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2375.2, 'epoch': 1.25}
+ 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12470/40080 [2:32:10<5:35:35,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12471/40080 [2:32:11<5:36:00,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12472/40080 [2:32:11<5:35:45,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12473/40080 [2:32:12<5:35:40,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12474/40080 [2:32:13<5:35:47,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12475/40080 [2:32:14<5:36:18,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12476/40080 [2:32:14<5:36:09,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12477/40080 [2:32:15<5:36:07,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12478/40080 [2:32:16<5:35:59,  1.37it/s] 31%|███████████████████████████████████████████████████▉                                                                                                                   | 12479/40080 [2:32:16<5:36:01,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12480/40080 [2:32:17<5:35:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3919, 'grad_norm': 4.375, 'learning_rate': 1.9504449727265246e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2347.75, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████                                                                                                                   | 12480/40080 [2:32:17<5:35:54,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12481/40080 [2:32:18<5:36:24,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12482/40080 [2:32:19<5:35:36,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12483/40080 [2:32:19<5:36:07,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12484/40080 [2:32:20<5:35:36,  1.37it/s] 31%|███████████████████████████████████████████��████████                                                                                                                   | 12485/40080 [2:32:21<5:35:30,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12486/40080 [2:32:22<5:35:14,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12487/40080 [2:32:22<5:35:06,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12488/40080 [2:32:23<5:35:41,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12489/40080 [2:32:24<5:35:57,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12490/40080 [2:32:25<5:35:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3282, 'grad_norm': 3.515625, 'learning_rate': 1.9496324351462116e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.43, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████                                                                                                                   | 12490/40080 [2:32:25<5:35:32,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12491/40080 [2:32:25<5:36:23,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12492/40080 [2:32:26<5:35:41,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12493/40080 [2:32:27<5:35:56,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12494/40080 [2:32:27<5:35:49,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12495/40080 [2:32:28<5:35:46,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12496/40080 [2:32:29<5:37:24,  1.36it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12497/40080 [2:32:30<5:36:23,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12498/40080 [2:32:30<5:36:37,  1.37it/s] 31%|█��██████████████████████████████████████████████████                                                                                                                   | 12499/40080 [2:32:31<5:36:47,  1.36it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12500/40080 [2:32:32<5:36:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3572, 'grad_norm': 3.390625, 'learning_rate': 1.9488194668593044e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.64, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████                                                                                                                   | 12500/40080 [2:32:32<5:36:23,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12501/40080 [2:32:33<5:36:44,  1.36it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12502/40080 [2:32:33<5:36:23,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12503/40080 [2:32:34<5:36:12,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12504/40080 [2:32:35<5:35:55,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12505/40080 [2:32:35<5:35:45,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12506/40080 [2:32:36<5:35:52,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12507/40080 [2:32:37<5:35:48,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12508/40080 [2:32:38<5:35:23,  1.37it/s] 31%|████████████████████████████████████████████████████                                                                                                                   | 12509/40080 [2:32:38<5:35:38,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12510/40080 [2:32:39<5:35:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3386, 'grad_norm': 3.28125, 'learning_rate': 1.9480060683662813e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.35, 'epoch': 1.25}
+ 31%|██████████████████���█████████████████████████████████▏                                                                                                                  | 12510/40080 [2:32:39<5:35:10,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12511/40080 [2:32:40<5:35:33,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12512/40080 [2:32:41<5:35:11,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12513/40080 [2:32:41<5:35:29,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12514/40080 [2:32:42<5:34:42,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12515/40080 [2:32:43<5:35:01,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12516/40080 [2:32:44<5:35:18,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12517/40080 [2:32:44<5:35:41,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12518/40080 [2:32:45<5:35:43,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12519/40080 [2:32:46<5:35:48,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12520/40080 [2:32:46<5:35:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3793, 'grad_norm': 4.09375, 'learning_rate': 1.9471922401678856e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2339.51, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12520/40080 [2:32:46<5:35:27,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12521/40080 [2:32:47<5:36:08,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12522/40080 [2:32:48<5:35:53,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12523/40080 [2:32:49<5:35:57,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12524/40080 [2:32:49<5:36:13,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12525/40080 [2:32:50<5:35:56,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12526/40080 [2:32:51<5:35:25,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12527/40080 [2:32:52<5:34:36,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12528/40080 [2:32:52<5:34:38,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12529/40080 [2:32:53<5:35:08,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12530/40080 [2:32:54<5:35:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4025, 'grad_norm': 3.59375, 'learning_rate': 1.9463779827651245e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2297.27, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12530/40080 [2:32:54<5:35:05,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12531/40080 [2:32:54<5:35:11,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12532/40080 [2:32:55<5:35:09,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12533/40080 [2:32:56<5:35:22,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12534/40080 [2:32:57<5:35:22,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12535/40080 [2:32:57<5:35:05,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12536/40080 [2:32:58<5:34:53,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12537/40080 [2:32:59<5:34:56,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12538/40080 [2:33:00<5:34:31,  1.37it/s] 31%|████████████████████████████████████████████████████▏                                                                                                                  | 12539/40080 [2:33:00<5:34:31,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12540/40080 [2:33:01<5:34:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3928, 'grad_norm': 2.953125, 'learning_rate': 1.9455632966592703e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2524.51, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12540/40080 [2:33:01<5:34:26,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12541/40080 [2:33:02<5:35:12,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12542/40080 [2:33:03<5:34:54,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12543/40080 [2:33:03<5:35:29,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12544/40080 [2:33:04<5:35:50,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12545/40080 [2:33:05<5:35:19,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12546/40080 [2:33:05<5:35:30,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12547/40080 [2:33:06<5:35:21,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12548/40080 [2:33:07<5:35:36,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12549/40080 [2:33:08<5:35:05,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12550/40080 [2:33:08<5:35:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3686, 'grad_norm': 2.375, 'learning_rate': 1.944748182351859e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2521.32, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12550/40080 [2:33:08<5:35:24,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12551/40080 [2:33:09<5:35:49,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12552/40080 [2:33:10<5:35:38,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12553/40080 [2:33:11<5:35:14,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12554/40080 [2:33:11<5:35:27,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12555/40080 [2:33:12<5:35:30,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12556/40080 [2:33:13<5:35:33,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12557/40080 [2:33:13<5:35:01,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12558/40080 [2:33:14<5:34:37,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12559/40080 [2:33:15<5:34:52,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12560/40080 [2:33:16<5:34:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3676, 'grad_norm': 3.515625, 'learning_rate': 1.943932640344689e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2414.97, 'epoch': 1.25}
+ 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12560/40080 [2:33:16<5:34:24,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12561/40080 [2:33:16<5:35:08,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12562/40080 [2:33:17<5:35:03,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12563/40080 [2:33:18<5:34:48,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12564/40080 [2:33:19<5:35:03,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12565/40080 [2:33:19<5:34:38,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12566/40080 [2:33:20<5:34:43,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12567/40080 [2:33:21<5:34:53,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12568/40080 [2:33:21<5:34:44,  1.37it/s] 31%|████████████████████████████████████████████████████▎                                                                                                                  | 12569/40080 [2:33:22<5:34:33,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12570/40080 [2:33:23<5:34:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3635, 'grad_norm': 3.484375, 'learning_rate': 1.9431166711398234e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.54, 'epoch': 1.26}
+ 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12570/40080 [2:33:23<5:34:13,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12571/40080 [2:33:24<5:34:52,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12572/40080 [2:33:24<5:34:38,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12573/40080 [2:33:25<5:34:29,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12574/40080 [2:33:26<5:33:44,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12575/40080 [2:33:27<5:33:31,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12576/40080 [2:33:27<5:33:49,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12577/40080 [2:33:28<5:33:56,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12578/40080 [2:33:29<5:34:14,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12579/40080 [2:33:30<5:34:08,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12580/40080 [2:33:30<5:34:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3444, 'grad_norm': 3.0625, 'learning_rate': 1.942300275239588e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.92, 'epoch': 1.26}
+ 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12580/40080 [2:33:30<5:34:30,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12581/40080 [2:33:31<5:34:23,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12582/40080 [2:33:32<5:34:30,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12583/40080 [2:33:32<5:34:36,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12584/40080 [2:33:33<5:34:37,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12585/40080 [2:33:34<5:34:12,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12586/40080 [2:33:35<5:34:12,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12587/40080 [2:33:35<5:34:27,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12588/40080 [2:33:36<5:34:41,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12589/40080 [2:33:37<5:34:35,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12590/40080 [2:33:38<5:34:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3798, 'grad_norm': 3.125, 'learning_rate': 1.9414834531465712e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2686.79, 'epoch': 1.26}
+ 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12590/40080 [2:33:38<5:34:52,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12591/40080 [2:33:38<5:35:27,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12592/40080 [2:33:39<5:34:45,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12593/40080 [2:33:40<5:34:41,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12594/40080 [2:33:40<5:34:33,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12595/40080 [2:33:41<5:34:34,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12596/40080 [2:33:42<5:34:40,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12597/40080 [2:33:43<5:34:02,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12598/40080 [2:33:43<5:34:16,  1.37it/s] 31%|████████████████████████████████████████████████████▍                                                                                                                  | 12599/40080 [2:33:44<5:34:10,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12600/40080 [2:33:45<5:34:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3988, 'grad_norm': 2.9375, 'learning_rate': 1.940666205363623e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2389.7, 'epoch': 1.26}
+ 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12600/40080 [2:33:45<5:34:41,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12601/40080 [2:33:46<5:34:23,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12602/40080 [2:33:46<5:33:48,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12603/40080 [2:33:47<5:34:07,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12604/40080 [2:33:48<5:34:20,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12605/40080 [2:33:48<5:33:57,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12606/40080 [2:33:49<5:33:50,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12607/40080 [2:33:50<5:33:13,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12608/40080 [2:33:51<5:32:59,  1.38it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12609/40080 [2:33:51<5:33:21,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12610/40080 [2:33:52<5:33:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.362, 'grad_norm': 3.171875, 'learning_rate': 1.9398485323938575e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2307.95, 'epoch': 1.26}
+ 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12610/40080 [2:33:52<5:33:29,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12611/40080 [2:33:53<5:33:55,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12612/40080 [2:33:54<5:33:38,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12613/40080 [2:33:54<5:33:46,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12614/40080 [2:33:55<5:33:39,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12615/40080 [2:33:56<5:33:13,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12616/40080 [2:33:57<5:33:28,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12617/40080 [2:33:57<5:35:40,  1.36it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12618/40080 [2:33:58<5:34:43,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12619/40080 [2:33:59<5:34:36,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12620/40080 [2:33:59<5:35:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3888, 'grad_norm': 3.5, 'learning_rate': 1.9390304347406485e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2619.68, 'epoch': 1.26}
+ 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12620/40080 [2:33:59<5:35:01,  1.37it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12621/40080 [2:34:00<5:35:25,  1.36it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12622/40080 [2:34:01<5:36:19,  1.36it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12623/40080 [2:34:02<5:36:25,  1.36it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12624/40080 [2:34:02<5:35:47,  1.36it/s] 31%|████████████████████████████████████████████████████▌                                                                                                                  | 12625/40080 [2:34:03<5:36:03,  1.36it/s] 32%|████████████████████████████████████████████████████▌                                                                                                                  | 12626/40080 [2:34:04<5:35:08,  1.37it/s] 32%|████████████████████████████████████████████████████▌                                                                                                                  | 12627/40080 [2:34:05<5:34:56,  1.37it/s] 32%|████████████████████████████████████████████████████▌                                                                                                                  | 12628/40080 [2:34:05<5:34:33,  1.37it/s] 32%|████████████████████████████████████████████████████▌                                                                                                                  | 12629/40080 [2:34:06<5:34:14,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12630/40080 [2:34:07<5:33:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3932, 'grad_norm': 4.15625, 'learning_rate': 1.9382119129076312e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.81, 'epoch': 1.26}
+ 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12630/40080 [2:34:07<5:33:36,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12631/40080 [2:34:07<5:33:48,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12632/40080 [2:34:08<5:33:37,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12633/40080 [2:34:09<5:33:33,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12634/40080 [2:34:10<5:33:13,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12635/40080 [2:34:10<5:33:31,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12636/40080 [2:34:11<5:32:52,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12637/40080 [2:34:12<5:33:10,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12638/40080 [2:34:13<5:33:09,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12639/40080 [2:34:13<5:33:28,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12640/40080 [2:34:14<5:33:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3585, 'grad_norm': 3.78125, 'learning_rate': 1.9373929673987037e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.93, 'epoch': 1.26}
+ 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12640/40080 [2:34:14<5:33:22,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12641/40080 [2:34:15<5:33:52,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12642/40080 [2:34:16<5:33:40,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12643/40080 [2:34:16<5:34:03,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12644/40080 [2:34:17<5:33:28,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12645/40080 [2:34:18<5:33:46,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12646/40080 [2:34:18<5:33:54,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12647/40080 [2:34:19<5:34:05,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12648/40080 [2:34:20<5:34:01,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12649/40080 [2:34:21<5:33:27,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12650/40080 [2:34:21<5:33:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4196, 'grad_norm': 3.953125, 'learning_rate': 1.936573598718024e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2603.94, 'epoch': 1.26}
+ 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12650/40080 [2:34:21<5:33:43,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12651/40080 [2:34:22<5:34:17,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12652/40080 [2:34:23<5:34:35,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12653/40080 [2:34:24<5:34:33,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12654/40080 [2:34:24<5:34:35,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12655/40080 [2:34:25<5:34:11,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12656/40080 [2:34:26<5:34:05,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12657/40080 [2:34:26<5:33:30,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12658/40080 [2:34:27<5:33:48,  1.37it/s] 32%|████████████████████████████████████████████████████▋                                                                                                                  | 12659/40080 [2:34:28<5:33:45,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12660/40080 [2:34:29<5:33:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3967, 'grad_norm': 3.515625, 'learning_rate': 1.9357538073700092e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2602.66, 'epoch': 1.26}
+ 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12660/40080 [2:34:29<5:33:17,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12661/40080 [2:34:29<5:33:44,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12662/40080 [2:34:30<5:32:58,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12663/40080 [2:34:31<5:32:45,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12664/40080 [2:34:32<5:32:43,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12665/40080 [2:34:32<5:33:09,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12666/40080 [2:34:33<5:32:40,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12667/40080 [2:34:34<5:32:35,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12668/40080 [2:34:34<5:33:18,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12669/40080 [2:34:35<5:33:02,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12670/40080 [2:34:36<5:33:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3779, 'grad_norm': 3.109375, 'learning_rate': 1.93493359385934e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.45, 'epoch': 1.27}
+ 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12670/40080 [2:34:36<5:33:10,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12671/40080 [2:34:37<5:33:22,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12672/40080 [2:34:37<5:33:22,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12673/40080 [2:34:38<5:32:59,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12674/40080 [2:34:39<5:33:16,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12675/40080 [2:34:40<5:32:48,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12676/40080 [2:34:40<5:32:33,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12677/40080 [2:34:41<5:32:16,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12678/40080 [2:34:42<5:32:39,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12679/40080 [2:34:43<5:33:11,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12680/40080 [2:34:43<5:33:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.386, 'grad_norm': 2.125, 'learning_rate': 1.9341129586909532e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.09, 'epoch': 1.27}
+ 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12680/40080 [2:34:43<5:33:02,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12681/40080 [2:34:44<5:33:11,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12682/40080 [2:34:45<5:32:46,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12683/40080 [2:34:45<5:32:39,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12684/40080 [2:34:46<5:32:26,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12685/40080 [2:34:47<5:32:52,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12686/40080 [2:34:48<5:33:08,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12687/40080 [2:34:48<5:33:06,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12688/40080 [2:34:49<5:33:09,  1.37it/s] 32%|████████████████████████████████████████████████████▊                                                                                                                  | 12689/40080 [2:34:50<5:32:21,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12690/40080 [2:34:51<5:32:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3976, 'grad_norm': 3.40625, 'learning_rate': 1.9332919023700474e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.58, 'epoch': 1.27}
+ 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12690/40080 [2:34:51<5:32:48,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12691/40080 [2:34:51<5:33:26,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12692/40080 [2:34:52<5:33:08,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12693/40080 [2:34:53<5:33:47,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12694/40080 [2:34:53<5:33:37,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12695/40080 [2:34:54<5:33:06,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12696/40080 [2:34:55<5:33:19,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12697/40080 [2:34:56<5:32:46,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12698/40080 [2:34:56<5:32:16,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12699/40080 [2:34:57<5:32:11,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12700/40080 [2:34:58<5:32:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3673, 'grad_norm': 3.109375, 'learning_rate': 1.9324704254020802e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2557.09, 'epoch': 1.27}
+ 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12700/40080 [2:34:58<5:32:51,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12701/40080 [2:34:59<5:32:34,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12702/40080 [2:34:59<5:34:08,  1.37it/s] 32%|█████████████████████████��██████████████████████████▉                                                                                                                  | 12703/40080 [2:35:00<5:33:35,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12704/40080 [2:35:01<5:33:34,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12705/40080 [2:35:01<5:33:13,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12706/40080 [2:35:02<5:33:35,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12707/40080 [2:35:03<5:33:32,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12708/40080 [2:35:04<5:33:26,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12709/40080 [2:35:04<5:33:13,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12710/40080 [2:35:05<5:33:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3992, 'grad_norm': 3.984375, 'learning_rate': 1.931648528292768e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2561.06, 'epoch': 1.27}
+ 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12710/40080 [2:35:05<5:33:18,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12711/40080 [2:35:06<5:33:10,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12712/40080 [2:35:07<5:32:41,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12713/40080 [2:35:07<5:32:33,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12714/40080 [2:35:08<5:32:24,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12715/40080 [2:35:09<5:31:46,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12716/40080 [2:35:10<5:32:32,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12717/40080 [2:35:10<5:32:45,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12718/40080 [2:35:11<5:32:40,  1.37it/s] 32%|████████████████████████████████████████████████████▉                                                                                                                  | 12719/40080 [2:35:12<5:32:18,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12720/40080 [2:35:12<5:32:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3766, 'grad_norm': 3.6875, 'learning_rate': 1.9308262115480852e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2502.48, 'epoch': 1.27}
+ 32%|█████████████████████████████████████████████████████                                                                                                                  | 12720/40080 [2:35:12<5:32:11,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12721/40080 [2:35:13<5:32:32,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12722/40080 [2:35:14<5:31:49,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12723/40080 [2:35:15<5:32:15,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12724/40080 [2:35:15<5:32:39,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12725/40080 [2:35:16<5:32:29,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12726/40080 [2:35:17<5:32:35,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12727/40080 [2:35:18<5:32:35,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12728/40080 [2:35:18<5:32:23,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12729/40080 [2:35:19<5:32:01,  1.37it/s] 32%|█████████████████████████████��███████████████████████                                                                                                                  | 12730/40080 [2:35:20<5:32:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3811, 'grad_norm': 3.25, 'learning_rate': 1.930003475674266e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2621.8, 'epoch': 1.27}
+ 32%|█████████████████████████████████████████████████████                                                                                                                  | 12730/40080 [2:35:20<5:32:27,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12731/40080 [2:35:20<5:32:54,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12732/40080 [2:35:21<5:33:01,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12733/40080 [2:35:22<5:32:45,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12734/40080 [2:35:23<5:32:25,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12735/40080 [2:35:23<5:32:29,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12736/40080 [2:35:24<5:32:10,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12737/40080 [2:35:25<5:32:29,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12738/40080 [2:35:26<5:32:23,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12739/40080 [2:35:26<5:32:13,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12740/40080 [2:35:27<5:31:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3865, 'grad_norm': 3.125, 'learning_rate': 1.9291803211778005e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.52, 'epoch': 1.27}
+ 32%|█████████████████████████████████████████████████████                                                                                                                  | 12740/40080 [2:35:27<5:31:58,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12741/40080 [2:35:28<5:32:19,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12742/40080 [2:35:28<5:32:40,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12743/40080 [2:35:29<5:31:47,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12744/40080 [2:35:30<5:31:50,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12745/40080 [2:35:31<5:31:28,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12746/40080 [2:35:31<5:30:59,  1.38it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12747/40080 [2:35:32<5:31:56,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12748/40080 [2:35:33<5:31:39,  1.37it/s] 32%|█████████████████████████████████████████████████████                                                                                                                  | 12749/40080 [2:35:34<5:31:39,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12750/40080 [2:35:34<5:31:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3306, 'grad_norm': 3.234375, 'learning_rate': 1.928356748565439e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2509.0, 'epoch': 1.27}
+ 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12750/40080 [2:35:34<5:31:54,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12751/40080 [2:35:35<5:32:20,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12752/40080 [2:35:36<5:31:57,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12753/40080 [2:35:36<5:31:14,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12754/40080 [2:35:37<5:31:46,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12755/40080 [2:35:38<5:31:46,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12756/40080 [2:35:39<5:31:57,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12757/40080 [2:35:39<5:33:53,  1.36it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12758/40080 [2:35:40<5:33:44,  1.36it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12759/40080 [2:35:41<5:33:06,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12760/40080 [2:35:42<5:31:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3809, 'grad_norm': 3.21875, 'learning_rate': 1.927532758344187e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.5, 'epoch': 1.27}
+ 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12760/40080 [2:35:42<5:31:59,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12761/40080 [2:35:42<5:32:29,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12762/40080 [2:35:43<5:32:27,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12763/40080 [2:35:44<5:31:27,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12764/40080 [2:35:45<5:31:11,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12765/40080 [2:35:45<5:31:42,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12766/40080 [2:35:46<5:31:57,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12767/40080 [2:35:47<5:31:48,  1.37it/s] 32%|████████████████████████████████���████████████████████▏                                                                                                                 | 12768/40080 [2:35:47<5:31:25,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12769/40080 [2:35:48<5:31:57,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12770/40080 [2:35:49<5:31:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3631, 'grad_norm': 4.25, 'learning_rate': 1.926708351021309e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.14, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12770/40080 [2:35:49<5:31:37,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12771/40080 [2:35:50<5:31:54,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12772/40080 [2:35:50<5:31:36,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12773/40080 [2:35:51<5:30:39,  1.38it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12774/40080 [2:35:52<5:30:31,  1.38it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12775/40080 [2:35:53<5:31:12,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12776/40080 [2:35:53<5:31:17,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12777/40080 [2:35:54<5:31:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12778/40080 [2:35:55<5:31:18,  1.37it/s] 32%|█████████████████████████████████████████████████████▏                                                                                                                 | 12779/40080 [2:35:55<5:31:47,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12780/40080 [2:35:56<5:30:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.406, 'grad_norm': 3.296875, 'learning_rate': 1.925883527104324e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2414.96, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12780/40080 [2:35:56<5:30:58,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12781/40080 [2:35:57<5:32:08,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12782/40080 [2:35:58<5:31:49,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12783/40080 [2:35:58<5:32:11,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12784/40080 [2:35:59<5:31:30,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12785/40080 [2:36:00<5:31:21,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12786/40080 [2:36:01<5:31:16,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12787/40080 [2:36:01<5:31:16,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12788/40080 [2:36:02<5:31:21,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12789/40080 [2:36:03<5:31:32,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12790/40080 [2:36:03<5:31:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3832, 'grad_norm': 3.46875, 'learning_rate': 1.9250582871010104e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.72, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12790/40080 [2:36:03<5:31:26,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12791/40080 [2:36:04<5:31:29,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12792/40080 [2:36:05<5:31:47,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12793/40080 [2:36:06<5:31:47,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12794/40080 [2:36:06<5:32:07,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12795/40080 [2:36:07<5:31:33,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12796/40080 [2:36:08<5:31:22,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12797/40080 [2:36:09<5:31:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12798/40080 [2:36:09<5:31:10,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12799/40080 [2:36:10<5:31:25,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12800/40080 [2:36:11<5:30:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3585, 'grad_norm': 3.59375, 'learning_rate': 1.9242326315194e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2487.16, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12800/40080 [2:36:11<5:30:45,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12801/40080 [2:36:11<5:31:10,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12802/40080 [2:36:12<5:31:08,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12803/40080 [2:36:13<5:30:39,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12804/40080 [2:36:14<5:30:58,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12805/40080 [2:36:14<5:30:41,  1.37it/s] 32%|███████████████████��█████████████████████████████████▎                                                                                                                 | 12806/40080 [2:36:15<5:31:30,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12807/40080 [2:36:16<5:31:20,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12808/40080 [2:36:17<5:31:11,  1.37it/s] 32%|█████████████████████████████████████████████████████▎                                                                                                                 | 12809/40080 [2:36:17<5:31:19,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12810/40080 [2:36:18<5:31:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3769, 'grad_norm': 3.5625, 'learning_rate': 1.9234065608677812e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2544.37, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12810/40080 [2:36:18<5:31:44,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12811/40080 [2:36:19<5:32:08,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12812/40080 [2:36:19<5:32:06,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12813/40080 [2:36:20<5:32:17,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12814/40080 [2:36:21<5:32:53,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12815/40080 [2:36:22<5:33:12,  1.36it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12816/40080 [2:36:22<5:32:53,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12817/40080 [2:36:23<5:32:25,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12818/40080 [2:36:24<5:32:08,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12819/40080 [2:36:25<5:31:27,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12820/40080 [2:36:25<5:31:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3898, 'grad_norm': 3.046875, 'learning_rate': 1.9225800756546994e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2551.35, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12820/40080 [2:36:25<5:31:14,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12821/40080 [2:36:26<5:31:29,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12822/40080 [2:36:27<5:31:08,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12823/40080 [2:36:28<5:30:48,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12824/40080 [2:36:28<5:30:43,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12825/40080 [2:36:29<5:30:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12826/40080 [2:36:30<5:30:49,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12827/40080 [2:36:30<5:31:18,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12828/40080 [2:36:31<5:31:41,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12829/40080 [2:36:32<5:31:42,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12830/40080 [2:36:33<5:31:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3136, 'grad_norm': 2.59375, 'learning_rate': 1.9217531763889533e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2350.06, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12830/40080 [2:36:33<5:31:46,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12831/40080 [2:36:33<5:32:18,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12832/40080 [2:36:34<5:31:59,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12833/40080 [2:36:35<5:31:35,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12834/40080 [2:36:36<5:31:15,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12835/40080 [2:36:36<5:31:17,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12836/40080 [2:36:37<5:31:32,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12837/40080 [2:36:38<5:32:05,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12838/40080 [2:36:38<5:31:31,  1.37it/s] 32%|█████████████████████████████████████████████████████▍                                                                                                                 | 12839/40080 [2:36:39<5:31:24,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12840/40080 [2:36:40<5:31:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3604, 'grad_norm': 2.65625, 'learning_rate': 1.920925863579598e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2511.66, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12840/40080 [2:36:40<5:31:39,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12841/40080 [2:36:41<5:31:10,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12842/40080 [2:36:41<5:30:45,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12843/40080 [2:36:42<5:30:17,  1.37it/s] 32%|████��████████████████████████████████████████████████▌                                                                                                                 | 12844/40080 [2:36:43<5:31:04,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12845/40080 [2:36:44<5:30:45,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12846/40080 [2:36:44<5:30:30,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12847/40080 [2:36:45<5:30:14,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12848/40080 [2:36:46<5:30:21,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12849/40080 [2:36:46<5:30:32,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12850/40080 [2:36:47<5:30:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3504, 'grad_norm': 3.015625, 'learning_rate': 1.9200981377359418e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2540.24, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12850/40080 [2:36:47<5:30:25,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12851/40080 [2:36:48<5:31:10,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12852/40080 [2:36:49<5:31:02,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12853/40080 [2:36:49<5:31:13,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12854/40080 [2:36:50<5:30:20,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12855/40080 [2:36:51<5:30:25,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12856/40080 [2:36:52<5:30:03,  1.37it/s] 32%|██████████████████████████████████████████████████���██▌                                                                                                                 | 12857/40080 [2:36:52<5:30:16,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12858/40080 [2:36:53<5:30:12,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12859/40080 [2:36:54<5:30:39,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12860/40080 [2:36:55<5:31:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3937, 'grad_norm': 3.75, 'learning_rate': 1.9192699993675483e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2404.07, 'epoch': 1.28}
+ 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12860/40080 [2:36:55<5:31:10,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12861/40080 [2:36:55<5:31:50,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12862/40080 [2:36:56<5:31:54,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12863/40080 [2:36:57<5:32:04,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12864/40080 [2:36:57<5:31:59,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12865/40080 [2:36:58<5:31:44,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12866/40080 [2:36:59<5:31:12,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12867/40080 [2:37:00<5:30:16,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12868/40080 [2:37:00<5:30:27,  1.37it/s] 32%|█████████████████████████████████████████████████████▌                                                                                                                 | 12869/40080 [2:37:01<5:30:14,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12870/40080 [2:37:02<5:30:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3768, 'grad_norm': 2.671875, 'learning_rate': 1.9184414489842345e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2472.04, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12870/40080 [2:37:02<5:30:08,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12871/40080 [2:37:03<5:30:34,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12872/40080 [2:37:03<5:32:31,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12873/40080 [2:37:04<5:32:35,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12874/40080 [2:37:05<5:32:00,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12875/40080 [2:37:05<5:31:55,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12876/40080 [2:37:06<5:31:20,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12877/40080 [2:37:07<5:31:38,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12878/40080 [2:37:08<5:31:21,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12879/40080 [2:37:08<5:33:02,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12880/40080 [2:37:09<5:32:29,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4667, 'grad_norm': 3.5, 'learning_rate': 1.9176124870960717e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2440.02, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12880/40080 [2:37:09<5:32:29,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12881/40080 [2:37:10<5:32:18,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12882/40080 [2:37:11<5:31:38,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12883/40080 [2:37:11<5:31:38,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12884/40080 [2:37:12<5:31:40,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12885/40080 [2:37:13<5:31:20,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12886/40080 [2:37:14<5:31:04,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12887/40080 [2:37:14<5:30:56,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12888/40080 [2:37:15<5:31:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12889/40080 [2:37:16<5:31:24,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12890/40080 [2:37:16<5:31:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3272, 'grad_norm': 2.515625, 'learning_rate': 1.9167831142133834e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.44, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12890/40080 [2:37:16<5:31:50,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12891/40080 [2:37:17<5:31:47,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12892/40080 [2:37:18<5:31:59,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12893/40080 [2:37:19<5:32:31,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12894/40080 [2:37:19<5:32:03,  1.36it/s] 32%|████████████████████████████████████��████████████████▋                                                                                                                 | 12895/40080 [2:37:20<5:32:32,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12896/40080 [2:37:21<5:32:39,  1.36it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12897/40080 [2:37:22<5:31:45,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12898/40080 [2:37:22<5:31:32,  1.37it/s] 32%|█████████████████████████████████████████████████████▋                                                                                                                 | 12899/40080 [2:37:23<5:31:10,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12900/40080 [2:37:24<5:31:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.398, 'grad_norm': 3.03125, 'learning_rate': 1.915953330846747e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.93, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12900/40080 [2:37:24<5:31:03,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12901/40080 [2:37:25<5:30:53,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12902/40080 [2:37:25<5:30:35,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12903/40080 [2:37:26<5:29:55,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12904/40080 [2:37:27<5:30:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12905/40080 [2:37:27<5:31:00,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12906/40080 [2:37:28<5:31:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12907/40080 [2:37:29<5:30:44,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12908/40080 [2:37:30<5:30:46,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12909/40080 [2:37:30<5:30:29,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12910/40080 [2:37:31<5:30:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4524, 'grad_norm': 4.6875, 'learning_rate': 1.9151231375069935e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2567.85, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12910/40080 [2:37:31<5:30:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12911/40080 [2:37:32<5:31:07,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12912/40080 [2:37:33<5:30:49,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12913/40080 [2:37:33<5:30:30,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12914/40080 [2:37:34<5:30:50,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12915/40080 [2:37:35<5:31:02,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12916/40080 [2:37:35<5:30:41,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12917/40080 [2:37:36<5:31:19,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12918/40080 [2:37:37<5:31:02,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12919/40080 [2:37:38<5:30:59,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12920/40080 [2:37:38<5:30:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3786, 'grad_norm': 3.359375, 'learning_rate': 1.9142925347052036e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2454.19, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12920/40080 [2:37:38<5:30:05,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12921/40080 [2:37:39<5:30:48,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12922/40080 [2:37:40<5:31:00,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12923/40080 [2:37:41<5:31:05,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12924/40080 [2:37:41<5:30:11,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12925/40080 [2:37:42<5:30:18,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12926/40080 [2:37:43<5:29:50,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12927/40080 [2:37:43<5:30:19,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12928/40080 [2:37:44<5:30:19,  1.37it/s] 32%|█████████████████████████████████████████████████████▊                                                                                                                 | 12929/40080 [2:37:45<5:30:16,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12930/40080 [2:37:46<5:30:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3214, 'grad_norm': 2.703125, 'learning_rate': 1.913461522952712e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2612.12, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12930/40080 [2:37:46<5:30:57,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12931/40080 [2:37:46<5:30:56,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12932/40080 [2:37:47<5:30:50,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12933/40080 [2:37:48<5:30:26,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12934/40080 [2:37:49<5:30:23,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12935/40080 [2:37:49<5:29:48,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12936/40080 [2:37:50<5:29:47,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12937/40080 [2:37:51<5:29:17,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12938/40080 [2:37:52<5:29:26,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12939/40080 [2:37:52<5:30:40,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12940/40080 [2:37:53<5:30:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3876, 'grad_norm': 3.3125, 'learning_rate': 1.9126301027611058e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2359.78, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12940/40080 [2:37:53<5:30:40,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12941/40080 [2:37:54<5:30:58,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12942/40080 [2:37:54<5:30:46,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12943/40080 [2:37:55<5:30:24,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12944/40080 [2:37:56<5:30:50,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12945/40080 [2:37:57<5:31:05,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12946/40080 [2:37:57<5:34:02,  1.35it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12947/40080 [2:37:59<6:30:34,  1.16it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12948/40080 [2:37:59<6:13:44,  1.21it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12949/40080 [2:38:00<6:00:41,  1.25it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12950/40080 [2:38:01<5:51:42,  1.29it/s]                                                                                                                                                                                                                      {'loss': 0.3709, 'grad_norm': 2.65625, 'learning_rate': 1.9117982746422214e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2429.56, 'epoch': 1.29}
+ 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12950/40080 [2:38:01<5:51:42,  1.29it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12951/40080 [2:38:01<5:45:31,  1.31it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12952/40080 [2:38:02<5:41:32,  1.32it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12953/40080 [2:38:03<5:38:26,  1.34it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12954/40080 [2:38:04<5:35:33,  1.35it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12955/40080 [2:38:04<5:33:45,  1.35it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12956/40080 [2:38:05<5:32:43,  1.36it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12957/40080 [2:38:06<5:31:49,  1.36it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12958/40080 [2:38:07<5:30:48,  1.37it/s] 32%|█████████████████████████████████████████████████████▉                                                                                                                 | 12959/40080 [2:38:07<5:30:57,  1.37it/s] 32%|██████��███████████████████████████████████████████████                                                                                                                 | 12960/40080 [2:38:08<5:30:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4212, 'grad_norm': 3.1875, 'learning_rate': 1.9109660391081483e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2623.09, 'epoch': 1.29}
+ 32%|██████████████████████████████████████████████████████                                                                                                                 | 12960/40080 [2:38:08<5:30:19,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12961/40080 [2:38:09<5:30:42,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12962/40080 [2:38:10<5:31:18,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12963/40080 [2:38:10<5:34:05,  1.35it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12964/40080 [2:38:11<5:32:32,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12965/40080 [2:38:12<5:30:57,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12966/40080 [2:38:12<5:31:42,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12967/40080 [2:38:13<5:34:30,  1.35it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12968/40080 [2:38:14<5:36:25,  1.34it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12969/40080 [2:38:15<5:36:42,  1.34it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12970/40080 [2:38:15<5:34:26,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3885, 'grad_norm': 3.34375, 'learning_rate': 1.9101333966712255e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2588.93, 'epoch': 1.3}
+ 32%|██████████████████████████████████████████████████████                                                                                                                 | 12970/40080 [2:38:15<5:34:26,  1.35it/s] 32%|███████��██████████████████████████████████████████████                                                                                                                 | 12971/40080 [2:38:16<5:33:19,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12972/40080 [2:38:17<5:31:56,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12973/40080 [2:38:18<5:31:38,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12974/40080 [2:38:18<5:31:16,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12975/40080 [2:38:19<5:31:01,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12976/40080 [2:38:20<5:30:31,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12977/40080 [2:38:21<5:30:39,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12978/40080 [2:38:21<5:30:00,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12979/40080 [2:38:22<5:29:44,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12980/40080 [2:38:23<5:29:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3609, 'grad_norm': 2.40625, 'learning_rate': 1.9093003478440434e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.31, 'epoch': 1.3}
+ 32%|██████████████████████████████████████████████████████                                                                                                                 | 12980/40080 [2:38:23<5:29:45,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12981/40080 [2:38:23<5:29:58,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12982/40080 [2:38:24<5:29:36,  1.37it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12983/40080 [2:38:25<5:31:12,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12984/40080 [2:38:26<5:33:45,  1.35it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12985/40080 [2:38:26<5:35:00,  1.35it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12986/40080 [2:38:27<5:34:14,  1.35it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12987/40080 [2:38:28<5:32:38,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12988/40080 [2:38:29<5:31:15,  1.36it/s] 32%|██████████████████████████████████████████████████████                                                                                                                 | 12989/40080 [2:38:29<5:30:31,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12990/40080 [2:38:30<5:30:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3779, 'grad_norm': 3.109375, 'learning_rate': 1.9084668931394416e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2389.39, 'epoch': 1.3}
+ 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12990/40080 [2:38:30<5:30:24,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12991/40080 [2:38:31<5:30:39,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12992/40080 [2:38:32<5:30:01,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12993/40080 [2:38:32<5:30:57,  1.36it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12994/40080 [2:38:33<5:33:18,  1.35it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12995/40080 [2:38:34<5:34:22,  1.35it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12996/40080 [2:38:35<5:35:31,  1.35it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12997/40080 [2:38:35<5:36:47,  1.34it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12998/40080 [2:38:36<5:37:03,  1.34it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 12999/40080 [2:38:37<5:37:35,  1.34it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13000/40080 [2:38:38<5:34:59,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4025, 'grad_norm': 3.75, 'learning_rate': 1.907633033070511e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2563.05, 'epoch': 1.3}
+ 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13000/40080 [2:38:38<5:34:59,  1.35it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13001/40080 [2:38:38<5:33:37,  1.35it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13002/40080 [2:38:39<5:31:47,  1.36it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13003/40080 [2:38:40<5:30:34,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13004/40080 [2:38:40<5:30:16,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13005/40080 [2:38:41<5:29:39,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13006/40080 [2:38:42<5:29:28,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13007/40080 [2:38:43<5:29:04,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13008/40080 [2:38:43<5:28:19,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13009/40080 [2:38:44<5:28:32,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13010/40080 [2:38:45<5:28:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4082, 'grad_norm': 3.046875, 'learning_rate': 1.90679876815059e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.0, 'epoch': 1.3}
+ 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13010/40080 [2:38:45<5:28:31,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13011/40080 [2:38:46<5:29:03,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13012/40080 [2:38:46<5:29:20,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13013/40080 [2:38:47<5:28:57,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13014/40080 [2:38:48<5:28:55,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13015/40080 [2:38:48<5:28:42,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13016/40080 [2:38:49<5:28:38,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13017/40080 [2:38:50<5:29:11,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13018/40080 [2:38:51<5:28:55,  1.37it/s] 32%|██████████████████████████████████████████████████████▏                                                                                                                | 13019/40080 [2:38:51<5:28:15,  1.37it/s] 32%|██████████████████████████████████████████████████████▎                                                                                                                | 13020/40080 [2:38:52<5:28:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3692, 'grad_norm': 3.171875, 'learning_rate': 1.9059640988932686e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2552.47, 'epoch': 1.3}
+ 32%|██████████████████████████████████████████████████████▎                                                                                                                | 13020/40080 [2:38:52<5:28:38,  1.37it/s] 32%|██████████████████████████████████████████████████████▎                                                                                                                | 13021/40080 [2:38:53<5:28:56,  1.37it/s] 32%|█████████████████���████████████████████████████████████▎                                                                                                                | 13022/40080 [2:38:54<5:28:39,  1.37it/s] 32%|██████████████████████████████████████████████████████▎                                                                                                                | 13023/40080 [2:38:54<5:28:35,  1.37it/s] 32%|██████████████████████████████████████████████████████▎                                                                                                                | 13024/40080 [2:38:55<5:29:57,  1.37it/s] 32%|██████████████████████████████████████████████████████▎                                                                                                                | 13025/40080 [2:38:56<5:33:25,  1.35it/s] 32%|██████████████████████████████████████████████████████▎                                                                                                                | 13026/40080 [2:38:57<5:35:00,  1.35it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13027/40080 [2:38:57<5:37:01,  1.34it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13028/40080 [2:38:58<5:37:06,  1.34it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13029/40080 [2:38:59<5:34:32,  1.35it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13030/40080 [2:39:00<5:33:02,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4099, 'grad_norm': 3.59375, 'learning_rate': 1.9051290258123842e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2343.75, 'epoch': 1.3}
+ 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13030/40080 [2:39:00<5:33:02,  1.35it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13031/40080 [2:39:00<5:34:36,  1.35it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13032/40080 [2:39:01<5:35:50,  1.34it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13033/40080 [2:39:02<5:36:59,  1.34it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13034/40080 [2:39:03<5:38:58,  1.33it/s] 33%|██████████████████████████████████████████████████████���                                                                                                                | 13035/40080 [2:39:03<5:39:44,  1.33it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13036/40080 [2:39:04<5:40:04,  1.33it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13037/40080 [2:39:05<5:40:23,  1.32it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13038/40080 [2:39:06<5:40:41,  1.32it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13039/40080 [2:39:06<5:40:46,  1.32it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13040/40080 [2:39:07<5:40:26,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.3427, 'grad_norm': 2.53125, 'learning_rate': 1.9042935494220227e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2376.17, 'epoch': 1.3}
+ 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13040/40080 [2:39:07<5:40:26,  1.32it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13041/40080 [2:39:08<5:39:22,  1.33it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13042/40080 [2:39:09<5:35:38,  1.34it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13043/40080 [2:39:09<5:34:35,  1.35it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13044/40080 [2:39:10<5:35:04,  1.34it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13045/40080 [2:39:11<5:33:00,  1.35it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13046/40080 [2:39:11<5:31:36,  1.36it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13047/40080 [2:39:12<5:30:53,  1.36it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13048/40080 [2:39:13<5:30:24,  1.36it/s] 33%|██████████████████████████████████████████████████████▎                                                                                                                | 13049/40080 [2:39:14<5:30:08,  1.36it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13050/40080 [2:39:14<5:29:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3849, 'grad_norm': 3.140625, 'learning_rate': 1.9034576702365192e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2561.57, 'epoch': 1.3}
+ 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13050/40080 [2:39:14<5:29:49,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13051/40080 [2:39:15<5:29:57,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13052/40080 [2:39:16<5:29:08,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13053/40080 [2:39:17<5:28:58,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13054/40080 [2:39:17<5:28:18,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13055/40080 [2:39:18<5:28:05,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13056/40080 [2:39:19<5:28:13,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13057/40080 [2:39:20<5:28:42,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13058/40080 [2:39:20<5:28:31,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13059/40080 [2:39:21<5:27:38,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13060/40080 [2:39:22<5:27:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3827, 'grad_norm': 3.140625, 'learning_rate': 1.9026213887704562e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2259.45, 'epoch': 1.3}
+ 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13060/40080 [2:39:22<5:27:46,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13061/40080 [2:39:22<5:27:35,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13062/40080 [2:39:23<5:27:17,  1.38it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13063/40080 [2:39:24<5:27:12,  1.38it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13064/40080 [2:39:25<5:27:38,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13065/40080 [2:39:25<5:27:31,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13066/40080 [2:39:26<5:26:51,  1.38it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13067/40080 [2:39:27<5:27:27,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13068/40080 [2:39:28<5:27:30,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13069/40080 [2:39:28<5:27:37,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13070/40080 [2:39:29<5:26:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3458, 'grad_norm': 2.71875, 'learning_rate': 1.9017847055386635e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2406.14, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13070/40080 [2:39:29<5:26:56,  1.38it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13071/40080 [2:39:30<5:27:51,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13072/40080 [2:39:30<5:27:37,  1.37it/s] 33%|███████████���██████████████████████████████████████████▍                                                                                                                | 13073/40080 [2:39:31<5:27:38,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13074/40080 [2:39:32<5:27:22,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13075/40080 [2:39:33<5:27:14,  1.38it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13076/40080 [2:39:33<5:27:04,  1.38it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13077/40080 [2:39:34<5:27:11,  1.38it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13078/40080 [2:39:35<5:27:19,  1.37it/s] 33%|██████████████████████████████████████████████████████▍                                                                                                                | 13079/40080 [2:39:36<5:27:33,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13080/40080 [2:39:36<5:27:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3796, 'grad_norm': 3.078125, 'learning_rate': 1.9009476210562195e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.36, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13080/40080 [2:39:36<5:27:06,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13081/40080 [2:39:37<5:27:55,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13082/40080 [2:39:38<5:27:25,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13083/40080 [2:39:38<5:27:26,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13084/40080 [2:39:39<5:27:00,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13085/40080 [2:39:40<5:26:53,  1.38it/s] 33%|███████████████████████████████████████████████��██████▌                                                                                                                | 13086/40080 [2:39:41<5:26:26,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13087/40080 [2:39:41<5:26:55,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13088/40080 [2:39:42<5:26:48,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13089/40080 [2:39:43<5:27:13,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13090/40080 [2:39:44<5:26:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3867, 'grad_norm': 3.578125, 'learning_rate': 1.900110135838448e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2493.91, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13090/40080 [2:39:44<5:26:56,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13091/40080 [2:39:44<5:27:24,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13092/40080 [2:39:45<5:27:43,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13093/40080 [2:39:46<5:28:04,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13094/40080 [2:39:46<5:27:38,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13095/40080 [2:39:47<5:27:46,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13096/40080 [2:39:48<5:27:53,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13097/40080 [2:39:49<5:27:38,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13098/40080 [2:39:49<5:27:19,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13099/40080 [2:39:50<5:26:30,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13100/40080 [2:39:51<5:26:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3403, 'grad_norm': 2.890625, 'learning_rate': 1.8992722504009214e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.72, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13100/40080 [2:39:51<5:26:29,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13101/40080 [2:39:52<5:26:54,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13102/40080 [2:39:52<5:27:03,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13103/40080 [2:39:53<5:27:05,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13104/40080 [2:39:54<5:27:05,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13105/40080 [2:39:54<5:26:29,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13106/40080 [2:39:55<5:26:07,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13107/40080 [2:39:56<5:26:23,  1.38it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13108/40080 [2:39:57<5:27:53,  1.37it/s] 33%|██████████████████████████████████████████████████████▌                                                                                                                | 13109/40080 [2:39:57<5:29:31,  1.36it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13110/40080 [2:39:58<5:28:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3518, 'grad_norm': 3.46875, 'learning_rate': 1.8984339652594563e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2309.9, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13110/40080 [2:39:58<5:28:25,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13111/40080 [2:39:59<5:28:35,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13112/40080 [2:40:00<5:31:14,  1.36it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13113/40080 [2:40:00<5:29:31,  1.36it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13114/40080 [2:40:01<5:29:09,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13115/40080 [2:40:02<5:30:04,  1.36it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13116/40080 [2:40:02<5:29:06,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13117/40080 [2:40:03<5:30:30,  1.36it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13118/40080 [2:40:04<5:30:57,  1.36it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13119/40080 [2:40:05<5:29:07,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13120/40080 [2:40:05<5:28:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4081, 'grad_norm': 3.296875, 'learning_rate': 1.8975952809301168e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2413.5, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13120/40080 [2:40:05<5:28:31,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13121/40080 [2:40:06<5:28:48,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13122/40080 [2:40:07<5:28:15,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13123/40080 [2:40:08<5:27:50,  1.37it/s] 33%|████���█████████████████████████████████████████████████▋                                                                                                                | 13124/40080 [2:40:08<5:27:11,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13125/40080 [2:40:09<5:27:24,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13126/40080 [2:40:10<5:26:57,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13127/40080 [2:40:11<5:27:26,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13128/40080 [2:40:11<5:27:04,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13129/40080 [2:40:12<5:27:25,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13130/40080 [2:40:13<5:27:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3865, 'grad_norm': 2.8125, 'learning_rate': 1.8967561979292122e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2584.72, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13130/40080 [2:40:13<5:27:18,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13131/40080 [2:40:13<5:28:05,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13132/40080 [2:40:14<5:27:47,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13133/40080 [2:40:15<5:27:19,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13134/40080 [2:40:16<5:27:39,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13135/40080 [2:40:16<5:27:43,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13136/40080 [2:40:17<5:27:38,  1.37it/s] 33%|█████████████████████████████████████████���████████████▋                                                                                                                | 13137/40080 [2:40:18<5:26:56,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13138/40080 [2:40:19<5:27:15,  1.37it/s] 33%|██████████████████████████████████████████████████████▋                                                                                                                | 13139/40080 [2:40:19<5:27:10,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13140/40080 [2:40:20<5:27:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4143, 'grad_norm': 3.421875, 'learning_rate': 1.895916716773298e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2494.95, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13140/40080 [2:40:20<5:27:48,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13141/40080 [2:40:21<5:28:27,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13142/40080 [2:40:21<5:28:01,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13143/40080 [2:40:22<5:27:21,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13144/40080 [2:40:23<5:27:34,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13145/40080 [2:40:24<5:27:31,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13146/40080 [2:40:24<5:27:40,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13147/40080 [2:40:25<5:27:33,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13148/40080 [2:40:26<5:27:20,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13149/40080 [2:40:27<5:26:49,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13150/40080 [2:40:27<5:26:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.419, 'grad_norm': 2.96875, 'learning_rate': 1.8950768379791736e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.84, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13150/40080 [2:40:27<5:26:41,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13151/40080 [2:40:28<5:27:23,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13152/40080 [2:40:29<5:27:01,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13153/40080 [2:40:29<5:27:32,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13154/40080 [2:40:30<5:27:07,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13155/40080 [2:40:31<5:27:07,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13156/40080 [2:40:32<5:28:16,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13157/40080 [2:40:32<5:27:59,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13158/40080 [2:40:33<5:27:58,  1.37it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13159/40080 [2:40:34<5:30:06,  1.36it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13160/40080 [2:40:35<5:31:46,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4526, 'grad_norm': 4.21875, 'learning_rate': 1.8942365620638843e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.73, 'epoch': 1.31}
+ 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13160/40080 [2:40:35<5:31:46,  1.35it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13161/40080 [2:40:35<5:33:36,  1.34it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13162/40080 [2:40:36<5:40:31,  1.32it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13163/40080 [2:40:37<5:41:27,  1.31it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13164/40080 [2:40:38<5:40:59,  1.32it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13165/40080 [2:40:38<5:39:48,  1.32it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13166/40080 [2:40:39<5:38:19,  1.33it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13167/40080 [2:40:40<5:34:49,  1.34it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13168/40080 [2:40:41<5:32:46,  1.35it/s] 33%|██████████████████████████████████████████████████████▊                                                                                                                | 13169/40080 [2:40:41<5:31:18,  1.35it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13170/40080 [2:40:42<5:32:29,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4362, 'grad_norm': 2.796875, 'learning_rate': 1.8933958895447193e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2385.92, 'epoch': 1.32}
+ 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13170/40080 [2:40:42<5:32:29,  1.35it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13171/40080 [2:40:43<5:34:46,  1.34it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13172/40080 [2:40:44<5:34:33,  1.34it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13173/40080 [2:40:44<5:31:54,  1.35it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13174/40080 [2:40:45<5:30:28,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13175/40080 [2:40:46<5:29:05,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13176/40080 [2:40:47<5:28:11,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13177/40080 [2:40:47<5:30:23,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13178/40080 [2:40:48<5:33:07,  1.35it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13179/40080 [2:40:49<5:31:19,  1.35it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13180/40080 [2:40:50<5:29:51,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3718, 'grad_norm': 3.359375, 'learning_rate': 1.892554820939212e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2513.5, 'epoch': 1.32}
+ 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13180/40080 [2:40:50<5:29:51,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13181/40080 [2:40:50<5:28:59,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13182/40080 [2:40:51<5:27:56,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13183/40080 [2:40:52<5:27:32,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13184/40080 [2:40:52<5:27:09,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13185/40080 [2:40:53<5:26:46,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13186/40080 [2:40:54<5:29:13,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13187/40080 [2:40:55<5:30:29,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13188/40080 [2:40:55<5:29:25,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13189/40080 [2:40:56<5:28:37,  1.36it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13190/40080 [2:40:57<5:27:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3493, 'grad_norm': 2.859375, 'learning_rate': 1.8917133567651397e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2461.19, 'epoch': 1.32}
+ 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13190/40080 [2:40:57<5:27:53,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13191/40080 [2:40:58<5:27:44,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13192/40080 [2:40:58<5:27:22,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13193/40080 [2:40:59<5:27:20,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13194/40080 [2:41:00<5:26:49,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13195/40080 [2:41:00<5:26:37,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13196/40080 [2:41:01<5:26:27,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13197/40080 [2:41:02<5:26:11,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13198/40080 [2:41:03<5:26:42,  1.37it/s] 33%|██████████████████████████████████████████████████████▉                                                                                                                | 13199/40080 [2:41:03<5:26:47,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13200/40080 [2:41:04<5:27:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3829, 'grad_norm': 2.484375, 'learning_rate': 1.8908714975405228e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.21, 'epoch': 1.32}
+ 33%|███████████████████████████████████████████████████████                                                                                                                | 13200/40080 [2:41:04<5:27:00,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13201/40080 [2:41:05<5:27:27,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13202/40080 [2:41:06<5:27:28,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13203/40080 [2:41:06<5:27:34,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13204/40080 [2:41:07<5:26:45,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13205/40080 [2:41:08<5:28:27,  1.36it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13206/40080 [2:41:09<5:30:34,  1.35it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13207/40080 [2:41:09<5:31:21,  1.35it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13208/40080 [2:41:10<5:29:33,  1.36it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13209/40080 [2:41:11<5:29:00,  1.36it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13210/40080 [2:41:11<5:28:19,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4392, 'grad_norm': 3.15625, 'learning_rate': 1.8900292437836258e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.05, 'epoch': 1.32}
+ 33%|███████████████████████████████████████████████████████                                                                                                                | 13210/40080 [2:41:11<5:28:19,  1.36it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13211/40080 [2:41:12<5:27:12,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13212/40080 [2:41:13<5:24:45,  1.38it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13213/40080 [2:41:14<5:22:04,  1.39it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13214/40080 [2:41:14<5:20:11,  1.40it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13215/40080 [2:41:15<5:18:48,  1.40it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13216/40080 [2:41:16<5:18:09,  1.41it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13217/40080 [2:41:16<5:18:09,  1.41it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13218/40080 [2:41:17<5:17:53,  1.41it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13219/40080 [2:41:18<5:17:17,  1.41it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13220/40080 [2:41:19<5:17:16,  1.41it/s]                                                                                                                                                                                                                      {'loss': 0.408, 'grad_norm': 2.890625, 'learning_rate': 1.8891865960129558e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2714.31, 'epoch': 1.32}
+ 33%|███████████████████████████████████████████████████████                                                                                                                | 13220/40080 [2:41:19<5:17:16,  1.41it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13221/40080 [2:41:19<5:17:52,  1.41it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13222/40080 [2:41:20<5:19:34,  1.40it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13223/40080 [2:41:21<5:21:10,  1.39it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13224/40080 [2:41:21<5:23:12,  1.38it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13225/40080 [2:41:22<5:26:24,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13226/40080 [2:41:23<5:26:46,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13227/40080 [2:41:24<5:26:42,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13228/40080 [2:41:24<5:27:17,  1.37it/s] 33%|███████████████████████████████████████████████████████                                                                                                                | 13229/40080 [2:41:25<5:26:45,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13230/40080 [2:41:26<5:26:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3859, 'grad_norm': 3.125, 'learning_rate': 1.8883435547472622e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2416.22, 'epoch': 1.32}
+ 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13230/40080 [2:41:26<5:26:30,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13231/40080 [2:41:27<5:28:34,  1.36it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13232/40080 [2:41:27<5:31:29,  1.35it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13233/40080 [2:41:28<5:29:26,  1.36it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13234/40080 [2:41:29<5:28:59,  1.36it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13235/40080 [2:41:30<5:28:13,  1.36it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13236/40080 [2:41:30<5:27:01,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13237/40080 [2:41:31<5:26:48,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13238/40080 [2:41:32<5:25:59,  1.37it/s] 33%|█████████████████████��█████████████████████████████████▏                                                                                                               | 13239/40080 [2:41:32<5:25:37,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13240/40080 [2:41:33<5:25:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.463, 'grad_norm': 3.203125, 'learning_rate': 1.887500120505536e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2612.78, 'epoch': 1.32}
+ 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13240/40080 [2:41:33<5:25:31,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13241/40080 [2:41:34<5:26:23,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13242/40080 [2:41:35<5:26:47,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13243/40080 [2:41:35<5:26:09,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13244/40080 [2:41:36<5:26:01,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13245/40080 [2:41:37<5:25:57,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13246/40080 [2:41:38<5:26:20,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13247/40080 [2:41:38<5:26:24,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13248/40080 [2:41:39<5:26:30,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13249/40080 [2:41:40<5:26:57,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13250/40080 [2:41:40<5:27:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3401, 'grad_norm': 2.71875, 'learning_rate': 1.8866562938070113e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.68, 'epoch': 1.32}
+ 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13250/40080 [2:41:40<5:27:05,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13251/40080 [2:41:41<5:27:53,  1.36it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13252/40080 [2:41:42<5:26:57,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13253/40080 [2:41:43<5:26:49,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13254/40080 [2:41:43<5:26:00,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13255/40080 [2:41:44<5:26:06,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13256/40080 [2:41:45<5:26:18,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13257/40080 [2:41:46<5:26:31,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13258/40080 [2:41:46<5:26:04,  1.37it/s] 33%|███████████████████████████████████████████████████████▏                                                                                                               | 13259/40080 [2:41:47<5:25:48,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13260/40080 [2:41:48<5:25:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.417, 'grad_norm': 3.109375, 'learning_rate': 1.885812075171164e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2325.72, 'epoch': 1.32}
+ 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13260/40080 [2:41:48<5:25:48,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13261/40080 [2:41:49<5:26:20,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13262/40080 [2:41:49<5:25:59,  1.37it/s] 33%|████████████████████████████████��██████████████████████▎                                                                                                               | 13263/40080 [2:41:50<5:26:16,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13264/40080 [2:41:51<5:26:26,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13265/40080 [2:41:51<5:26:23,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13266/40080 [2:41:52<5:26:00,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13267/40080 [2:41:53<5:25:46,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13268/40080 [2:41:54<5:26:18,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13269/40080 [2:41:54<5:25:49,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13270/40080 [2:41:55<5:25:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3658, 'grad_norm': 2.671875, 'learning_rate': 1.8849674651177092e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2566.4, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13270/40080 [2:41:55<5:25:38,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13271/40080 [2:41:56<5:25:19,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13272/40080 [2:41:57<5:24:27,  1.38it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13273/40080 [2:41:57<5:26:51,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13274/40080 [2:41:58<5:26:13,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13275/40080 [2:41:59<5:26:06,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13276/40080 [2:41:59<5:27:13,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13277/40080 [2:42:00<5:26:52,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13278/40080 [2:42:01<5:26:39,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13279/40080 [2:42:02<5:26:54,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13280/40080 [2:42:02<5:27:17,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3704, 'grad_norm': 1.96875, 'learning_rate': 1.884122464166606e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.23, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13280/40080 [2:42:02<5:27:17,  1.36it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13281/40080 [2:42:03<5:27:11,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13282/40080 [2:42:04<5:27:10,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13283/40080 [2:42:05<5:27:07,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13284/40080 [2:42:05<5:26:55,  1.37it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13285/40080 [2:42:06<5:29:46,  1.35it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13286/40080 [2:42:07<5:30:29,  1.35it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13287/40080 [2:42:08<5:29:43,  1.35it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13288/40080 [2:42:08<5:28:58,  1.36it/s] 33%|███████████████████████████████████████████████████████▎                                                                                                               | 13289/40080 [2:42:09<5:28:34,  1.36it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13290/40080 [2:42:10<5:29:59,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3615, 'grad_norm': 3.71875, 'learning_rate': 1.8832770728380513e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2496.78, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13290/40080 [2:42:10<5:29:59,  1.35it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13291/40080 [2:42:10<5:29:06,  1.36it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13292/40080 [2:42:11<5:27:43,  1.36it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13293/40080 [2:42:12<5:26:53,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13294/40080 [2:42:13<5:26:06,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13295/40080 [2:42:13<5:26:04,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13296/40080 [2:42:14<5:26:14,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13297/40080 [2:42:15<5:26:04,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13298/40080 [2:42:16<5:26:18,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13299/40080 [2:42:16<5:25:44,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13300/40080 [2:42:17<5:25:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3959, 'grad_norm': 3.734375, 'learning_rate': 1.882431291652484e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2630.52, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13300/40080 [2:42:17<5:25:27,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13301/40080 [2:42:18<5:26:18,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13302/40080 [2:42:19<5:25:58,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13303/40080 [2:42:19<5:25:30,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13304/40080 [2:42:20<5:25:13,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13305/40080 [2:42:21<5:25:10,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13306/40080 [2:42:21<5:25:01,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13307/40080 [2:42:22<5:25:13,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13308/40080 [2:42:23<5:25:16,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13309/40080 [2:42:24<5:25:26,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13310/40080 [2:42:24<5:24:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3786, 'grad_norm': 3.28125, 'learning_rate': 1.8815851211305823e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2566.44, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13310/40080 [2:42:24<5:24:41,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13311/40080 [2:42:25<5:25:12,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13312/40080 [2:42:26<5:25:24,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13313/40080 [2:42:27<5:26:15,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13314/40080 [2:42:27<5:26:25,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13315/40080 [2:42:28<5:26:04,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13316/40080 [2:42:29<5:26:15,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13317/40080 [2:42:29<5:26:13,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13318/40080 [2:42:30<5:26:04,  1.37it/s] 33%|███████████████████████████████████████████████████████▍                                                                                                               | 13319/40080 [2:42:31<5:25:20,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13320/40080 [2:42:32<5:25:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3581, 'grad_norm': 2.1875, 'learning_rate': 1.8807385617932647e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.4, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13320/40080 [2:42:32<5:25:25,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13321/40080 [2:42:32<5:25:08,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13322/40080 [2:42:33<5:24:33,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13323/40080 [2:42:34<5:24:41,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13324/40080 [2:42:35<5:24:39,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13325/40080 [2:42:35<5:24:41,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13326/40080 [2:42:36<5:24:40,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13327/40080 [2:42:37<5:24:44,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13328/40080 [2:42:37<5:25:10,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13329/40080 [2:42:38<5:24:46,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13330/40080 [2:42:39<5:24:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.357, 'grad_norm': 2.359375, 'learning_rate': 1.8798916141616886e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2324.39, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13330/40080 [2:42:39<5:24:55,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13331/40080 [2:42:40<5:25:17,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13332/40080 [2:42:40<5:25:06,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13333/40080 [2:42:41<5:24:31,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13334/40080 [2:42:42<5:24:20,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13335/40080 [2:42:43<5:24:26,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13336/40080 [2:42:43<5:24:44,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13337/40080 [2:42:44<5:24:24,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13338/40080 [2:42:45<5:24:27,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13339/40080 [2:42:45<5:24:10,  1.37it/s] 33%|████████████████████████████████████████████���██████████▌                                                                                                               | 13340/40080 [2:42:46<5:24:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3895, 'grad_norm': 2.96875, 'learning_rate': 1.8790442787572505e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2428.94, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13340/40080 [2:42:46<5:24:25,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13341/40080 [2:42:47<5:24:59,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13342/40080 [2:42:48<5:24:35,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13343/40080 [2:42:48<5:24:36,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13344/40080 [2:42:49<5:24:54,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13345/40080 [2:42:50<5:24:56,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13346/40080 [2:42:51<5:24:42,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13347/40080 [2:42:51<5:24:31,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13348/40080 [2:42:52<5:24:58,  1.37it/s] 33%|███████████████████████████████████████████████████████▌                                                                                                               | 13349/40080 [2:42:53<5:24:47,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13350/40080 [2:42:54<5:24:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3629, 'grad_norm': 3.234375, 'learning_rate': 1.8781965561015852e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2364.1, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13350/40080 [2:42:54<5:24:26,  1.37it/s] 33%|███████████████████████████���███████████████████████████▋                                                                                                               | 13351/40080 [2:42:54<5:25:07,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13352/40080 [2:42:55<5:24:45,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13353/40080 [2:42:56<5:25:02,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13354/40080 [2:42:56<5:24:21,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13355/40080 [2:42:57<5:24:54,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13356/40080 [2:42:58<5:24:55,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13357/40080 [2:42:59<5:25:33,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13358/40080 [2:42:59<5:25:31,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13359/40080 [2:43:00<5:25:39,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13360/40080 [2:43:01<5:25:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3493, 'grad_norm': 3.53125, 'learning_rate': 1.8773484467165672e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2496.25, 'epoch': 1.33}
+ 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13360/40080 [2:43:01<5:25:43,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13361/40080 [2:43:02<5:26:01,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13362/40080 [2:43:02<5:25:21,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13363/40080 [2:43:03<5:26:30,  1.36it/s] 33%|██████████████████████████████████████████████████████��▋                                                                                                               | 13364/40080 [2:43:04<5:31:07,  1.34it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13365/40080 [2:43:05<5:33:09,  1.34it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13366/40080 [2:43:05<5:35:56,  1.33it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13367/40080 [2:43:06<5:34:22,  1.33it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13368/40080 [2:43:07<5:31:16,  1.34it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13369/40080 [2:43:08<5:29:50,  1.35it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13370/40080 [2:43:08<5:28:26,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3546, 'grad_norm': 3.046875, 'learning_rate': 1.8764999511243078e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.0, 'epoch': 1.34}
+ 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13370/40080 [2:43:08<5:28:26,  1.36it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13371/40080 [2:43:09<5:27:51,  1.36it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13372/40080 [2:43:10<5:26:26,  1.36it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13373/40080 [2:43:10<5:25:45,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13374/40080 [2:43:11<5:25:49,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13375/40080 [2:43:12<5:24:36,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13376/40080 [2:43:13<5:25:07,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13377/40080 [2:43:13<5:25:12,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13378/40080 [2:43:14<5:24:48,  1.37it/s] 33%|███████████████████████████████████████████████████████▋                                                                                                               | 13379/40080 [2:43:15<5:24:59,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13380/40080 [2:43:16<5:24:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3576, 'grad_norm': 2.59375, 'learning_rate': 1.8756510698471564e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2282.96, 'epoch': 1.34}
+ 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13380/40080 [2:43:16<5:24:42,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13381/40080 [2:43:16<5:25:30,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13382/40080 [2:43:17<5:25:27,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13383/40080 [2:43:18<5:25:47,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13384/40080 [2:43:18<5:25:59,  1.36it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13385/40080 [2:43:19<5:25:27,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13386/40080 [2:43:20<5:24:41,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13387/40080 [2:43:21<5:24:44,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13388/40080 [2:43:21<5:23:52,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13389/40080 [2:43:22<5:23:50,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13390/40080 [2:43:23<5:24:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4062, 'grad_norm': 2.78125, 'learning_rate': 1.8748018034077e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2567.96, 'epoch': 1.34}
+ 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13390/40080 [2:43:23<5:24:05,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13391/40080 [2:43:24<5:25:02,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13392/40080 [2:43:24<5:24:44,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13393/40080 [2:43:25<5:23:54,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13394/40080 [2:43:26<5:23:32,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13395/40080 [2:43:26<5:23:15,  1.38it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13396/40080 [2:43:27<5:23:33,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13397/40080 [2:43:28<5:23:52,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13398/40080 [2:43:29<5:23:40,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13399/40080 [2:43:29<5:24:05,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13400/40080 [2:43:30<5:24:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3876, 'grad_norm': 2.90625, 'learning_rate': 1.8739521523287627e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2516.37, 'epoch': 1.34}
+ 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13400/40080 [2:43:30<5:24:33,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13401/40080 [2:43:31<5:24:06,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13402/40080 [2:43:32<5:24:06,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13403/40080 [2:43:32<5:24:14,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13404/40080 [2:43:33<5:24:23,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13405/40080 [2:43:34<5:24:38,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13406/40080 [2:43:35<5:24:02,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13407/40080 [2:43:35<5:24:22,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13408/40080 [2:43:36<5:23:55,  1.37it/s] 33%|███████████████████████████████████████████████████████▊                                                                                                               | 13409/40080 [2:43:37<5:23:54,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13410/40080 [2:43:37<5:23:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3638, 'grad_norm': 2.84375, 'learning_rate': 1.8731021171334055e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.77, 'epoch': 1.34}
+ 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13410/40080 [2:43:37<5:23:33,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13411/40080 [2:43:38<5:23:47,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13412/40080 [2:43:39<5:23:50,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13413/40080 [2:43:40<5:23:49,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13414/40080 [2:43:40<5:23:42,  1.37it/s] 33%|███████████��███████████████████████████████████████████▉                                                                                                               | 13415/40080 [2:43:41<5:24:02,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13416/40080 [2:43:42<5:23:21,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13417/40080 [2:43:43<5:23:31,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13418/40080 [2:43:43<5:23:24,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13419/40080 [2:43:44<5:22:51,  1.38it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13420/40080 [2:43:45<5:23:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4169, 'grad_norm': 3.953125, 'learning_rate': 1.8722516983449253e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2340.84, 'epoch': 1.34}
+ 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13420/40080 [2:43:45<5:23:21,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13421/40080 [2:43:45<5:23:44,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13422/40080 [2:43:46<5:23:37,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13423/40080 [2:43:47<5:23:30,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13424/40080 [2:43:48<5:23:50,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13425/40080 [2:43:48<5:24:17,  1.37it/s] 33%|███████████████████████████████████████████████████████▉                                                                                                               | 13426/40080 [2:43:49<5:24:30,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13427/40080 [2:43:50<5:24:32,  1.37it/s] 34%|██████████████████████████████████████��████████████████▉                                                                                                               | 13428/40080 [2:43:51<5:24:42,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13429/40080 [2:43:51<5:24:14,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13430/40080 [2:43:52<5:24:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.407, 'grad_norm': 4.09375, 'learning_rate': 1.871400896486856e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2466.11, 'epoch': 1.34}
+ 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13430/40080 [2:43:52<5:24:05,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13431/40080 [2:43:53<5:23:55,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13432/40080 [2:43:53<5:24:08,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13433/40080 [2:43:54<5:24:21,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13434/40080 [2:43:55<5:24:17,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13435/40080 [2:43:56<5:24:10,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13436/40080 [2:43:56<5:23:58,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13437/40080 [2:43:57<5:23:57,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13438/40080 [2:43:58<5:23:43,  1.37it/s] 34%|███████████████████████████████████████████████████████▉                                                                                                               | 13439/40080 [2:43:59<5:23:55,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13440/40080 [2:43:59<5:23:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4053, 'grad_norm': 3.09375, 'learning_rate': 1.8705497120829664e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.02, 'epoch': 1.34}
+ 34%|████████████████████████████████████████████████████████                                                                                                               | 13440/40080 [2:43:59<5:23:58,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13441/40080 [2:44:00<5:24:14,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13442/40080 [2:44:01<5:23:45,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13443/40080 [2:44:01<5:23:58,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13444/40080 [2:44:02<5:23:53,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13445/40080 [2:44:03<5:24:44,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13446/40080 [2:44:04<5:24:16,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13447/40080 [2:44:04<5:23:52,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13448/40080 [2:44:05<5:23:51,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13449/40080 [2:44:06<5:23:38,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13450/40080 [2:44:07<5:23:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3844, 'grad_norm': 2.984375, 'learning_rate': 1.8696981456572614e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2316.19, 'epoch': 1.34}
+ 34%|████████████████████████████████████████████████████████                                                                                                               | 13450/40080 [2:44:07<5:23:45,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13451/40080 [2:44:07<5:24:02,  1.37it/s] 34%|█████████████████████████████████████████████████���██████                                                                                                               | 13452/40080 [2:44:08<5:24:30,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13453/40080 [2:44:09<5:23:44,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13454/40080 [2:44:10<5:23:38,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13455/40080 [2:44:10<5:24:01,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13456/40080 [2:44:11<5:23:46,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13457/40080 [2:44:12<5:23:58,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13458/40080 [2:44:12<5:24:37,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13459/40080 [2:44:13<5:24:42,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13460/40080 [2:44:14<5:24:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3267, 'grad_norm': 2.28125, 'learning_rate': 1.8688461977339814e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2569.43, 'epoch': 1.34}
+ 34%|████████████████████████████████████████████████████████                                                                                                               | 13460/40080 [2:44:14<5:24:50,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13461/40080 [2:44:15<5:25:06,  1.36it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13462/40080 [2:44:15<5:24:53,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13463/40080 [2:44:16<5:24:33,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13464/40080 [2:44:17<5:24:38,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13465/40080 [2:44:18<5:24:40,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13466/40080 [2:44:18<5:24:27,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13467/40080 [2:44:19<5:24:18,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13468/40080 [2:44:20<5:24:52,  1.37it/s] 34%|████████████████████████████████████████████████████████                                                                                                               | 13469/40080 [2:44:20<5:24:00,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13470/40080 [2:44:21<5:23:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3688, 'grad_norm': 3.1875, 'learning_rate': 1.8679938688376003e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2459.37, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13470/40080 [2:44:21<5:23:37,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13471/40080 [2:44:22<5:24:07,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13472/40080 [2:44:23<5:23:55,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13473/40080 [2:44:23<5:23:34,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13474/40080 [2:44:24<5:23:26,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13475/40080 [2:44:25<5:23:19,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13476/40080 [2:44:26<5:23:30,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13477/40080 [2:44:26<5:23:23,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13478/40080 [2:44:27<5:23:04,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13479/40080 [2:44:28<5:23:32,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13480/40080 [2:44:29<5:23:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4114, 'grad_norm': 3.1875, 'learning_rate': 1.8671411594928287e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2405.61, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13480/40080 [2:44:29<5:23:44,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13481/40080 [2:44:29<5:26:09,  1.36it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13482/40080 [2:44:30<5:25:10,  1.36it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13483/40080 [2:44:31<5:24:03,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13484/40080 [2:44:31<5:23:56,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13485/40080 [2:44:32<5:23:55,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13486/40080 [2:44:33<5:23:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13487/40080 [2:44:34<5:23:49,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13488/40080 [2:44:34<5:23:40,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13489/40080 [2:44:35<5:23:16,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13490/40080 [2:44:36<5:23:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3695, 'grad_norm': 3.328125, 'learning_rate': 1.866288070224609e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2508.66, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13490/40080 [2:44:36<5:23:30,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13491/40080 [2:44:37<5:23:28,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13492/40080 [2:44:37<5:22:50,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13493/40080 [2:44:38<5:22:40,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13494/40080 [2:44:39<5:22:36,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13495/40080 [2:44:39<5:22:14,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13496/40080 [2:44:40<5:22:30,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13497/40080 [2:44:41<5:22:20,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13498/40080 [2:44:42<5:22:21,  1.37it/s] 34%|████████████████████████████████████████████████████████▏                                                                                                              | 13499/40080 [2:44:42<5:22:21,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13500/40080 [2:44:43<5:22:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4449, 'grad_norm': 2.9375, 'learning_rate': 1.8654346015581193e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2392.62, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13500/40080 [2:44:43<5:22:28,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13501/40080 [2:44:44<5:23:33,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13502/40080 [2:44:45<5:23:33,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13503/40080 [2:44:45<5:22:52,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13504/40080 [2:44:46<5:23:19,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13505/40080 [2:44:47<5:23:02,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13506/40080 [2:44:47<5:23:34,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13507/40080 [2:44:48<5:23:40,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13508/40080 [2:44:49<5:23:13,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13509/40080 [2:44:50<5:23:25,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13510/40080 [2:44:50<5:23:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3977, 'grad_norm': 3.125, 'learning_rate': 1.8645807540187703e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2739.47, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13510/40080 [2:44:50<5:23:01,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13511/40080 [2:44:51<5:23:20,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13512/40080 [2:44:52<5:23:02,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13513/40080 [2:44:53<5:23:07,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13514/40080 [2:44:53<5:22:59,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13515/40080 [2:44:54<5:23:11,  1.37it/s] 34%|���███████████████████████████████████████████████████████▎                                                                                                              | 13516/40080 [2:44:55<5:23:05,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13517/40080 [2:44:56<5:23:19,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13518/40080 [2:44:56<5:22:53,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13519/40080 [2:44:57<5:22:49,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13520/40080 [2:44:58<5:22:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3644, 'grad_norm': 2.859375, 'learning_rate': 1.8637265281322064e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.57, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13520/40080 [2:44:58<5:22:53,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13521/40080 [2:44:58<5:23:30,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13522/40080 [2:44:59<5:23:12,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13523/40080 [2:45:00<5:22:25,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13524/40080 [2:45:01<5:22:35,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13525/40080 [2:45:01<5:22:27,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13526/40080 [2:45:02<5:22:49,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13527/40080 [2:45:03<5:22:54,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13528/40080 [2:45:04<5:22:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▎                                                                                                              | 13529/40080 [2:45:04<5:22:55,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13530/40080 [2:45:05<5:23:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.384, 'grad_norm': 3.59375, 'learning_rate': 1.8628719244243047e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2350.35, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13530/40080 [2:45:05<5:23:18,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13531/40080 [2:45:06<5:23:06,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13532/40080 [2:45:06<5:22:58,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13533/40080 [2:45:07<5:22:21,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13534/40080 [2:45:08<5:21:36,  1.38it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13535/40080 [2:45:09<6:12:55,  1.19it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13536/40080 [2:45:10<5:58:01,  1.24it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13537/40080 [2:45:10<5:47:31,  1.27it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13538/40080 [2:45:11<5:40:06,  1.30it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13539/40080 [2:45:12<5:35:04,  1.32it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13540/40080 [2:45:13<5:31:04,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3938, 'grad_norm': 3.484375, 'learning_rate': 1.8620169434211752e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2295.45, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13540/40080 [2:45:13<5:31:04,  1.34it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13541/40080 [2:45:13<5:28:48,  1.35it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13542/40080 [2:45:14<5:26:44,  1.35it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13543/40080 [2:45:15<5:25:38,  1.36it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13544/40080 [2:45:16<5:25:15,  1.36it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13545/40080 [2:45:16<5:24:26,  1.36it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13546/40080 [2:45:17<5:23:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13547/40080 [2:45:18<5:23:27,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13548/40080 [2:45:19<5:23:41,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13549/40080 [2:45:19<5:23:22,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13550/40080 [2:45:20<5:22:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3747, 'grad_norm': 3.484375, 'learning_rate': 1.8611615856491592e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2464.54, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13550/40080 [2:45:20<5:22:47,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13551/40080 [2:45:21<5:23:14,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13552/40080 [2:45:21<5:22:10,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13553/40080 [2:45:22<5:22:34,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13554/40080 [2:45:23<5:23:07,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13555/40080 [2:45:24<5:22:40,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13556/40080 [2:45:24<5:22:22,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13557/40080 [2:45:25<5:22:59,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13558/40080 [2:45:26<5:22:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▍                                                                                                              | 13559/40080 [2:45:27<5:22:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13560/40080 [2:45:27<5:22:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3998, 'grad_norm': 3.578125, 'learning_rate': 1.8603058516348317e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2509.76, 'epoch': 1.35}
+ 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13560/40080 [2:45:27<5:22:27,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13561/40080 [2:45:28<5:22:50,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13562/40080 [2:45:29<5:22:15,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13563/40080 [2:45:29<5:22:28,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13564/40080 [2:45:30<5:21:58,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13565/40080 [2:45:31<5:22:23,  1.37it/s] 34%|███████████████████████████��████████████████████████████▌                                                                                                              | 13566/40080 [2:45:32<5:21:49,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13567/40080 [2:45:32<5:22:23,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13568/40080 [2:45:33<5:22:40,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13569/40080 [2:45:34<5:22:45,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13570/40080 [2:45:35<5:22:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3876, 'grad_norm': 3.203125, 'learning_rate': 1.859449741904998e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.81, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13570/40080 [2:45:35<5:22:24,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13571/40080 [2:45:35<5:23:32,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13572/40080 [2:45:36<5:23:27,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13573/40080 [2:45:37<5:23:20,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13574/40080 [2:45:37<5:23:22,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13575/40080 [2:45:38<5:22:54,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13576/40080 [2:45:39<5:22:51,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13577/40080 [2:45:40<5:22:46,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13578/40080 [2:45:40<5:22:43,  1.37it/s] 34%|█████████████████████████████████████████████��██████████▌                                                                                                              | 13579/40080 [2:45:41<5:22:11,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13580/40080 [2:45:42<5:22:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3959, 'grad_norm': 2.59375, 'learning_rate': 1.858593256986694e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.66, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13580/40080 [2:45:42<5:22:03,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13581/40080 [2:45:43<5:21:54,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13582/40080 [2:45:43<5:22:03,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13583/40080 [2:45:44<5:22:34,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13584/40080 [2:45:45<5:22:40,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13585/40080 [2:45:46<5:22:22,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13586/40080 [2:45:46<5:22:44,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13587/40080 [2:45:47<5:22:22,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13588/40080 [2:45:48<5:22:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▌                                                                                                              | 13589/40080 [2:45:48<5:22:47,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13590/40080 [2:45:49<5:23:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.419, 'grad_norm': 3.125, 'learning_rate': 1.8577363974071885e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.45, 'epoch': 1.36}
+ 34%|█████████████████████���██████████████████████████████████▋                                                                                                              | 13590/40080 [2:45:49<5:23:02,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13591/40080 [2:45:50<5:23:24,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13592/40080 [2:45:51<5:23:07,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13593/40080 [2:45:51<5:22:28,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13594/40080 [2:45:52<5:22:10,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13595/40080 [2:45:53<5:21:45,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13596/40080 [2:45:54<5:21:44,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13597/40080 [2:45:54<5:21:47,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13598/40080 [2:45:55<5:21:30,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13599/40080 [2:45:56<5:21:17,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13600/40080 [2:45:56<5:21:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3713, 'grad_norm': 2.59375, 'learning_rate': 1.8568791636939804e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2336.32, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13600/40080 [2:45:56<5:21:07,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13601/40080 [2:45:57<5:21:24,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13602/40080 [2:45:58<5:21:25,  1.37it/s] 34%|███████████████████████████████████████���████████████████▋                                                                                                              | 13603/40080 [2:45:59<5:21:06,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13604/40080 [2:45:59<5:20:56,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13605/40080 [2:46:00<5:21:19,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13606/40080 [2:46:01<5:21:16,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13607/40080 [2:46:02<5:21:24,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13608/40080 [2:46:02<5:21:37,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13609/40080 [2:46:03<5:21:58,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13610/40080 [2:46:04<5:21:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.37, 'grad_norm': 2.484375, 'learning_rate': 1.8560215563747972e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.96, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13610/40080 [2:46:04<5:21:57,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13611/40080 [2:46:04<5:22:25,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13612/40080 [2:46:05<5:22:56,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13613/40080 [2:46:06<5:22:18,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13614/40080 [2:46:07<5:22:21,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13615/40080 [2:46:07<5:22:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13616/40080 [2:46:08<5:22:42,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13617/40080 [2:46:09<5:22:55,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13618/40080 [2:46:10<5:22:05,  1.37it/s] 34%|████████████████████████████████████████████████████████▋                                                                                                              | 13619/40080 [2:46:10<5:21:46,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13620/40080 [2:46:11<5:22:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3525, 'grad_norm': 2.859375, 'learning_rate': 1.8551635759775993e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2539.34, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13620/40080 [2:46:11<5:22:26,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13621/40080 [2:46:12<5:22:28,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13622/40080 [2:46:13<5:22:21,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13623/40080 [2:46:13<5:22:15,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13624/40080 [2:46:14<5:21:53,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13625/40080 [2:46:15<5:21:57,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13626/40080 [2:46:15<5:22:10,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13627/40080 [2:46:16<5:22:06,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13628/40080 [2:46:17<5:21:44,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13629/40080 [2:46:18<5:21:39,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13630/40080 [2:46:18<5:21:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3836, 'grad_norm': 3.390625, 'learning_rate': 1.8543052230305745e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2535.64, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13630/40080 [2:46:18<5:21:42,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13631/40080 [2:46:19<5:21:37,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13632/40080 [2:46:20<5:22:11,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13633/40080 [2:46:21<5:22:48,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13634/40080 [2:46:21<5:22:37,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13635/40080 [2:46:22<5:22:28,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13636/40080 [2:46:23<5:21:46,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13637/40080 [2:46:23<5:21:50,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13638/40080 [2:46:24<5:21:35,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13639/40080 [2:46:25<5:21:26,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13640/40080 [2:46:26<5:21:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3954, 'grad_norm': 3.265625, 'learning_rate': 1.85344649806214e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2637.16, 'epoch': 1.36}
+ 34%|█████████████████████████████████████████████████��██████▊                                                                                                              | 13640/40080 [2:46:26<5:21:29,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13641/40080 [2:46:26<5:21:15,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13642/40080 [2:46:27<5:20:56,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13643/40080 [2:46:28<5:20:55,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13644/40080 [2:46:29<5:20:40,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13645/40080 [2:46:29<5:20:43,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13646/40080 [2:46:30<5:21:14,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13647/40080 [2:46:31<5:21:14,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13648/40080 [2:46:32<5:20:59,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13649/40080 [2:46:32<5:21:16,  1.37it/s] 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13650/40080 [2:46:33<5:21:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4344, 'grad_norm': 3.125, 'learning_rate': 1.8525874016009438e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2720.16, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▊                                                                                                              | 13650/40080 [2:46:33<5:21:28,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13651/40080 [2:46:34<5:21:38,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13652/40080 [2:46:34<5:21:23,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13653/40080 [2:46:35<5:21:36,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13654/40080 [2:46:36<5:21:29,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13655/40080 [2:46:37<5:21:38,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13656/40080 [2:46:37<5:21:20,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13657/40080 [2:46:38<5:21:46,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13658/40080 [2:46:39<5:21:37,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13659/40080 [2:46:40<5:21:24,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13660/40080 [2:46:40<5:20:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3406, 'grad_norm': 3.21875, 'learning_rate': 1.8517279341758603e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2368.04, 'epoch': 1.36}
+ 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13660/40080 [2:46:40<5:20:49,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13661/40080 [2:46:41<5:21:15,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13662/40080 [2:46:42<5:20:53,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13663/40080 [2:46:42<5:20:30,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13664/40080 [2:46:43<5:20:26,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13665/40080 [2:46:44<5:20:01,  1.38it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13666/40080 [2:46:45<5:20:20,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13667/40080 [2:46:45<5:20:19,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13668/40080 [2:46:46<5:20:14,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13669/40080 [2:46:47<5:20:59,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13670/40080 [2:46:48<5:20:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.357, 'grad_norm': 3.890625, 'learning_rate': 1.8508680963159948e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2415.23, 'epoch': 1.37}
+ 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13670/40080 [2:46:48<5:20:57,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13671/40080 [2:46:48<5:21:32,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13672/40080 [2:46:49<5:21:30,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13673/40080 [2:46:50<5:21:41,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13674/40080 [2:46:50<5:21:12,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13675/40080 [2:46:51<5:20:50,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13676/40080 [2:46:52<5:20:41,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13677/40080 [2:46:53<5:20:48,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13678/40080 [2:46:53<5:20:27,  1.37it/s] 34%|████████████████████████████████████████████████████████▉                                                                                                              | 13679/40080 [2:46:54<5:20:10,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13680/40080 [2:46:55<5:20:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3915, 'grad_norm': 3.921875, 'learning_rate': 1.8500078885506782e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2376.95, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████                                                                                                              | 13680/40080 [2:46:55<5:20:24,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13681/40080 [2:46:56<5:21:38,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13682/40080 [2:46:56<5:21:11,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13683/40080 [2:46:57<5:21:27,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13684/40080 [2:46:58<5:21:28,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13685/40080 [2:46:58<5:20:47,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13686/40080 [2:46:59<5:20:52,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13687/40080 [2:47:00<5:20:28,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13688/40080 [2:47:01<5:20:48,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13689/40080 [2:47:01<5:20:49,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13690/40080 [2:47:02<5:21:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3563, 'grad_norm': 3.0625, 'learning_rate': 1.849147311409471e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2459.44, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████                                                                                                              | 13690/40080 [2:47:02<5:21:32,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13691/40080 [2:47:03<5:22:43,  1.36it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13692/40080 [2:47:04<5:22:22,  1.36it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13693/40080 [2:47:04<5:21:15,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13694/40080 [2:47:05<5:20:57,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13695/40080 [2:47:06<5:21:03,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13696/40080 [2:47:07<5:21:04,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13697/40080 [2:47:07<5:21:20,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13698/40080 [2:47:08<5:21:13,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13699/40080 [2:47:09<5:21:05,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13700/40080 [2:47:09<5:20:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4365, 'grad_norm': 2.96875, 'learning_rate': 1.84828636542216e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.2, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████                                                                                                              | 13700/40080 [2:47:09<5:20:59,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13701/40080 [2:47:10<5:21:32,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13702/40080 [2:47:11<5:21:02,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13703/40080 [2:47:12<5:21:09,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13704/40080 [2:47:12<5:21:17,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13705/40080 [2:47:13<5:21:02,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13706/40080 [2:47:14<5:20:51,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13707/40080 [2:47:15<5:20:49,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13708/40080 [2:47:15<5:20:15,  1.37it/s] 34%|█████████████████████████████████████████████████████████                                                                                                              | 13709/40080 [2:47:16<5:20:04,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13710/40080 [2:47:17<5:20:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3843, 'grad_norm': 2.890625, 'learning_rate': 1.8474250511187592e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.81, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13710/40080 [2:47:17<5:20:03,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13711/40080 [2:47:17<5:20:57,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13712/40080 [2:47:18<5:21:01,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13713/40080 [2:47:19<5:21:06,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13714/40080 [2:47:20<5:20:47,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13715/40080 [2:47:20<5:21:05,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13716/40080 [2:47:21<5:21:04,  1.37it/s] 34%|��████████████████████████████████████████████████████████▏                                                                                                             | 13717/40080 [2:47:22<5:20:34,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13718/40080 [2:47:23<5:20:32,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13719/40080 [2:47:23<5:20:25,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13720/40080 [2:47:24<5:20:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3662, 'grad_norm': 3.015625, 'learning_rate': 1.8465633690295096e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2656.01, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13720/40080 [2:47:24<5:20:16,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13721/40080 [2:47:25<5:20:35,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13722/40080 [2:47:26<5:20:34,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13723/40080 [2:47:26<5:20:10,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13724/40080 [2:47:27<5:19:51,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13725/40080 [2:47:28<5:20:22,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13726/40080 [2:47:28<5:20:14,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13727/40080 [2:47:29<5:20:06,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13728/40080 [2:47:30<5:20:06,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13729/40080 [2:47:31<5:20:18,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13730/40080 [2:47:31<5:20:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3665, 'grad_norm': 3.4375, 'learning_rate': 1.8457013196848785e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2469.85, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13730/40080 [2:47:31<5:20:42,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13731/40080 [2:47:32<5:21:14,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13732/40080 [2:47:33<5:20:45,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13733/40080 [2:47:34<5:20:07,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13734/40080 [2:47:34<5:20:26,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13735/40080 [2:47:35<5:19:58,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13736/40080 [2:47:36<5:20:20,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13737/40080 [2:47:36<5:19:43,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13738/40080 [2:47:37<5:19:59,  1.37it/s] 34%|█████████████████████████████████████████████████████████▏                                                                                                             | 13739/40080 [2:47:38<5:20:04,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13740/40080 [2:47:39<5:19:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3912, 'grad_norm': 3.1875, 'learning_rate': 1.8448389036155596e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2441.76, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13740/40080 [2:47:39<5:19:36,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13741/40080 [2:47:39<5:20:15,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13742/40080 [2:47:40<5:20:02,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13743/40080 [2:47:41<5:19:48,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13744/40080 [2:47:42<5:20:00,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13745/40080 [2:47:42<5:20:06,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13746/40080 [2:47:43<5:19:39,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13747/40080 [2:47:44<5:20:06,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13748/40080 [2:47:44<5:20:11,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13749/40080 [2:47:45<5:20:18,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13750/40080 [2:47:46<5:20:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3973, 'grad_norm': 2.703125, 'learning_rate': 1.843976121352472e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2395.5, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13750/40080 [2:47:46<5:20:27,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13751/40080 [2:47:47<5:20:38,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13752/40080 [2:47:47<5:20:01,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13753/40080 [2:47:48<5:20:26,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13754/40080 [2:47:49<5:20:29,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13755/40080 [2:47:50<5:20:59,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13756/40080 [2:47:50<5:21:09,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13757/40080 [2:47:51<5:21:02,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13758/40080 [2:47:52<5:20:35,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13759/40080 [2:47:53<5:21:55,  1.36it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13760/40080 [2:47:53<5:21:38,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3535, 'grad_norm': 2.46875, 'learning_rate': 1.8431129734267603e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.36, 'epoch': 1.37}
+ 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13760/40080 [2:47:53<5:21:38,  1.36it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13761/40080 [2:47:54<5:20:50,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13762/40080 [2:47:55<5:20:25,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13763/40080 [2:47:55<5:20:36,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13764/40080 [2:47:56<5:19:52,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13765/40080 [2:47:57<5:19:55,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13766/40080 [2:47:58<5:20:22,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13767/40080 [2:47:58<5:20:37,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13768/40080 [2:47:59<5:20:41,  1.37it/s] 34%|█████████████████████████████████████████████████████████▎                                                                                                             | 13769/40080 [2:48:00<5:20:09,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13770/40080 [2:48:01<5:20:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3434, 'grad_norm': 3.359375, 'learning_rate': 1.8422494603697944e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.84, 'epoch': 1.38}
+ 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13770/40080 [2:48:01<5:20:00,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13771/40080 [2:48:01<5:20:56,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13772/40080 [2:48:02<5:20:30,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13773/40080 [2:48:03<5:20:15,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13774/40080 [2:48:03<5:20:20,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13775/40080 [2:48:04<5:20:06,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13776/40080 [2:48:05<5:19:54,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13777/40080 [2:48:06<5:20:20,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13778/40080 [2:48:06<5:21:02,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13779/40080 [2:48:07<5:20:10,  1.37it/s] 34%|█���███████████████████████████████████████████████████████▍                                                                                                             | 13780/40080 [2:48:08<5:20:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3667, 'grad_norm': 3.34375, 'learning_rate': 1.8413855827131678e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2322.23, 'epoch': 1.38}
+ 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13780/40080 [2:48:08<5:20:30,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13781/40080 [2:48:09<5:20:51,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13782/40080 [2:48:09<5:21:03,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13783/40080 [2:48:10<5:20:41,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13784/40080 [2:48:11<5:20:37,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13785/40080 [2:48:12<5:20:48,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13786/40080 [2:48:12<5:20:18,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13787/40080 [2:48:13<5:20:24,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13788/40080 [2:48:14<5:20:42,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13789/40080 [2:48:14<5:20:27,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13790/40080 [2:48:15<5:20:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4192, 'grad_norm': 3.328125, 'learning_rate': 1.840521340988701e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.02, 'epoch': 1.38}
+ 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13790/40080 [2:48:15<5:20:25,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13791/40080 [2:48:16<5:20:07,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13792/40080 [2:48:17<5:20:07,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13793/40080 [2:48:17<5:20:24,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13794/40080 [2:48:18<5:20:28,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13795/40080 [2:48:19<5:20:10,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13796/40080 [2:48:20<5:20:27,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13797/40080 [2:48:20<5:20:31,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13798/40080 [2:48:21<5:20:46,  1.37it/s] 34%|█████████████████████████████████████████████████████████▍                                                                                                             | 13799/40080 [2:48:22<5:21:08,  1.36it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13800/40080 [2:48:22<5:20:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3488, 'grad_norm': 3.0, 'learning_rate': 1.839656735728436e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2582.3, 'epoch': 1.38}
+ 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13800/40080 [2:48:22<5:20:14,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13801/40080 [2:48:23<5:20:45,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13802/40080 [2:48:24<5:20:52,  1.36it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13803/40080 [2:48:25<5:20:05,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13804/40080 [2:48:25<5:19:47,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13805/40080 [2:48:26<5:19:34,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13806/40080 [2:48:27<5:19:03,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13807/40080 [2:48:28<5:18:38,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13808/40080 [2:48:28<5:18:54,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13809/40080 [2:48:29<5:19:12,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13810/40080 [2:48:30<5:18:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4193, 'grad_norm': 3.46875, 'learning_rate': 1.8387917674646408e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2353.88, 'epoch': 1.38}
+ 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13810/40080 [2:48:30<5:18:51,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13811/40080 [2:48:31<5:18:45,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13812/40080 [2:48:31<5:19:12,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13813/40080 [2:48:32<5:19:01,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13814/40080 [2:48:33<5:19:36,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13815/40080 [2:48:33<5:19:07,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13816/40080 [2:48:34<5:19:10,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13817/40080 [2:48:35<5:18:43,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13818/40080 [2:48:36<5:19:03,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13819/40080 [2:48:36<5:18:36,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13820/40080 [2:48:37<5:19:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3917, 'grad_norm': 3.0625, 'learning_rate': 1.8379264367298043e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2423.44, 'epoch': 1.38}
+ 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13820/40080 [2:48:37<5:19:02,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13821/40080 [2:48:38<5:19:53,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13822/40080 [2:48:39<5:19:21,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13823/40080 [2:48:39<5:19:31,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13824/40080 [2:48:40<5:19:32,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13825/40080 [2:48:41<5:19:51,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13826/40080 [2:48:41<5:20:05,  1.37it/s] 34%|█████████████████████████████████████████████████████████▌                                                                                                             | 13827/40080 [2:48:42<5:19:34,  1.37it/s] 35%|█████████████████████████████████████████████████████████▌                                                                                                             | 13828/40080 [2:48:43<5:19:28,  1.37it/s] 35%|█████████████████████████████████████████████████████████▌                                                                                                             | 13829/40080 [2:48:44<5:19:48,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13830/40080 [2:48:44<5:19:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3822, 'grad_norm': 3.109375, 'learning_rate': 1.8370607440566412e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2481.1, 'epoch': 1.38}
+ 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13830/40080 [2:48:44<5:19:29,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13831/40080 [2:48:45<5:20:10,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13832/40080 [2:48:46<5:19:36,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13833/40080 [2:48:47<5:19:05,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13834/40080 [2:48:47<5:19:23,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13835/40080 [2:48:48<5:19:32,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13836/40080 [2:48:49<5:19:03,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13837/40080 [2:48:49<5:18:56,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13838/40080 [2:48:50<5:19:11,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13839/40080 [2:48:51<5:18:51,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13840/40080 [2:48:52<5:19:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3541, 'grad_norm': 2.609375, 'learning_rate': 1.8361946899780874e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2494.78, 'epoch': 1.38}
+ 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13840/40080 [2:48:52<5:19:11,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13841/40080 [2:48:52<5:19:19,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13842/40080 [2:48:53<5:18:59,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13843/40080 [2:48:54<5:19:24,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13844/40080 [2:48:55<5:19:58,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13845/40080 [2:48:55<5:20:21,  1.36it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13846/40080 [2:48:56<5:20:13,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13847/40080 [2:48:57<5:19:53,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13848/40080 [2:48:58<5:20:11,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13849/40080 [2:48:58<5:19:33,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13850/40080 [2:48:59<5:19:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3726, 'grad_norm': 2.84375, 'learning_rate': 1.8353282750273016e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2584.91, 'epoch': 1.38}
+ 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13850/40080 [2:48:59<5:19:35,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13851/40080 [2:49:00<5:19:59,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13852/40080 [2:49:00<5:19:25,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13853/40080 [2:49:01<5:19:27,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13854/40080 [2:49:02<5:18:45,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13855/40080 [2:49:03<5:18:58,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13856/40080 [2:49:03<5:18:52,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13857/40080 [2:49:04<5:19:09,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13858/40080 [2:49:05<5:18:30,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13859/40080 [2:49:06<5:18:40,  1.37it/s] 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13860/40080 [2:49:06<5:18:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4346, 'grad_norm': 5.0, 'learning_rate': 1.8344614997376646e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2364.65, 'epoch': 1.38}
+ 35%|█████████████████████████████████████████████████████████▋                                                                                                             | 13860/40080 [2:49:06<5:18:27,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13861/40080 [2:49:07<5:19:07,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13862/40080 [2:49:08<5:19:31,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13863/40080 [2:49:08<5:19:37,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13864/40080 [2:49:09<5:19:40,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13865/40080 [2:49:10<5:19:41,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13866/40080 [2:49:11<5:18:40,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13867/40080 [2:49:11<5:18:36,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13868/40080 [2:49:12<5:18:30,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13869/40080 [2:49:13<5:18:34,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13870/40080 [2:49:14<5:18:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3944, 'grad_norm': 4.09375, 'learning_rate': 1.8335943646427803e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.15, 'epoch': 1.39}
+ 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13870/40080 [2:49:14<5:18:01,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13871/40080 [2:49:14<5:18:37,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13872/40080 [2:49:15<5:18:31,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13873/40080 [2:49:16<5:17:44,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13874/40080 [2:49:17<5:17:58,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13875/40080 [2:49:17<5:17:56,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13876/40080 [2:49:18<5:17:49,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13877/40080 [2:49:19<5:17:56,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13878/40080 [2:49:19<5:18:14,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13879/40080 [2:49:20<5:18:14,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13880/40080 [2:49:21<5:17:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3994, 'grad_norm': 3.46875, 'learning_rate': 1.832726870276472e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.66, 'epoch': 1.39}
+ 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13880/40080 [2:49:21<5:17:48,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13881/40080 [2:49:22<5:18:11,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13882/40080 [2:49:22<5:18:05,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13883/40080 [2:49:23<5:18:20,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13884/40080 [2:49:24<5:18:19,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13885/40080 [2:49:25<5:18:27,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13886/40080 [2:49:25<5:18:22,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13887/40080 [2:49:26<5:18:28,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13888/40080 [2:49:27<5:18:46,  1.37it/s] 35%|█████████████████████████████████████████████████████████▊                                                                                                             | 13889/40080 [2:49:27<5:18:20,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13890/40080 [2:49:28<5:18:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4132, 'grad_norm': 3.53125, 'learning_rate': 1.8318590171727846e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2510.74, 'epoch': 1.39}
+ 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13890/40080 [2:49:28<5:18:15,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13891/40080 [2:49:29<5:18:22,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13892/40080 [2:49:30<5:17:56,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13893/40080 [2:49:30<5:18:12,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13894/40080 [2:49:31<5:18:54,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13895/40080 [2:49:32<5:19:08,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13896/40080 [2:49:33<5:18:52,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13897/40080 [2:49:33<5:18:24,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13898/40080 [2:49:34<5:18:15,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13899/40080 [2:49:35<5:18:23,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13900/40080 [2:49:35<5:18:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3826, 'grad_norm': 2.859375, 'learning_rate': 1.8309908058659858e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.19, 'epoch': 1.39}
+ 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13900/40080 [2:49:35<5:18:33,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13901/40080 [2:49:36<5:19:20,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13902/40080 [2:49:37<5:18:43,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13903/40080 [2:49:38<5:18:20,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13904/40080 [2:49:38<5:17:38,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13905/40080 [2:49:39<5:17:50,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13906/40080 [2:49:40<5:17:55,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13907/40080 [2:49:41<5:17:37,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13908/40080 [2:49:41<5:17:32,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13909/40080 [2:49:42<5:18:01,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13910/40080 [2:49:43<5:18:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3764, 'grad_norm': 3.671875, 'learning_rate': 1.8301222368905624e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2565.64, 'epoch': 1.39}
+ 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13910/40080 [2:49:43<5:18:28,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13911/40080 [2:49:43<5:18:36,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13912/40080 [2:49:44<5:18:28,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13913/40080 [2:49:45<5:17:56,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13914/40080 [2:49:46<5:18:02,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13915/40080 [2:49:46<5:17:42,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13916/40080 [2:49:47<5:17:22,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13917/40080 [2:49:48<5:17:24,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13918/40080 [2:49:49<5:17:54,  1.37it/s] 35%|█████████████████████████████████████████████████████████▉                                                                                                             | 13919/40080 [2:49:49<5:18:17,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13920/40080 [2:49:50<5:17:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.365, 'grad_norm': 3.0625, 'learning_rate': 1.8292533107812202e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.79, 'epoch': 1.39}
+ 35%|██████████████████████████████████████████████████████████                                                                                                             | 13920/40080 [2:49:50<5:17:46,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13921/40080 [2:49:51<5:18:06,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13922/40080 [2:49:52<5:17:54,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13923/40080 [2:49:52<5:18:20,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13924/40080 [2:49:53<5:18:09,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13925/40080 [2:49:54<5:18:23,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13926/40080 [2:49:54<5:18:03,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13927/40080 [2:49:55<5:17:53,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13928/40080 [2:49:56<5:18:24,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13929/40080 [2:49:57<5:18:37,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13930/40080 [2:49:57<5:19:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3508, 'grad_norm': 3.140625, 'learning_rate': 1.828384028072887e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2596.01, 'epoch': 1.39}
+ 35%|██████████████████████████████████████████████████████████                                                                                                             | 13930/40080 [2:49:57<5:19:01,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13931/40080 [2:49:58<5:19:24,  1.36it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13932/40080 [2:49:59<5:19:28,  1.36it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13933/40080 [2:50:00<5:19:13,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13934/40080 [2:50:00<5:19:06,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13935/40080 [2:50:01<5:18:37,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13936/40080 [2:50:02<5:18:16,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13937/40080 [2:50:02<5:18:28,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13938/40080 [2:50:03<5:18:53,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13939/40080 [2:50:04<5:18:26,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13940/40080 [2:50:05<5:17:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3851, 'grad_norm': 3.15625, 'learning_rate': 1.8275143893007092e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2685.4, 'epoch': 1.39}
+ 35%|████████████████████████████████████████████████████████���█                                                                                                             | 13940/40080 [2:50:05<5:17:40,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13941/40080 [2:50:05<5:18:14,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13942/40080 [2:50:06<5:18:22,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13943/40080 [2:50:07<5:18:28,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13944/40080 [2:50:08<5:17:55,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13945/40080 [2:50:08<5:18:38,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13946/40080 [2:50:09<5:18:16,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13947/40080 [2:50:10<5:18:09,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13948/40080 [2:50:11<5:17:59,  1.37it/s] 35%|██████████████████████████████████████████████████████████                                                                                                             | 13949/40080 [2:50:11<5:18:34,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13950/40080 [2:50:12<5:18:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3702, 'grad_norm': 4.0, 'learning_rate': 1.826644395000052e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2200.93, 'epoch': 1.39}
+ 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13950/40080 [2:50:12<5:18:15,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13951/40080 [2:50:13<5:18:47,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13952/40080 [2:50:13<5:19:07,  1.36it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13953/40080 [2:50:14<5:18:44,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13954/40080 [2:50:15<5:18:05,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13955/40080 [2:50:16<5:17:56,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13956/40080 [2:50:16<5:17:58,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13957/40080 [2:50:17<5:18:45,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13958/40080 [2:50:18<5:18:43,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13959/40080 [2:50:19<5:18:22,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13960/40080 [2:50:19<5:18:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3888, 'grad_norm': 3.375, 'learning_rate': 1.8257740457065005e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2421.89, 'epoch': 1.39}
+ 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13960/40080 [2:50:19<5:18:15,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13961/40080 [2:50:20<5:18:56,  1.36it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13962/40080 [2:50:21<5:18:03,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13963/40080 [2:50:21<5:17:44,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13964/40080 [2:50:22<5:17:27,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13965/40080 [2:50:23<5:17:25,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13966/40080 [2:50:24<5:17:18,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13967/40080 [2:50:24<5:17:18,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13968/40080 [2:50:25<5:17:22,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13969/40080 [2:50:26<5:17:28,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13970/40080 [2:50:27<5:17:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4062, 'grad_norm': 3.15625, 'learning_rate': 1.824903341955857e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2428.18, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13970/40080 [2:50:27<5:17:33,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13971/40080 [2:50:27<5:17:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13972/40080 [2:50:28<5:17:23,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13973/40080 [2:50:29<5:17:06,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13974/40080 [2:50:30<5:17:24,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13975/40080 [2:50:30<5:17:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13976/40080 [2:50:31<5:17:25,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13977/40080 [2:50:32<5:17:00,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13978/40080 [2:50:32<5:17:21,  1.37it/s] 35%|██████████████████████████████████████████████████████████▏                                                                                                            | 13979/40080 [2:50:33<5:17:05,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13980/40080 [2:50:34<5:17:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4059, 'grad_norm': 3.46875, 'learning_rate': 1.8240322842841438e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2494.14, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13980/40080 [2:50:34<5:17:23,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13981/40080 [2:50:35<5:17:26,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13982/40080 [2:50:35<5:17:19,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13983/40080 [2:50:36<5:17:33,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13984/40080 [2:50:37<5:17:40,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13985/40080 [2:50:38<5:17:44,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13986/40080 [2:50:38<5:18:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13987/40080 [2:50:39<5:17:31,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13988/40080 [2:50:40<5:18:18,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13989/40080 [2:50:40<5:18:06,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13990/40080 [2:50:41<5:17:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3774, 'grad_norm': 3.015625, 'learning_rate': 1.8231608732275987e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2608.97, 'epoch': 1.4}
+ 35%|█████████████████████���████████████████████████████████████▎                                                                                                            | 13990/40080 [2:50:41<5:17:43,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13991/40080 [2:50:42<5:17:52,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13992/40080 [2:50:43<5:17:36,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13993/40080 [2:50:43<5:17:01,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13994/40080 [2:50:44<5:16:29,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13995/40080 [2:50:45<5:16:26,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13996/40080 [2:50:46<5:16:04,  1.38it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13997/40080 [2:50:46<5:16:41,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13998/40080 [2:50:47<5:17:11,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 13999/40080 [2:50:48<5:16:47,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14000/40080 [2:50:48<5:17:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3585, 'grad_norm': 3.140625, 'learning_rate': 1.8222891093226794e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2368.11, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14000/40080 [2:50:48<5:17:11,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14001/40080 [2:50:49<5:18:01,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14002/40080 [2:50:50<5:17:41,  1.37it/s] 35%|████████████████████��█████████████████████████████████████▎                                                                                                            | 14003/40080 [2:50:51<5:17:02,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14004/40080 [2:50:51<5:16:51,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14005/40080 [2:50:52<5:17:45,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14006/40080 [2:50:53<5:18:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14007/40080 [2:50:54<5:17:47,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14008/40080 [2:50:54<5:17:33,  1.37it/s] 35%|██████████████████████████████████████████████████████████▎                                                                                                            | 14009/40080 [2:50:55<5:17:42,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14010/40080 [2:50:56<5:17:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3372, 'grad_norm': 3.0625, 'learning_rate': 1.8214169931060592e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2559.87, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14010/40080 [2:50:56<5:17:27,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14011/40080 [2:50:57<5:17:06,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14012/40080 [2:50:57<5:16:53,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14013/40080 [2:50:58<5:17:20,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14014/40080 [2:50:59<5:17:19,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14015/40080 [2:50:59<5:17:11,  1.37it/s] 35%|████████████████████��█████████████████████████████████████▍                                                                                                            | 14016/40080 [2:51:00<5:17:26,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14017/40080 [2:51:01<5:18:52,  1.36it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14018/40080 [2:51:02<5:18:11,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14019/40080 [2:51:02<5:19:53,  1.36it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14020/40080 [2:51:03<5:21:02,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3774, 'grad_norm': 3.34375, 'learning_rate': 1.8205445251146292e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2380.15, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14020/40080 [2:51:03<5:21:02,  1.35it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14021/40080 [2:51:04<5:20:15,  1.36it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14022/40080 [2:51:05<5:19:03,  1.36it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14023/40080 [2:51:05<5:18:34,  1.36it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14024/40080 [2:51:06<5:17:39,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14025/40080 [2:51:07<5:17:03,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14026/40080 [2:51:08<5:16:54,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14027/40080 [2:51:08<5:16:52,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14028/40080 [2:51:09<5:16:50,  1.37it/s] 35%|████████████████████���█████████████████████████████████████▍                                                                                                            | 14029/40080 [2:51:10<5:16:42,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14030/40080 [2:51:10<5:16:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4067, 'grad_norm': 3.359375, 'learning_rate': 1.8196717058854968e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2424.4, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14030/40080 [2:51:10<5:16:38,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14031/40080 [2:51:11<5:16:58,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14032/40080 [2:51:12<5:16:40,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14033/40080 [2:51:13<5:15:53,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14034/40080 [2:51:13<5:16:17,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14035/40080 [2:51:14<5:16:28,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14036/40080 [2:51:15<5:16:05,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14037/40080 [2:51:16<5:16:35,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14038/40080 [2:51:16<5:16:23,  1.37it/s] 35%|██████████████████████████████████████████████████████████▍                                                                                                            | 14039/40080 [2:51:17<5:16:28,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14040/40080 [2:51:18<5:16:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.388, 'grad_norm': 3.453125, 'learning_rate': 1.818798535955985e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.65, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14040/40080 [2:51:18<5:16:46,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14041/40080 [2:51:18<5:17:06,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14042/40080 [2:51:19<5:17:09,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14043/40080 [2:51:20<5:17:02,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14044/40080 [2:51:21<5:16:34,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14045/40080 [2:51:21<5:16:26,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14046/40080 [2:51:22<5:15:58,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14047/40080 [2:51:23<5:16:25,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14048/40080 [2:51:24<5:16:31,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14049/40080 [2:51:24<5:16:29,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14050/40080 [2:51:25<5:16:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3609, 'grad_norm': 2.421875, 'learning_rate': 1.817925015863634e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.9, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14050/40080 [2:51:25<5:16:27,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14051/40080 [2:51:26<5:16:57,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14052/40080 [2:51:26<5:16:11,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14053/40080 [2:51:27<5:16:09,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14054/40080 [2:51:28<5:16:09,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14055/40080 [2:51:29<5:16:08,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14056/40080 [2:51:29<5:16:12,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14057/40080 [2:51:30<5:15:57,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14058/40080 [2:51:31<5:16:22,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14059/40080 [2:51:32<5:16:23,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14060/40080 [2:51:32<5:16:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3618, 'grad_norm': 3.796875, 'learning_rate': 1.8170511461461983e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2271.31, 'epoch': 1.4}
+ 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14060/40080 [2:51:32<5:16:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14061/40080 [2:51:33<5:16:45,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14062/40080 [2:51:34<5:16:32,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14063/40080 [2:51:34<5:16:45,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14064/40080 [2:51:35<5:16:57,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14065/40080 [2:51:36<5:16:38,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14066/40080 [2:51:37<5:16:16,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14067/40080 [2:51:37<5:16:18,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14068/40080 [2:51:38<5:16:27,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14069/40080 [2:51:39<5:16:08,  1.37it/s] 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14070/40080 [2:51:40<5:15:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3987, 'grad_norm': 2.625, 'learning_rate': 1.8161769273416487e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2431.4, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▌                                                                                                            | 14070/40080 [2:51:40<5:15:54,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14071/40080 [2:51:40<5:16:01,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14072/40080 [2:51:41<5:15:49,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14073/40080 [2:51:42<5:16:00,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14074/40080 [2:51:43<5:15:52,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14075/40080 [2:51:43<5:16:15,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14076/40080 [2:51:44<5:15:39,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14077/40080 [2:51:45<5:15:41,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14078/40080 [2:51:45<5:15:37,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14079/40080 [2:51:46<5:15:42,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14080/40080 [2:51:47<5:15:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3864, 'grad_norm': 2.578125, 'learning_rate': 1.8153023599881696e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2401.04, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14080/40080 [2:51:47<5:15:25,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14081/40080 [2:51:48<5:16:16,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14082/40080 [2:51:48<5:15:49,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14083/40080 [2:51:49<5:16:08,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14084/40080 [2:51:50<5:16:12,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14085/40080 [2:51:51<5:16:13,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14086/40080 [2:51:51<5:16:15,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14087/40080 [2:51:52<5:15:43,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14088/40080 [2:51:53<5:15:56,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14089/40080 [2:51:53<5:15:46,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14090/40080 [2:51:54<5:15:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3559, 'grad_norm': 4.3125, 'learning_rate': 1.8144274446241616e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2417.15, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14090/40080 [2:51:54<5:15:37,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14091/40080 [2:51:55<5:16:06,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14092/40080 [2:51:56<5:15:34,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14093/40080 [2:51:56<5:15:29,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14094/40080 [2:51:57<5:15:34,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14095/40080 [2:51:58<5:15:40,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14096/40080 [2:51:59<5:15:54,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14097/40080 [2:51:59<5:16:04,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14098/40080 [2:52:00<5:15:14,  1.37it/s] 35%|██████████████████████████████████████████████████████████▋                                                                                                            | 14099/40080 [2:52:01<5:15:20,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14100/40080 [2:52:01<5:15:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3558, 'grad_norm': 3.0, 'learning_rate': 1.813552181788238e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2652.09, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14100/40080 [2:52:01<5:15:26,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14101/40080 [2:52:02<5:15:53,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14102/40080 [2:52:03<5:15:30,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14103/40080 [2:52:04<5:15:35,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14104/40080 [2:52:04<5:15:31,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14105/40080 [2:52:05<5:15:20,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14106/40080 [2:52:06<5:15:17,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14107/40080 [2:52:07<5:15:52,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14108/40080 [2:52:07<5:15:48,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14109/40080 [2:52:08<5:15:44,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14110/40080 [2:52:09<5:15:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3888, 'grad_norm': 3.4375, 'learning_rate': 1.8126765720192272e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2313.18, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14110/40080 [2:52:09<5:15:34,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14111/40080 [2:52:09<5:16:50,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14112/40080 [2:52:10<5:16:34,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14113/40080 [2:52:11<5:16:04,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14114/40080 [2:52:12<5:15:30,  1.37it/s] 35%|██████████████████████████████████████████████��███████████▊                                                                                                            | 14115/40080 [2:52:12<5:15:26,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14116/40080 [2:52:13<5:15:14,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14117/40080 [2:52:14<5:15:00,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14118/40080 [2:52:15<5:15:03,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14119/40080 [2:52:15<5:15:18,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14120/40080 [2:52:16<5:15:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3818, 'grad_norm': 4.40625, 'learning_rate': 1.8118006158561703e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2435.47, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14120/40080 [2:52:16<5:15:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14121/40080 [2:52:17<5:16:00,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14122/40080 [2:52:18<5:15:47,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14123/40080 [2:52:18<5:15:50,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14124/40080 [2:52:19<5:15:55,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14125/40080 [2:52:20<5:15:42,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14126/40080 [2:52:20<5:15:35,  1.37it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14127/40080 [2:52:22<6:05:59,  1.18it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14128/40080 [2:52:22<5:50:41,  1.23it/s] 35%|██████████████████████████████████████████████████████████▊                                                                                                            | 14129/40080 [2:52:23<5:40:09,  1.27it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14130/40080 [2:52:24<5:32:19,  1.30it/s]                                                                                                                                                                                                                      {'loss': 0.4159, 'grad_norm': 4.9375, 'learning_rate': 1.8109243138383225e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2407.77, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14130/40080 [2:52:24<5:32:19,  1.30it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14131/40080 [2:52:24<5:27:42,  1.32it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14132/40080 [2:52:25<5:23:32,  1.34it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14133/40080 [2:52:26<5:20:59,  1.35it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14134/40080 [2:52:27<5:18:53,  1.36it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14135/40080 [2:52:27<5:17:42,  1.36it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14136/40080 [2:52:28<5:16:32,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14137/40080 [2:52:29<5:16:32,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14138/40080 [2:52:30<5:16:37,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14139/40080 [2:52:30<5:15:51,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14140/40080 [2:52:31<5:15:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3539, 'grad_norm': 2.296875, 'learning_rate': 1.810047666505151e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2324.34, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14140/40080 [2:52:31<5:15:58,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14141/40080 [2:52:32<5:16:34,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14142/40080 [2:52:32<5:16:17,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14143/40080 [2:52:33<5:16:25,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14144/40080 [2:52:34<5:15:24,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14145/40080 [2:52:35<5:15:36,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14146/40080 [2:52:35<5:15:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14147/40080 [2:52:36<5:14:46,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14148/40080 [2:52:37<5:16:38,  1.36it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14149/40080 [2:52:38<5:16:03,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14150/40080 [2:52:38<5:15:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4174, 'grad_norm': 3.75, 'learning_rate': 1.809170674396336e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2540.51, 'epoch': 1.41}
+ 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14150/40080 [2:52:38<5:15:01,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14151/40080 [2:52:39<5:15:24,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14152/40080 [2:52:40<5:14:31,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14153/40080 [2:52:41<5:15:21,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14154/40080 [2:52:41<5:15:10,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14155/40080 [2:52:42<5:14:55,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14156/40080 [2:52:43<5:15:07,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14157/40080 [2:52:43<5:14:58,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14158/40080 [2:52:44<5:15:11,  1.37it/s] 35%|██████████████████████████████████████████████████████████▉                                                                                                            | 14159/40080 [2:52:45<5:14:38,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14160/40080 [2:52:46<5:15:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3493, 'grad_norm': 3.328125, 'learning_rate': 1.8082933380517703e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2597.51, 'epoch': 1.41}
+ 35%|███████████████████████████████████████████████████████████                                                                                                            | 14160/40080 [2:52:46<5:15:01,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14161/40080 [2:52:46<5:15:15,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14162/40080 [2:52:47<5:14:30,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14163/40080 [2:52:48<5:14:24,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14164/40080 [2:52:49<5:14:11,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14165/40080 [2:52:49<5:14:29,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14166/40080 [2:52:50<5:14:30,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14167/40080 [2:52:51<5:14:37,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14168/40080 [2:52:51<5:14:45,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14169/40080 [2:52:52<5:14:44,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14170/40080 [2:52:53<5:14:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3734, 'grad_norm': 4.25, 'learning_rate': 1.807415658011558e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.17, 'epoch': 1.42}
+ 35%|███████████████████████████████████████████████████████████                                                                                                            | 14170/40080 [2:52:53<5:14:40,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14171/40080 [2:52:54<5:14:59,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14172/40080 [2:52:54<5:14:55,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14173/40080 [2:52:55<5:14:52,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14174/40080 [2:52:56<5:14:59,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14175/40080 [2:52:57<5:14:49,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14176/40080 [2:52:57<5:14:58,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14177/40080 [2:52:58<5:14:43,  1.37it/s] 35%|███��███████████████████████████████████████████████████████                                                                                                            | 14178/40080 [2:52:59<5:14:53,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14179/40080 [2:52:59<5:14:51,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14180/40080 [2:53:00<5:15:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3544, 'grad_norm': 2.734375, 'learning_rate': 1.8065376348160153e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.33, 'epoch': 1.42}
+ 35%|███████████████████████████████████████████████████████████                                                                                                            | 14180/40080 [2:53:00<5:15:17,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14181/40080 [2:53:01<5:15:05,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14182/40080 [2:53:02<5:15:10,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14183/40080 [2:53:02<5:15:19,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14184/40080 [2:53:03<5:15:23,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14185/40080 [2:53:04<5:15:08,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14186/40080 [2:53:05<5:14:52,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14187/40080 [2:53:05<5:14:29,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14188/40080 [2:53:06<5:14:59,  1.37it/s] 35%|███████████████████████████████████████████████████████████                                                                                                            | 14189/40080 [2:53:07<5:16:27,  1.36it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14190/40080 [2:53:08<5:17:40,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3975, 'grad_norm': 3.265625, 'learning_rate': 1.805659269005669e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2255.13, 'epoch': 1.42}
+ 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14190/40080 [2:53:08<5:17:40,  1.36it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14191/40080 [2:53:08<5:17:39,  1.36it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14192/40080 [2:53:09<5:16:34,  1.36it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14193/40080 [2:53:10<5:16:11,  1.36it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14194/40080 [2:53:10<5:15:57,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14195/40080 [2:53:11<5:16:09,  1.36it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14196/40080 [2:53:12<5:15:29,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14197/40080 [2:53:13<5:15:03,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14198/40080 [2:53:13<5:14:43,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14199/40080 [2:53:14<5:15:07,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14200/40080 [2:53:15<5:14:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4127, 'grad_norm': 4.53125, 'learning_rate': 1.8047805611212582e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2535.8, 'epoch': 1.42}
+ 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14200/40080 [2:53:15<5:14:45,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14201/40080 [2:53:16<5:14:51,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14202/40080 [2:53:16<5:15:10,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14203/40080 [2:53:17<5:15:01,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14204/40080 [2:53:18<5:14:17,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14205/40080 [2:53:18<5:14:30,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14206/40080 [2:53:19<5:14:38,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14207/40080 [2:53:20<5:14:16,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14208/40080 [2:53:21<5:14:14,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14209/40080 [2:53:21<5:14:02,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14210/40080 [2:53:22<5:14:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3867, 'grad_norm': 2.953125, 'learning_rate': 1.8039015117037303e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2256.29, 'epoch': 1.42}
+ 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14210/40080 [2:53:22<5:14:45,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14211/40080 [2:53:23<5:14:57,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14212/40080 [2:53:24<5:14:41,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14213/40080 [2:53:24<5:14:19,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14214/40080 [2:53:25<5:14:52,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14215/40080 [2:53:26<5:14:26,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14216/40080 [2:53:27<5:14:34,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14217/40080 [2:53:27<5:16:16,  1.36it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14218/40080 [2:53:28<5:15:38,  1.37it/s] 35%|███████████████████████████████████████████████████████████▏                                                                                                           | 14219/40080 [2:53:29<5:15:40,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14220/40080 [2:53:29<5:15:48,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3997, 'grad_norm': 3.125, 'learning_rate': 1.803022121294245e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2385.86, 'epoch': 1.42}
+ 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14220/40080 [2:53:29<5:15:48,  1.36it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14221/40080 [2:53:30<5:15:17,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14222/40080 [2:53:31<5:15:05,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14223/40080 [2:53:32<5:14:48,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14224/40080 [2:53:32<5:14:57,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14225/40080 [2:53:33<5:14:26,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14226/40080 [2:53:34<5:14:03,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14227/40080 [2:53:35<5:14:25,  1.37it/s] 35%|███████████████████████████████████████████████████████████▎                                                                                                           | 14228/40080 [2:53:35<5:14:11,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14229/40080 [2:53:36<5:14:15,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14230/40080 [2:53:37<5:14:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3652, 'grad_norm': 2.28125, 'learning_rate': 1.8021423904341715e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.36, 'epoch': 1.42}
+ 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14230/40080 [2:53:37<5:14:47,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14231/40080 [2:53:37<5:14:48,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14232/40080 [2:53:38<5:14:22,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14233/40080 [2:53:39<5:14:03,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14234/40080 [2:53:40<5:13:33,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14235/40080 [2:53:40<5:13:37,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14236/40080 [2:53:41<5:13:44,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14237/40080 [2:53:42<5:13:48,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14238/40080 [2:53:43<5:14:05,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14239/40080 [2:53:43<5:14:40,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14240/40080 [2:53:44<5:14:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3556, 'grad_norm': 3.140625, 'learning_rate': 1.801262319665088e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2540.35, 'epoch': 1.42}
+ 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14240/40080 [2:53:44<5:14:19,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14241/40080 [2:53:45<5:14:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14242/40080 [2:53:45<5:14:09,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14243/40080 [2:53:46<5:13:57,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14244/40080 [2:53:47<5:14:03,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14245/40080 [2:53:48<5:13:40,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14246/40080 [2:53:48<5:13:39,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14247/40080 [2:53:49<5:13:35,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14248/40080 [2:53:50<5:13:50,  1.37it/s] 36%|███████████████████████████████████████████████████████████▎                                                                                                           | 14249/40080 [2:53:51<5:14:11,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14250/40080 [2:53:51<5:14:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3672, 'grad_norm': 3.265625, 'learning_rate': 1.8003819095287822e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2494.33, 'epoch': 1.42}
+ 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14250/40080 [2:53:51<5:14:01,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14251/40080 [2:53:52<5:13:52,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14252/40080 [2:53:53<5:13:58,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14253/40080 [2:53:54<5:13:32,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14254/40080 [2:53:54<5:13:33,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14255/40080 [2:53:55<5:13:45,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14256/40080 [2:53:56<5:14:00,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14257/40080 [2:53:56<5:14:01,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14258/40080 [2:53:57<5:13:18,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14259/40080 [2:53:58<5:13:11,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14260/40080 [2:53:59<5:13:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3582, 'grad_norm': 2.921875, 'learning_rate': 1.7995011605672508e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2249.36, 'epoch': 1.42}
+ 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14260/40080 [2:53:59<5:13:19,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14261/40080 [2:53:59<5:13:21,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14262/40080 [2:54:00<5:13:44,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14263/40080 [2:54:01<5:13:51,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14264/40080 [2:54:02<5:13:47,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14265/40080 [2:54:02<5:13:33,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14266/40080 [2:54:03<5:14:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14267/40080 [2:54:04<5:14:32,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14268/40080 [2:54:04<5:14:22,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14269/40080 [2:54:05<5:14:31,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14270/40080 [2:54:06<5:14:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3847, 'grad_norm': 4.46875, 'learning_rate': 1.7986200733226987e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2399.15, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14270/40080 [2:54:06<5:14:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14271/40080 [2:54:07<5:14:55,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14272/40080 [2:54:07<5:14:42,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14273/40080 [2:54:08<5:14:34,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14274/40080 [2:54:09<5:14:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14275/40080 [2:54:10<5:14:05,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14276/40080 [2:54:10<5:13:42,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14277/40080 [2:54:11<5:13:55,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14278/40080 [2:54:12<5:14:00,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14279/40080 [2:54:12<5:13:37,  1.37it/s] 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14280/40080 [2:54:13<5:13:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4352, 'grad_norm': 4.5625, 'learning_rate': 1.79773864833754e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2500.82, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▍                                                                                                           | 14280/40080 [2:54:13<5:13:04,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14281/40080 [2:54:14<5:13:35,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14282/40080 [2:54:15<5:13:49,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14283/40080 [2:54:15<5:14:12,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14284/40080 [2:54:16<5:13:53,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14285/40080 [2:54:17<5:13:39,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14286/40080 [2:54:18<5:13:05,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14287/40080 [2:54:18<5:13:08,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14288/40080 [2:54:19<5:14:00,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14289/40080 [2:54:20<5:14:00,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14290/40080 [2:54:21<5:14:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3915, 'grad_norm': 3.3125, 'learning_rate': 1.7968568861543962e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2629.08, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14290/40080 [2:54:21<5:14:07,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14291/40080 [2:54:21<5:13:59,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14292/40080 [2:54:22<5:13:22,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14293/40080 [2:54:23<5:13:10,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14294/40080 [2:54:23<5:13:02,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14295/40080 [2:54:24<5:13:10,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14296/40080 [2:54:25<5:13:09,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14297/40080 [2:54:26<5:13:06,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14298/40080 [2:54:26<5:13:24,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14299/40080 [2:54:27<5:13:09,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14300/40080 [2:54:28<5:13:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3713, 'grad_norm': 2.796875, 'learning_rate': 1.7959747873160958e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2215.62, 'epoch': 1.43}
+ 36%|███████████��███████████████████████████████████████████████▌                                                                                                           | 14300/40080 [2:54:28<5:13:38,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14301/40080 [2:54:29<5:13:49,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14302/40080 [2:54:29<5:13:26,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14303/40080 [2:54:30<5:13:14,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14304/40080 [2:54:31<5:13:00,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14305/40080 [2:54:31<5:12:53,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14306/40080 [2:54:32<5:13:07,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14307/40080 [2:54:33<5:13:01,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14308/40080 [2:54:34<5:13:07,  1.37it/s] 36%|███████████████████████████████████████████████████████████▌                                                                                                           | 14309/40080 [2:54:34<5:13:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14310/40080 [2:54:35<5:13:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3707, 'grad_norm': 3.140625, 'learning_rate': 1.7950923523656755e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2543.73, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14310/40080 [2:54:35<5:13:36,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14311/40080 [2:54:36<5:13:43,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14312/40080 [2:54:37<5:12:58,  1.37it/s] 36%|█���█████████████████████████████████████████████████████████▋                                                                                                           | 14313/40080 [2:54:37<5:12:56,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14314/40080 [2:54:38<5:13:01,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14315/40080 [2:54:39<5:13:12,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14316/40080 [2:54:39<5:13:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14317/40080 [2:54:40<5:13:32,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14318/40080 [2:54:41<5:13:22,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14319/40080 [2:54:42<5:13:14,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14320/40080 [2:54:42<5:13:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3954, 'grad_norm': 2.8125, 'learning_rate': 1.794209581846378e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2530.03, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14320/40080 [2:54:42<5:13:18,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14321/40080 [2:54:43<5:13:01,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14322/40080 [2:54:44<5:13:09,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14323/40080 [2:54:45<5:12:44,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14324/40080 [2:54:45<5:13:13,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14325/40080 [2:54:46<5:12:36,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14326/40080 [2:54:47<5:13:23,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14327/40080 [2:54:47<5:13:06,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14328/40080 [2:54:48<5:12:55,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14329/40080 [2:54:49<5:13:09,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14330/40080 [2:54:50<5:13:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4088, 'grad_norm': 3.0, 'learning_rate': 1.7933264763016537e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2527.04, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14330/40080 [2:54:50<5:13:05,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14331/40080 [2:54:50<5:13:43,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14332/40080 [2:54:51<5:13:42,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14333/40080 [2:54:52<5:13:02,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14334/40080 [2:54:53<5:12:58,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14335/40080 [2:54:53<5:12:51,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14336/40080 [2:54:54<5:13:12,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14337/40080 [2:54:55<5:12:58,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14338/40080 [2:54:56<5:12:55,  1.37it/s] 36%|███████████████████████████████████████████████████████████▋                                                                                                           | 14339/40080 [2:54:56<5:12:52,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14340/40080 [2:54:57<5:12:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3975, 'grad_norm': 3.421875, 'learning_rate': 1.7924430362751583e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2648.37, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14340/40080 [2:54:57<5:12:31,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14341/40080 [2:54:58<5:13:03,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14342/40080 [2:54:58<5:13:34,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14343/40080 [2:54:59<5:13:14,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14344/40080 [2:55:00<5:13:07,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14345/40080 [2:55:01<5:12:59,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14346/40080 [2:55:01<5:13:10,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14347/40080 [2:55:02<5:12:57,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14348/40080 [2:55:03<5:12:48,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14349/40080 [2:55:04<5:12:33,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14350/40080 [2:55:04<5:12:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.346, 'grad_norm': 2.671875, 'learning_rate': 1.791559262310753e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2561.03, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14350/40080 [2:55:04<5:12:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14351/40080 [2:55:05<5:12:52,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14352/40080 [2:55:06<5:13:03,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14353/40080 [2:55:06<5:12:47,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14354/40080 [2:55:07<5:14:23,  1.36it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14355/40080 [2:55:08<5:13:31,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14356/40080 [2:55:09<5:12:51,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14357/40080 [2:55:09<5:13:00,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14358/40080 [2:55:10<5:13:30,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14359/40080 [2:55:11<5:13:12,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14360/40080 [2:55:12<5:13:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3716, 'grad_norm': 3.375, 'learning_rate': 1.7906751549525064e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2398.54, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14360/40080 [2:55:12<5:13:44,  1.37it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14361/40080 [2:55:12<5:16:08,  1.36it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14362/40080 [2:55:13<5:18:38,  1.35it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14363/40080 [2:55:14<5:19:53,  1.34it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14364/40080 [2:55:15<5:19:46,  1.34it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14365/40080 [2:55:15<5:17:45,  1.35it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14366/40080 [2:55:16<5:16:23,  1.35it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14367/40080 [2:55:17<5:15:20,  1.36it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14368/40080 [2:55:18<5:14:16,  1.36it/s] 36%|███████████████████████████████████████████████████████████▊                                                                                                           | 14369/40080 [2:55:18<5:14:01,  1.36it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14370/40080 [2:55:19<5:13:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.421, 'grad_norm': 3.046875, 'learning_rate': 1.7897907147446907e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.9, 'epoch': 1.43}
+ 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14370/40080 [2:55:19<5:13:20,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14371/40080 [2:55:20<5:13:54,  1.36it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14372/40080 [2:55:20<5:13:18,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14373/40080 [2:55:21<5:13:15,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14374/40080 [2:55:22<5:13:23,  1.37it/s] 36%|████████████████████████���██████████████████████████████████▉                                                                                                           | 14375/40080 [2:55:23<5:13:05,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14376/40080 [2:55:23<5:12:52,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14377/40080 [2:55:24<5:12:46,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14378/40080 [2:55:25<5:12:11,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14379/40080 [2:55:26<5:12:08,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14380/40080 [2:55:26<5:12:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3397, 'grad_norm': 2.328125, 'learning_rate': 1.788905942231784e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2608.94, 'epoch': 1.44}
+ 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14380/40080 [2:55:26<5:12:21,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14381/40080 [2:55:27<5:12:41,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14382/40080 [2:55:28<5:12:09,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14383/40080 [2:55:28<5:12:29,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14384/40080 [2:55:29<5:12:16,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14385/40080 [2:55:30<5:11:19,  1.38it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14386/40080 [2:55:31<5:11:28,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14387/40080 [2:55:31<5:11:27,  1.37it/s] 36%|██████████████���████████████████████████████████████████████▉                                                                                                           | 14388/40080 [2:55:32<5:11:50,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14389/40080 [2:55:33<5:11:37,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14390/40080 [2:55:34<5:12:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.385, 'grad_norm': 3.203125, 'learning_rate': 1.788020837958468e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.23, 'epoch': 1.44}
+ 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14390/40080 [2:55:34<5:12:12,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14391/40080 [2:55:34<5:12:37,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14392/40080 [2:55:35<5:12:20,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14393/40080 [2:55:36<5:12:20,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14394/40080 [2:55:36<5:12:10,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14395/40080 [2:55:37<5:11:54,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14396/40080 [2:55:38<5:11:25,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14397/40080 [2:55:39<5:11:33,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14398/40080 [2:55:39<5:11:51,  1.37it/s] 36%|███████████████████████████████████████████████████████████▉                                                                                                           | 14399/40080 [2:55:40<5:11:49,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14400/40080 [2:55:41<5:12:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4135, 'grad_norm': 2.84375, 'learning_rate': 1.7871354024696296e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2606.42, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████                                                                                                           | 14400/40080 [2:55:41<5:12:00,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14401/40080 [2:55:42<5:12:34,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14402/40080 [2:55:42<5:12:32,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14403/40080 [2:55:43<5:12:07,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14404/40080 [2:55:44<5:12:27,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14405/40080 [2:55:44<5:12:00,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14406/40080 [2:55:45<5:12:06,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14407/40080 [2:55:46<5:12:16,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14408/40080 [2:55:47<5:11:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14409/40080 [2:55:47<5:11:27,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14410/40080 [2:55:48<5:10:59,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4197, 'grad_norm': 3.484375, 'learning_rate': 1.7862496363103586e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2377.24, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████                                                                                                           | 14410/40080 [2:55:48<5:10:59,  1.38it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14411/40080 [2:55:49<5:11:26,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14412/40080 [2:55:50<5:11:24,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14413/40080 [2:55:50<5:10:49,  1.38it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14414/40080 [2:55:51<5:11:22,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14415/40080 [2:55:52<5:11:36,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14416/40080 [2:55:53<5:11:53,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14417/40080 [2:55:53<5:11:46,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14418/40080 [2:55:54<5:11:46,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14419/40080 [2:55:55<5:12:01,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14420/40080 [2:55:55<5:11:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4108, 'grad_norm': 3.90625, 'learning_rate': 1.7853635400259494e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2328.55, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████                                                                                                           | 14420/40080 [2:55:55<5:11:50,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14421/40080 [2:55:56<5:11:33,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14422/40080 [2:55:57<5:11:47,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14423/40080 [2:55:58<5:11:34,  1.37it/s] 36%|██████████████████████████████████████████████████████���█████                                                                                                           | 14424/40080 [2:55:58<5:11:59,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14425/40080 [2:55:59<5:12:15,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14426/40080 [2:56:00<5:11:42,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14427/40080 [2:56:01<5:11:20,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14428/40080 [2:56:01<5:11:15,  1.37it/s] 36%|████████████████████████████████████████████████████████████                                                                                                           | 14429/40080 [2:56:02<5:11:44,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14430/40080 [2:56:03<5:11:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4176, 'grad_norm': 3.75, 'learning_rate': 1.7844771141618996e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2507.0, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14430/40080 [2:56:03<5:11:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14431/40080 [2:56:03<5:11:53,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14432/40080 [2:56:04<5:11:28,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14433/40080 [2:56:05<5:11:24,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14434/40080 [2:56:06<5:10:55,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14435/40080 [2:56:06<5:11:05,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14436/40080 [2:56:07<5:10:58,  1.37it/s] 36%|████████████████████████████████████████���███████████████████▏                                                                                                          | 14437/40080 [2:56:08<5:11:33,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14438/40080 [2:56:09<5:11:30,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14439/40080 [2:56:09<5:11:40,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14440/40080 [2:56:10<5:11:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4028, 'grad_norm': 4.0625, 'learning_rate': 1.783590359263908e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2356.69, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14440/40080 [2:56:10<5:11:31,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14441/40080 [2:56:11<5:12:13,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14442/40080 [2:56:11<5:12:22,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14443/40080 [2:56:12<5:11:52,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14444/40080 [2:56:13<5:11:22,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14445/40080 [2:56:14<5:11:14,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14446/40080 [2:56:14<5:10:56,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14447/40080 [2:56:15<5:10:28,  1.38it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14448/40080 [2:56:16<5:10:45,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14449/40080 [2:56:17<5:10:41,  1.37it/s] 36%|█████████████████████��██████████████████████████████████████▏                                                                                                          | 14450/40080 [2:56:17<5:10:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.342, 'grad_norm': 2.59375, 'learning_rate': 1.7827032758778787e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2458.58, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14450/40080 [2:56:17<5:10:29,  1.38it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14451/40080 [2:56:18<5:10:53,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14452/40080 [2:56:19<5:10:38,  1.38it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14453/40080 [2:56:19<5:10:56,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14454/40080 [2:56:20<5:10:50,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14455/40080 [2:56:21<5:10:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14456/40080 [2:56:22<5:10:47,  1.37it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14457/40080 [2:56:22<5:10:15,  1.38it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14458/40080 [2:56:23<5:10:07,  1.38it/s] 36%|████████████████████████████████████████████████████████████▏                                                                                                          | 14459/40080 [2:56:24<5:10:12,  1.38it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14460/40080 [2:56:25<5:10:23,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3736, 'grad_norm': 3.625, 'learning_rate': 1.7818158645499157e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.45, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14460/40080 [2:56:25<5:10:23,  1.38it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14461/40080 [2:56:25<5:11:13,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14462/40080 [2:56:26<5:10:46,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14463/40080 [2:56:27<5:10:55,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14464/40080 [2:56:27<5:11:31,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14465/40080 [2:56:28<5:11:30,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14466/40080 [2:56:29<5:10:27,  1.38it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14467/40080 [2:56:30<5:10:14,  1.38it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14468/40080 [2:56:30<5:10:09,  1.38it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14469/40080 [2:56:31<5:10:16,  1.38it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14470/40080 [2:56:32<5:10:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3273, 'grad_norm': 2.28125, 'learning_rate': 1.7809281258263253e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2542.3, 'epoch': 1.44}
+ 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14470/40080 [2:56:32<5:10:41,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14471/40080 [2:56:33<5:11:06,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14472/40080 [2:56:33<5:10:36,  1.37it/s] 36%|███████████████████████████████████████████████████████��████▎                                                                                                          | 14473/40080 [2:56:34<5:11:07,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14474/40080 [2:56:35<5:11:09,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14475/40080 [2:56:35<5:11:32,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14476/40080 [2:56:36<5:11:22,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14477/40080 [2:56:37<5:10:38,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14478/40080 [2:56:38<5:10:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14479/40080 [2:56:38<5:10:29,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14480/40080 [2:56:39<5:11:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4091, 'grad_norm': 3.21875, 'learning_rate': 1.7800400602536165e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2391.44, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14480/40080 [2:56:39<5:11:05,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14481/40080 [2:56:40<5:11:32,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14482/40080 [2:56:41<5:11:39,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14483/40080 [2:56:41<5:11:18,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14484/40080 [2:56:42<5:11:08,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14485/40080 [2:56:43<5:10:43,  1.37it/s] 36%|████████████████████████████████████���███████████████████████▎                                                                                                          | 14486/40080 [2:56:43<5:10:24,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14487/40080 [2:56:44<5:10:32,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14488/40080 [2:56:45<5:10:31,  1.37it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14489/40080 [2:56:46<5:09:51,  1.38it/s] 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14490/40080 [2:56:46<5:10:10,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4127, 'grad_norm': 3.90625, 'learning_rate': 1.7791516683784986e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2525.83, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▎                                                                                                          | 14490/40080 [2:56:46<5:10:10,  1.38it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14491/40080 [2:56:47<5:10:08,  1.38it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14492/40080 [2:56:48<5:10:19,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14493/40080 [2:56:49<5:10:08,  1.38it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14494/40080 [2:56:49<5:10:20,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14495/40080 [2:56:50<5:10:47,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14496/40080 [2:56:51<5:10:47,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14497/40080 [2:56:52<5:11:06,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14498/40080 [2:56:52<5:11:17,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14499/40080 [2:56:53<5:11:15,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14500/40080 [2:56:54<5:11:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3897, 'grad_norm': 3.203125, 'learning_rate': 1.7782629507478822e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.37, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14500/40080 [2:56:54<5:11:12,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14501/40080 [2:56:54<5:11:03,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14502/40080 [2:56:55<5:10:57,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14503/40080 [2:56:56<5:11:20,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14504/40080 [2:56:57<5:11:04,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14505/40080 [2:56:57<5:11:08,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14506/40080 [2:56:58<5:10:59,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14507/40080 [2:56:59<5:11:00,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14508/40080 [2:57:00<5:10:30,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14509/40080 [2:57:00<5:10:47,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14510/40080 [2:57:01<5:10:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3746, 'grad_norm': 3.328125, 'learning_rate': 1.777373907908878e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2547.23, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14510/40080 [2:57:01<5:10:10,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14511/40080 [2:57:02<5:10:57,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14512/40080 [2:57:02<5:10:43,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14513/40080 [2:57:03<5:10:30,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14514/40080 [2:57:04<5:10:21,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14515/40080 [2:57:05<5:10:20,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14516/40080 [2:57:05<5:10:25,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14517/40080 [2:57:06<5:10:33,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14518/40080 [2:57:07<5:10:54,  1.37it/s] 36%|████████████████████████████████████████████████████████████▍                                                                                                          | 14519/40080 [2:57:08<5:10:38,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14520/40080 [2:57:08<5:10:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4196, 'grad_norm': 4.09375, 'learning_rate': 1.7764845404087973e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2428.02, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14520/40080 [2:57:08<5:10:05,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14521/40080 [2:57:09<5:10:15,  1.37it/s] 36%|█████████████████████████████████████████████████���██████████▌                                                                                                          | 14522/40080 [2:57:10<5:10:43,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14523/40080 [2:57:10<5:10:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14524/40080 [2:57:11<5:10:33,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14525/40080 [2:57:12<5:10:35,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14526/40080 [2:57:13<5:11:04,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14527/40080 [2:57:13<5:11:02,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14528/40080 [2:57:14<5:12:34,  1.36it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14529/40080 [2:57:15<5:14:12,  1.36it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14530/40080 [2:57:16<5:16:07,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3911, 'grad_norm': 3.421875, 'learning_rate': 1.775594848795151e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2559.47, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14530/40080 [2:57:16<5:16:07,  1.35it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14531/40080 [2:57:16<5:18:25,  1.34it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14532/40080 [2:57:17<5:15:15,  1.35it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14533/40080 [2:57:18<5:14:21,  1.35it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14534/40080 [2:57:19<5:13:30,  1.36it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14535/40080 [2:57:19<5:12:31,  1.36it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14536/40080 [2:57:20<5:11:29,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14537/40080 [2:57:21<5:11:10,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14538/40080 [2:57:21<5:10:26,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14539/40080 [2:57:22<5:10:22,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14540/40080 [2:57:23<5:09:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3852, 'grad_norm': 2.75, 'learning_rate': 1.774704833615649e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.01, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14540/40080 [2:57:23<5:09:46,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14541/40080 [2:57:24<5:10:02,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14542/40080 [2:57:24<5:09:33,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14543/40080 [2:57:25<5:09:29,  1.38it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14544/40080 [2:57:26<5:09:01,  1.38it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14545/40080 [2:57:27<5:08:42,  1.38it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14546/40080 [2:57:27<5:09:32,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14547/40080 [2:57:28<5:09:58,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14548/40080 [2:57:29<5:10:14,  1.37it/s] 36%|████████████████████████████████████████████████████████████▌                                                                                                          | 14549/40080 [2:57:29<5:10:16,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14550/40080 [2:57:30<5:10:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4694, 'grad_norm': 2.234375, 'learning_rate': 1.7738144954182018e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.62, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14550/40080 [2:57:30<5:10:25,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14551/40080 [2:57:31<5:10:09,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14552/40080 [2:57:32<5:10:24,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14553/40080 [2:57:32<5:10:21,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14554/40080 [2:57:33<5:10:40,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14555/40080 [2:57:34<5:09:53,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14556/40080 [2:57:35<5:09:19,  1.38it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14557/40080 [2:57:35<5:10:04,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14558/40080 [2:57:36<5:09:50,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14559/40080 [2:57:37<5:10:10,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14560/40080 [2:57:38<5:10:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4106, 'grad_norm': 4.34375, 'learning_rate': 1.772923834750918e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2558.92, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14560/40080 [2:57:38<5:10:04,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14561/40080 [2:57:38<5:10:56,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14562/40080 [2:57:39<5:10:32,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14563/40080 [2:57:40<5:10:22,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14564/40080 [2:57:40<5:10:14,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14565/40080 [2:57:41<5:10:03,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14566/40080 [2:57:42<5:10:06,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14567/40080 [2:57:43<5:10:07,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14568/40080 [2:57:43<5:10:00,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14569/40080 [2:57:44<5:09:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14570/40080 [2:57:45<5:10:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.377, 'grad_norm': 2.84375, 'learning_rate': 1.7720328521621043e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2495.57, 'epoch': 1.45}
+ 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14570/40080 [2:57:45<5:10:04,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14571/40080 [2:57:46<5:10:40,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14572/40080 [2:57:46<5:10:11,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14573/40080 [2:57:47<5:10:37,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14574/40080 [2:57:48<5:10:34,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14575/40080 [2:57:48<5:09:55,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14576/40080 [2:57:49<5:10:16,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14577/40080 [2:57:50<5:09:29,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14578/40080 [2:57:51<5:09:42,  1.37it/s] 36%|████████████████████████████████████████████████████████████▋                                                                                                          | 14579/40080 [2:57:51<5:09:21,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14580/40080 [2:57:52<5:09:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4332, 'grad_norm': 3.125, 'learning_rate': 1.771141548200266e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2532.99, 'epoch': 1.46}
+ 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14580/40080 [2:57:52<5:09:35,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14581/40080 [2:57:53<5:10:23,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14582/40080 [2:57:54<5:10:07,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14583/40080 [2:57:54<5:09:33,  1.37it/s] 36%|██████████████████████████��█████████████████████████████████▊                                                                                                          | 14584/40080 [2:57:55<5:09:10,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14585/40080 [2:57:56<5:08:38,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14586/40080 [2:57:56<5:09:22,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14587/40080 [2:57:57<5:09:30,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14588/40080 [2:57:58<5:09:09,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14589/40080 [2:57:59<5:09:23,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14590/40080 [2:57:59<5:09:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3615, 'grad_norm': 3.46875, 'learning_rate': 1.770249923414106e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2375.0, 'epoch': 1.46}
+ 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14590/40080 [2:57:59<5:09:23,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14591/40080 [2:58:00<5:10:13,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14592/40080 [2:58:01<5:09:49,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14593/40080 [2:58:02<5:09:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14594/40080 [2:58:02<5:10:09,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14595/40080 [2:58:03<5:09:45,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14596/40080 [2:58:04<5:08:49,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14597/40080 [2:58:04<5:08:18,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14598/40080 [2:58:05<5:08:40,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14599/40080 [2:58:06<5:08:35,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14600/40080 [2:58:07<5:08:30,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.417, 'grad_norm': 3.625, 'learning_rate': 1.769357978352526e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2435.03, 'epoch': 1.46}
+ 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14600/40080 [2:58:07<5:08:30,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14601/40080 [2:58:07<5:08:47,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14602/40080 [2:58:08<5:08:23,  1.38it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14603/40080 [2:58:09<5:08:54,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14604/40080 [2:58:10<5:08:49,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14605/40080 [2:58:10<5:09:31,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14606/40080 [2:58:11<5:09:43,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14607/40080 [2:58:12<5:10:01,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14608/40080 [2:58:12<5:09:14,  1.37it/s] 36%|████████████████████████████████████████████████████████████▊                                                                                                          | 14609/40080 [2:58:13<5:09:32,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14610/40080 [2:58:14<5:09:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3695, 'grad_norm': 3.328125, 'learning_rate': 1.7684657135646224e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2424.58, 'epoch': 1.46}
+ 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14610/40080 [2:58:14<5:09:27,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14611/40080 [2:58:15<5:09:19,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14612/40080 [2:58:15<5:09:21,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14613/40080 [2:58:16<5:09:00,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14614/40080 [2:58:17<5:08:37,  1.38it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14615/40080 [2:58:18<5:08:56,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14616/40080 [2:58:18<5:09:17,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14617/40080 [2:58:19<5:09:29,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14618/40080 [2:58:20<5:09:09,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14619/40080 [2:58:21<5:09:25,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14620/40080 [2:58:21<5:08:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3703, 'grad_norm': 3.59375, 'learning_rate': 1.7675731295996906e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.49, 'epoch': 1.46}
+ 36%|█████████████████████████████████████████��██████████████████▉                                                                                                          | 14620/40080 [2:58:21<5:08:48,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14621/40080 [2:58:22<5:09:17,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14622/40080 [2:58:23<5:08:52,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14623/40080 [2:58:23<5:08:45,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14624/40080 [2:58:24<5:08:50,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14625/40080 [2:58:25<5:08:51,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14626/40080 [2:58:26<5:08:53,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14627/40080 [2:58:26<5:08:52,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14628/40080 [2:58:27<5:09:05,  1.37it/s] 36%|████████████████████████████████████████████████████████████▉                                                                                                          | 14629/40080 [2:58:28<5:09:05,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14630/40080 [2:58:29<5:08:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3275, 'grad_norm': 3.109375, 'learning_rate': 1.7666802270072214e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.69, 'epoch': 1.46}
+ 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14630/40080 [2:58:29<5:08:43,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14631/40080 [2:58:29<5:09:11,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14632/40080 [2:58:30<5:09:18,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14633/40080 [2:58:31<5:09:16,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14634/40080 [2:58:31<5:08:36,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14635/40080 [2:58:32<5:08:46,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14636/40080 [2:58:33<5:09:07,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14637/40080 [2:58:34<5:09:04,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14638/40080 [2:58:34<5:09:24,  1.37it/s] 37%|████████████████████████████████████████████████████████████▉                                                                                                          | 14639/40080 [2:58:35<5:09:13,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14640/40080 [2:58:36<5:09:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3766, 'grad_norm': 3.828125, 'learning_rate': 1.7657870063369025e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.29, 'epoch': 1.46}
+ 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14640/40080 [2:58:36<5:09:18,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14641/40080 [2:58:37<5:09:36,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14642/40080 [2:58:37<5:08:48,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14643/40080 [2:58:38<5:08:11,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14644/40080 [2:58:39<5:08:18,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14645/40080 [2:58:39<5:08:16,  1.38it/s] 37%|██���██████████████████████████████████████████████████████████                                                                                                          | 14646/40080 [2:58:40<5:08:00,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14647/40080 [2:58:41<5:07:44,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14648/40080 [2:58:42<5:07:48,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14649/40080 [2:58:42<5:07:32,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14650/40080 [2:58:43<5:08:04,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3736, 'grad_norm': 3.375, 'learning_rate': 1.764893468138616e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.99, 'epoch': 1.46}
+ 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14650/40080 [2:58:43<5:08:04,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14651/40080 [2:58:44<5:08:19,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14652/40080 [2:58:45<5:08:42,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14653/40080 [2:58:45<5:08:30,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14654/40080 [2:58:46<5:08:06,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14655/40080 [2:58:47<5:07:28,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14656/40080 [2:58:47<5:08:07,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14657/40080 [2:58:48<5:08:52,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14658/40080 [2:58:49<5:08:39,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14659/40080 [2:58:50<5:08:29,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14660/40080 [2:58:50<5:08:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3818, 'grad_norm': 3.40625, 'learning_rate': 1.763999612962442e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2599.83, 'epoch': 1.46}
+ 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14660/40080 [2:58:50<5:08:21,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14661/40080 [2:58:51<5:08:16,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14662/40080 [2:58:52<5:08:22,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14663/40080 [2:58:53<5:08:10,  1.37it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14664/40080 [2:58:53<5:07:54,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14665/40080 [2:58:54<5:07:40,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14666/40080 [2:58:55<5:08:00,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14667/40080 [2:58:55<5:07:57,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14668/40080 [2:58:56<5:07:50,  1.38it/s] 37%|█████████████████████████████████████████████████████████████                                                                                                          | 14669/40080 [2:58:57<5:07:42,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14670/40080 [2:58:58<5:08:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.399, 'grad_norm': 3.453125, 'learning_rate': 1.7631054413586526e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.43, 'epoch': 1.46}
+ 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14670/40080 [2:58:58<5:08:04,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14671/40080 [2:58:58<5:08:31,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14672/40080 [2:58:59<5:08:19,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14673/40080 [2:59:00<5:07:40,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14674/40080 [2:59:01<5:08:04,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14675/40080 [2:59:01<5:07:50,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14676/40080 [2:59:02<5:09:53,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14677/40080 [2:59:03<5:09:45,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14678/40080 [2:59:03<5:09:27,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14679/40080 [2:59:04<5:08:54,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14680/40080 [2:59:05<5:08:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4223, 'grad_norm': 2.984375, 'learning_rate': 1.762210953877717e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.02, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14680/40080 [2:59:05<5:08:42,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14681/40080 [2:59:06<5:09:11,  1.37it/s] 37%|███████��█████████████████████████████████████████████████████▏                                                                                                         | 14682/40080 [2:59:06<5:08:52,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14683/40080 [2:59:07<5:08:50,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14684/40080 [2:59:08<5:08:58,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14685/40080 [2:59:09<5:09:02,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14686/40080 [2:59:09<5:08:56,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14687/40080 [2:59:10<5:08:58,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14688/40080 [2:59:11<5:08:45,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14689/40080 [2:59:11<5:09:05,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14690/40080 [2:59:12<5:09:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3965, 'grad_norm': 3.546875, 'learning_rate': 1.7613161510702984e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.41, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14690/40080 [2:59:12<5:09:05,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14691/40080 [2:59:13<5:09:06,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14692/40080 [2:59:14<5:09:13,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14693/40080 [2:59:14<5:09:12,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14694/40080 [2:59:15<5:09:19,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14695/40080 [2:59:16<5:08:39,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14696/40080 [2:59:17<5:09:06,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14697/40080 [2:59:17<5:08:36,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14698/40080 [2:59:18<5:08:32,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14699/40080 [2:59:19<5:08:37,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14700/40080 [2:59:20<5:08:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.387, 'grad_norm': 3.390625, 'learning_rate': 1.7604210334872535e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.81, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▏                                                                                                         | 14700/40080 [2:59:20<5:08:03,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14701/40080 [2:59:20<5:08:10,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14702/40080 [2:59:21<5:08:03,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14703/40080 [2:59:22<5:08:29,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14704/40080 [2:59:22<5:08:34,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14705/40080 [2:59:23<5:08:17,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14706/40080 [2:59:24<5:08:01,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14707/40080 [2:59:25<5:08:26,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14708/40080 [2:59:25<5:08:13,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14709/40080 [2:59:26<5:07:47,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14710/40080 [2:59:27<5:08:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3823, 'grad_norm': 3.859375, 'learning_rate': 1.759525601679633e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2365.33, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14710/40080 [2:59:27<5:08:08,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14711/40080 [2:59:28<5:08:08,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14712/40080 [2:59:28<5:07:59,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14713/40080 [2:59:29<5:07:51,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14714/40080 [2:59:30<5:08:16,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14715/40080 [2:59:31<6:01:08,  1.17it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14716/40080 [2:59:32<5:44:42,  1.23it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14717/40080 [2:59:32<5:33:19,  1.27it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14718/40080 [2:59:33<5:25:53,  1.30it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14719/40080 [2:59:34<5:20:16,  1.32it/s] 37%|██████████████████████████████████���██████████████████████████▎                                                                                                         | 14720/40080 [2:59:35<5:16:23,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3737, 'grad_norm': 3.59375, 'learning_rate': 1.758629856198682e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2322.62, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14720/40080 [2:59:35<5:16:23,  1.34it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14721/40080 [2:59:35<5:14:05,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14722/40080 [2:59:36<5:11:57,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14723/40080 [2:59:37<5:10:51,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14724/40080 [2:59:37<5:09:17,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14725/40080 [2:59:38<5:08:37,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14726/40080 [2:59:39<5:09:05,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14727/40080 [2:59:40<5:08:24,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14728/40080 [2:59:40<5:09:09,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▎                                                                                                         | 14729/40080 [2:59:41<5:19:13,  1.32it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14730/40080 [2:59:42<5:18:26,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.3295, 'grad_norm': 3.015625, 'learning_rate': 1.7577337975958365e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2382.1, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14730/40080 [2:59:42<5:18:26,  1.33it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14731/40080 [2:59:43<5:19:44,  1.32it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14732/40080 [2:59:43<5:20:35,  1.32it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14733/40080 [2:59:44<5:21:12,  1.32it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14734/40080 [2:59:45<5:20:20,  1.32it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14735/40080 [2:59:46<5:16:42,  1.33it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14736/40080 [2:59:46<5:13:29,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14737/40080 [2:59:47<5:12:12,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14738/40080 [2:59:48<5:10:39,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14739/40080 [2:59:49<5:09:26,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14740/40080 [2:59:49<5:08:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4049, 'grad_norm': 3.125, 'learning_rate': 1.7568374264227278e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2532.38, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14740/40080 [2:59:49<5:08:57,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14741/40080 [2:59:50<5:09:09,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14742/40080 [2:59:51<5:08:25,  1.37it/s] 37%|██████████████████████████████████████████████████��██████████▍                                                                                                         | 14743/40080 [2:59:51<5:07:52,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14744/40080 [2:59:52<5:07:46,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14745/40080 [2:59:53<5:07:39,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14746/40080 [2:59:54<5:07:07,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14747/40080 [2:59:54<5:06:26,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14748/40080 [2:59:55<5:06:30,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14749/40080 [2:59:56<5:06:08,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14750/40080 [2:59:57<5:06:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3773, 'grad_norm': 3.390625, 'learning_rate': 1.755940743231178e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2325.55, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14750/40080 [2:59:57<5:06:06,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14751/40080 [2:59:57<5:06:58,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14752/40080 [2:59:58<5:07:17,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14753/40080 [2:59:59<5:06:52,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14754/40080 [2:59:59<5:06:55,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14755/40080 [3:00:00<5:07:06,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14756/40080 [3:00:01<5:06:48,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14757/40080 [3:00:02<5:06:40,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14758/40080 [3:00:02<5:06:30,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▍                                                                                                         | 14759/40080 [3:00:03<5:08:49,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14760/40080 [3:00:04<5:08:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3936, 'grad_norm': 3.21875, 'learning_rate': 1.755043748573202e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2339.45, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14760/40080 [3:00:04<5:08:08,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14761/40080 [3:00:05<5:07:45,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14762/40080 [3:00:05<5:07:19,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14763/40080 [3:00:06<5:07:39,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14764/40080 [3:00:07<5:07:19,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14765/40080 [3:00:07<5:07:02,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14766/40080 [3:00:08<5:08:31,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14767/40080 [3:00:09<5:08:23,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14768/40080 [3:00:10<5:07:14,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14769/40080 [3:00:10<5:07:38,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14770/40080 [3:00:11<5:07:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.347, 'grad_norm': 3.34375, 'learning_rate': 1.7541464430010065e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2491.14, 'epoch': 1.47}
+ 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14770/40080 [3:00:11<5:07:23,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14771/40080 [3:00:12<5:07:32,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14772/40080 [3:00:13<5:07:59,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14773/40080 [3:00:13<5:09:10,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14774/40080 [3:00:14<5:09:37,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14775/40080 [3:00:15<5:09:30,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14776/40080 [3:00:16<5:08:55,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14777/40080 [3:00:16<5:08:21,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14778/40080 [3:00:17<5:08:10,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14779/40080 [3:00:18<5:07:29,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14780/40080 [3:00:18<5:07:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4098, 'grad_norm': 3.71875, 'learning_rate': 1.7532488270669886e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2424.67, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14780/40080 [3:00:18<5:07:32,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14781/40080 [3:00:19<5:07:28,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14782/40080 [3:00:20<5:08:07,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14783/40080 [3:00:21<5:07:11,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14784/40080 [3:00:21<5:06:48,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14785/40080 [3:00:22<5:07:04,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14786/40080 [3:00:23<5:06:58,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14787/40080 [3:00:24<5:08:29,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14788/40080 [3:00:24<5:10:28,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▌                                                                                                         | 14789/40080 [3:00:25<5:09:23,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14790/40080 [3:00:26<5:08:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.376, 'grad_norm': 3.625, 'learning_rate': 1.7523509013237374e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2711.66, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14790/40080 [3:00:26<5:08:38,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14791/40080 [3:00:27<5:08:51,  1.36it/s] 37%|██████████���██████████████████████████████████████████████████▋                                                                                                         | 14792/40080 [3:00:27<5:07:55,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14793/40080 [3:00:28<5:07:38,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14794/40080 [3:00:29<5:07:34,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14795/40080 [3:00:29<5:07:32,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14796/40080 [3:00:30<5:07:25,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14797/40080 [3:00:31<5:06:42,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14798/40080 [3:00:32<5:06:59,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14799/40080 [3:00:32<5:06:48,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14800/40080 [3:00:33<5:07:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3495, 'grad_norm': 3.328125, 'learning_rate': 1.7514526663240327e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.48, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14800/40080 [3:00:33<5:07:17,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14801/40080 [3:00:34<5:07:23,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14802/40080 [3:00:35<5:07:20,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14803/40080 [3:00:35<5:07:17,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14804/40080 [3:00:36<5:10:04,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14805/40080 [3:00:37<5:08:59,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14806/40080 [3:00:37<5:08:14,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14807/40080 [3:00:38<5:08:12,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14808/40080 [3:00:39<5:10:27,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14809/40080 [3:00:40<5:12:10,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14810/40080 [3:00:40<5:09:56,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3946, 'grad_norm': 3.625, 'learning_rate': 1.7505541226208445e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2500.56, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14810/40080 [3:00:40<5:09:56,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14811/40080 [3:00:41<5:09:52,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14812/40080 [3:00:42<5:08:44,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14813/40080 [3:00:43<5:07:58,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14814/40080 [3:00:43<5:06:55,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14815/40080 [3:00:44<5:06:05,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14816/40080 [3:00:45<5:05:53,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14817/40080 [3:00:46<5:06:07,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14818/40080 [3:00:46<5:05:51,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▋                                                                                                         | 14819/40080 [3:00:47<5:06:24,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14820/40080 [3:00:48<5:05:38,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3895, 'grad_norm': 4.21875, 'learning_rate': 1.7496552707673323e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2558.36, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14820/40080 [3:00:48<5:05:38,  1.38it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14821/40080 [3:00:48<5:06:38,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14822/40080 [3:00:49<5:07:33,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14823/40080 [3:00:50<5:10:42,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14824/40080 [3:00:51<5:12:38,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14825/40080 [3:00:51<5:10:54,  1.35it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14826/40080 [3:00:52<5:08:57,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14827/40080 [3:00:53<5:09:00,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14828/40080 [3:00:54<5:09:27,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14829/40080 [3:00:54<5:10:36,  1.35it/s] 37%|█████████████████████████████████████��███████████████████████▊                                                                                                         | 14830/40080 [3:00:55<5:09:34,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4024, 'grad_norm': 4.21875, 'learning_rate': 1.7487561113168465e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.8, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14830/40080 [3:00:55<5:09:34,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14831/40080 [3:00:56<5:08:45,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14832/40080 [3:00:57<5:07:46,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14833/40080 [3:00:57<5:07:41,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14834/40080 [3:00:58<5:06:59,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14835/40080 [3:00:59<5:06:51,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14836/40080 [3:00:59<5:06:53,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14837/40080 [3:01:00<5:06:27,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14838/40080 [3:01:01<5:06:01,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14839/40080 [3:01:02<5:06:19,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14840/40080 [3:01:02<5:06:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3787, 'grad_norm': 3.421875, 'learning_rate': 1.7478566448229262e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2515.28, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14840/40080 [3:01:02<5:06:21,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14841/40080 [3:01:03<5:07:13,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14842/40080 [3:01:04<5:07:17,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14843/40080 [3:01:05<5:07:03,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14844/40080 [3:01:05<5:06:59,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14845/40080 [3:01:06<5:06:20,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14846/40080 [3:01:07<5:06:30,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14847/40080 [3:01:07<5:07:09,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14848/40080 [3:01:08<5:07:29,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▊                                                                                                         | 14849/40080 [3:01:09<5:06:58,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14850/40080 [3:01:10<5:07:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.401, 'grad_norm': 3.53125, 'learning_rate': 1.746956871839299e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2328.94, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14850/40080 [3:01:10<5:07:03,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14851/40080 [3:01:10<5:07:15,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14852/40080 [3:01:11<5:07:34,  1.37it/s] 37%|█████████████████████████████████████████████████████��███████▉                                                                                                         | 14853/40080 [3:01:12<5:09:40,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14854/40080 [3:01:13<5:08:54,  1.36it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14855/40080 [3:01:13<5:07:32,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14856/40080 [3:01:14<5:07:19,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14857/40080 [3:01:15<5:06:35,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14858/40080 [3:01:16<5:06:28,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14859/40080 [3:01:16<5:06:31,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14860/40080 [3:01:17<5:06:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4052, 'grad_norm': 3.15625, 'learning_rate': 1.746056792919882e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2512.94, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14860/40080 [3:01:17<5:06:23,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14861/40080 [3:01:18<5:07:03,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14862/40080 [3:01:18<5:06:10,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14863/40080 [3:01:19<5:06:20,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14864/40080 [3:01:20<5:06:23,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14865/40080 [3:01:21<5:06:14,  1.37it/s] 37%|█████████████████████████���███████████████████████████████████▉                                                                                                         | 14866/40080 [3:01:21<5:05:53,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14867/40080 [3:01:22<5:06:14,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14868/40080 [3:01:23<5:06:02,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14869/40080 [3:01:24<5:05:44,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14870/40080 [3:01:24<5:05:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4168, 'grad_norm': 3.453125, 'learning_rate': 1.7451564086187804e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2592.81, 'epoch': 1.48}
+ 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14870/40080 [3:01:24<5:05:42,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14871/40080 [3:01:25<5:06:11,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14872/40080 [3:01:26<5:06:06,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14873/40080 [3:01:26<5:06:50,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14874/40080 [3:01:27<5:06:22,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14875/40080 [3:01:28<5:06:08,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14876/40080 [3:01:29<5:05:44,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14877/40080 [3:01:29<5:05:54,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14878/40080 [3:01:30<5:06:11,  1.37it/s] 37%|█████████████████████████████████████████████████████████████▉                                                                                                         | 14879/40080 [3:01:31<5:06:03,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14880/40080 [3:01:32<5:06:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4032, 'grad_norm': 4.03125, 'learning_rate': 1.7442557194902868e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2505.58, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14880/40080 [3:01:32<5:06:00,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14881/40080 [3:01:32<5:07:18,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14882/40080 [3:01:33<5:06:35,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14883/40080 [3:01:34<5:06:44,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14884/40080 [3:01:34<5:06:30,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14885/40080 [3:01:35<5:09:15,  1.36it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14886/40080 [3:01:36<5:10:30,  1.35it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14887/40080 [3:01:37<5:11:54,  1.35it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14888/40080 [3:01:37<5:13:08,  1.34it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14889/40080 [3:01:38<5:13:23,  1.34it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14890/40080 [3:01:39<5:12:40,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3497, 'grad_norm': 3.625, 'learning_rate': 1.7433547260888828e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2436.34, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14890/40080 [3:01:39<5:12:40,  1.34it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14891/40080 [3:01:40<5:10:41,  1.35it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14892/40080 [3:01:40<5:08:44,  1.36it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14893/40080 [3:01:41<5:08:25,  1.36it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14894/40080 [3:01:42<5:07:44,  1.36it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14895/40080 [3:01:43<5:07:29,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14896/40080 [3:01:43<5:06:28,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14897/40080 [3:01:44<5:06:18,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14898/40080 [3:01:45<5:06:03,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14899/40080 [3:01:46<5:06:32,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14900/40080 [3:01:46<5:06:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4103, 'grad_norm': 3.1875, 'learning_rate': 1.742453428969236e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.9, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14900/40080 [3:01:46<5:06:15,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14901/40080 [3:01:47<5:06:43,  1.37it/s] 37%|█████████████���████████████████████████████████████████████████                                                                                                         | 14902/40080 [3:01:48<5:06:08,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14903/40080 [3:01:48<5:06:22,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14904/40080 [3:01:49<5:06:14,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14905/40080 [3:01:50<5:05:12,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14906/40080 [3:01:51<5:05:10,  1.37it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14907/40080 [3:01:51<5:05:00,  1.38it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14908/40080 [3:01:52<5:04:35,  1.38it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14909/40080 [3:01:53<5:05:04,  1.38it/s] 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14910/40080 [3:01:54<5:05:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4364, 'grad_norm': 3.984375, 'learning_rate': 1.7415518286862018e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.47, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████                                                                                                         | 14910/40080 [3:01:54<5:05:06,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14911/40080 [3:01:54<5:05:52,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14912/40080 [3:01:55<5:05:55,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14913/40080 [3:01:56<5:06:22,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14914/40080 [3:01:56<5:07:13,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14915/40080 [3:01:57<5:06:12,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14916/40080 [3:01:58<5:06:06,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14917/40080 [3:01:59<5:06:15,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14918/40080 [3:01:59<5:05:49,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14919/40080 [3:02:00<5:06:18,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14920/40080 [3:02:01<5:06:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3598, 'grad_norm': 2.734375, 'learning_rate': 1.7406499257948218e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2579.24, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14920/40080 [3:02:01<5:06:34,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14921/40080 [3:02:02<5:07:18,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14922/40080 [3:02:02<5:07:12,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14923/40080 [3:02:03<5:06:58,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14924/40080 [3:02:04<5:06:27,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14925/40080 [3:02:04<5:05:26,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14926/40080 [3:02:05<5:05:19,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14927/40080 [3:02:06<5:05:43,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14928/40080 [3:02:07<5:06:07,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14929/40080 [3:02:07<5:09:34,  1.35it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14930/40080 [3:02:08<5:08:21,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4074, 'grad_norm': 2.46875, 'learning_rate': 1.7397477208503233e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2455.61, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14930/40080 [3:02:08<5:08:21,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14931/40080 [3:02:09<5:08:15,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14932/40080 [3:02:10<5:07:15,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14933/40080 [3:02:10<5:07:08,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14934/40080 [3:02:11<5:06:23,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14935/40080 [3:02:12<5:05:46,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14936/40080 [3:02:13<5:05:37,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14937/40080 [3:02:13<5:05:43,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14938/40080 [3:02:14<5:06:07,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▏                                                                                                        | 14939/40080 [3:02:15<5:06:33,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14940/40080 [3:02:15<5:05:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3815, 'grad_norm': 3.453125, 'learning_rate': 1.738845214408121e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2273.67, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14940/40080 [3:02:15<5:05:41,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14941/40080 [3:02:16<5:06:02,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14942/40080 [3:02:17<5:06:07,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14943/40080 [3:02:18<5:06:05,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14944/40080 [3:02:18<5:05:34,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14945/40080 [3:02:19<5:05:59,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14946/40080 [3:02:20<5:05:37,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14947/40080 [3:02:21<5:05:59,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14948/40080 [3:02:21<5:06:16,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14949/40080 [3:02:22<5:06:22,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14950/40080 [3:02:23<5:06:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3593, 'grad_norm': 2.515625, 'learning_rate': 1.7379424070238148e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2515.66, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████��███████▎                                                                                                        | 14950/40080 [3:02:23<5:06:36,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14951/40080 [3:02:23<5:06:35,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14952/40080 [3:02:24<5:06:40,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14953/40080 [3:02:25<5:06:05,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14954/40080 [3:02:26<5:05:28,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14955/40080 [3:02:26<5:05:01,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14956/40080 [3:02:27<5:04:04,  1.38it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14957/40080 [3:02:28<5:03:57,  1.38it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14958/40080 [3:02:29<5:04:12,  1.38it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14959/40080 [3:02:29<5:04:34,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14960/40080 [3:02:30<5:05:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.44, 'grad_norm': 3.21875, 'learning_rate': 1.7370392992531893e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2592.23, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14960/40080 [3:02:30<5:05:13,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14961/40080 [3:02:31<5:05:18,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14962/40080 [3:02:32<5:04:45,  1.37it/s] 37%|█████████████████���████████████████████████████████████████████▎                                                                                                        | 14963/40080 [3:02:32<5:05:01,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14964/40080 [3:02:33<5:04:27,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14965/40080 [3:02:34<5:04:59,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14966/40080 [3:02:34<5:04:48,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14967/40080 [3:02:35<5:05:21,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14968/40080 [3:02:36<5:05:17,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▎                                                                                                        | 14969/40080 [3:02:37<5:05:32,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14970/40080 [3:02:37<5:05:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3682, 'grad_norm': 2.953125, 'learning_rate': 1.7361358916522132e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2421.75, 'epoch': 1.49}
+ 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14970/40080 [3:02:37<5:05:19,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14971/40080 [3:02:38<5:05:27,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14972/40080 [3:02:39<5:05:20,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14973/40080 [3:02:40<5:05:25,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14974/40080 [3:02:40<5:05:14,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14975/40080 [3:02:41<5:05:33,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14976/40080 [3:02:42<5:05:29,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14977/40080 [3:02:42<5:05:59,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14978/40080 [3:02:43<5:05:44,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14979/40080 [3:02:44<5:05:57,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14980/40080 [3:02:45<5:06:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3788, 'grad_norm': 3.53125, 'learning_rate': 1.7352321847770422e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2491.22, 'epoch': 1.5}
+ 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14980/40080 [3:02:45<5:06:15,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14981/40080 [3:02:45<5:06:22,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14982/40080 [3:02:46<5:06:14,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14983/40080 [3:02:47<5:05:26,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14984/40080 [3:02:48<5:05:18,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14985/40080 [3:02:48<5:04:46,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14986/40080 [3:02:49<5:05:21,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14987/40080 [3:02:50<5:05:06,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14988/40080 [3:02:50<5:05:10,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14989/40080 [3:02:51<5:04:35,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14990/40080 [3:02:52<5:04:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3887, 'grad_norm': 2.96875, 'learning_rate': 1.734328179184014e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.86, 'epoch': 1.5}
+ 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14990/40080 [3:02:52<5:04:41,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14991/40080 [3:02:53<5:04:45,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14992/40080 [3:02:53<5:04:05,  1.38it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14993/40080 [3:02:54<5:03:53,  1.38it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14994/40080 [3:02:55<5:04:35,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14995/40080 [3:02:56<5:04:23,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14996/40080 [3:02:56<5:03:56,  1.38it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14997/40080 [3:02:57<5:04:27,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14998/40080 [3:02:58<5:04:11,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▍                                                                                                        | 14999/40080 [3:02:58<5:04:11,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15000/40080 [3:02:59<5:04:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3824, 'grad_norm': 3.484375, 'learning_rate': 1.7334238754296515e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2508.14, 'epoch': 1.5}
+ 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15000/40080 [3:02:59<5:04:31,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15001/40080 [3:03:00<5:04:53,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15002/40080 [3:03:01<5:04:38,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15003/40080 [3:03:01<5:04:18,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15004/40080 [3:03:02<5:04:40,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15005/40080 [3:03:03<5:05:16,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15006/40080 [3:03:04<5:04:53,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15007/40080 [3:03:04<5:04:38,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15008/40080 [3:03:05<5:04:17,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15009/40080 [3:03:06<5:04:27,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15010/40080 [3:03:07<5:04:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3574, 'grad_norm': 3.96875, 'learning_rate': 1.732519274070661e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2321.71, 'epoch': 1.5}
+ 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15010/40080 [3:03:07<5:04:22,  1.37it/s] 37%|██████████████████████████████████████████████████████���███████▌                                                                                                        | 15011/40080 [3:03:07<5:04:44,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15012/40080 [3:03:08<5:04:41,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15013/40080 [3:03:09<5:04:39,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15014/40080 [3:03:09<5:04:11,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15015/40080 [3:03:10<5:04:30,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15016/40080 [3:03:11<5:04:48,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15017/40080 [3:03:12<5:04:37,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15018/40080 [3:03:12<5:04:21,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15019/40080 [3:03:13<5:06:14,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15020/40080 [3:03:14<5:05:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3824, 'grad_norm': 3.234375, 'learning_rate': 1.7316143756639308e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2506.04, 'epoch': 1.5}
+ 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15020/40080 [3:03:14<5:05:41,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15021/40080 [3:03:15<5:06:02,  1.36it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15022/40080 [3:03:15<5:05:30,  1.37it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15023/40080 [3:03:16<5:06:56,  1.36it/s] 37%|████████████████���█████████████████████████████████████████████▌                                                                                                        | 15024/40080 [3:03:17<5:10:52,  1.34it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15025/40080 [3:03:18<5:12:06,  1.34it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15026/40080 [3:03:18<5:09:40,  1.35it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15027/40080 [3:03:19<5:10:45,  1.34it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15028/40080 [3:03:20<5:08:48,  1.35it/s] 37%|██████████████████████████████████████████████████████████████▌                                                                                                        | 15029/40080 [3:03:20<5:07:21,  1.36it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15030/40080 [3:03:21<5:06:50,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4269, 'grad_norm': 3.15625, 'learning_rate': 1.730709180766534e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2398.83, 'epoch': 1.5}
+ 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15030/40080 [3:03:21<5:06:50,  1.36it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15031/40080 [3:03:22<5:06:11,  1.36it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15032/40080 [3:03:23<5:05:49,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15033/40080 [3:03:23<5:05:13,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15034/40080 [3:03:24<5:05:14,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15035/40080 [3:03:25<5:04:56,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15036/40080 [3:03:26<5:04:29,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15037/40080 [3:03:26<5:04:41,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15038/40080 [3:03:27<5:04:26,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15039/40080 [3:03:28<5:04:25,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15040/40080 [3:03:28<5:03:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3515, 'grad_norm': 3.953125, 'learning_rate': 1.7298036899357247e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2436.11, 'epoch': 1.5}
+ 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15040/40080 [3:03:28<5:03:41,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15041/40080 [3:03:29<5:04:28,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15042/40080 [3:03:30<5:04:33,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15043/40080 [3:03:31<5:04:52,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15044/40080 [3:03:31<5:05:06,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15045/40080 [3:03:32<5:05:24,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15046/40080 [3:03:33<5:05:08,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15047/40080 [3:03:34<5:04:20,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15048/40080 [3:03:34<5:04:01,  1.37it/s] 38%|██████████████████████████████████████████████████████��███████▋                                                                                                        | 15049/40080 [3:03:35<5:03:55,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15050/40080 [3:03:36<5:03:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3068, 'grad_norm': 2.59375, 'learning_rate': 1.7288979037289398e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.2, 'epoch': 1.5}
+ 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15050/40080 [3:03:36<5:03:48,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15051/40080 [3:03:37<5:04:22,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15052/40080 [3:03:37<5:04:10,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15053/40080 [3:03:38<5:04:25,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15054/40080 [3:03:39<5:03:52,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15055/40080 [3:03:39<5:03:56,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15056/40080 [3:03:40<5:04:16,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15057/40080 [3:03:41<5:04:39,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15058/40080 [3:03:42<5:04:42,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▋                                                                                                        | 15059/40080 [3:03:42<5:05:08,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15060/40080 [3:03:43<5:04:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.393, 'grad_norm': 3.25, 'learning_rate': 1.727991822703798e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2419.24, 'epoch': 1.5}
+ 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15060/40080 [3:03:43<5:04:36,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15061/40080 [3:03:44<5:04:44,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15062/40080 [3:03:45<5:04:11,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15063/40080 [3:03:45<5:04:11,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15064/40080 [3:03:46<5:04:13,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15065/40080 [3:03:47<5:03:55,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15066/40080 [3:03:47<5:03:59,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15067/40080 [3:03:48<5:03:59,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15068/40080 [3:03:49<5:04:03,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15069/40080 [3:03:50<5:04:05,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15070/40080 [3:03:50<5:04:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3523, 'grad_norm': 3.734375, 'learning_rate': 1.7270854474180992e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2188.69, 'epoch': 1.5}
+ 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15070/40080 [3:03:50<5:04:10,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15071/40080 [3:03:51<5:04:45,  1.37it/s] 38%|███████████████████████████████████████████████████████���██████▊                                                                                                        | 15072/40080 [3:03:52<5:04:33,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15073/40080 [3:03:53<5:04:23,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15074/40080 [3:03:53<5:03:55,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15075/40080 [3:03:54<5:04:06,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15076/40080 [3:03:55<5:04:23,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15077/40080 [3:03:56<5:04:33,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15078/40080 [3:03:56<5:04:33,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15079/40080 [3:03:57<5:04:04,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15080/40080 [3:03:58<5:03:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3763, 'grad_norm': 3.578125, 'learning_rate': 1.7261787784298247e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2557.32, 'epoch': 1.51}
+ 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15080/40080 [3:03:58<5:03:58,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15081/40080 [3:03:58<5:04:44,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15082/40080 [3:03:59<5:04:35,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15083/40080 [3:04:00<5:04:20,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15084/40080 [3:04:01<5:03:48,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15085/40080 [3:04:01<5:03:30,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15086/40080 [3:04:02<5:03:24,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15087/40080 [3:04:03<5:04:34,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15088/40080 [3:04:04<5:04:44,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▊                                                                                                        | 15089/40080 [3:04:04<5:04:25,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15090/40080 [3:04:05<5:04:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4171, 'grad_norm': 3.265625, 'learning_rate': 1.725271816297137e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2519.01, 'epoch': 1.51}
+ 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15090/40080 [3:04:05<5:04:05,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15091/40080 [3:04:06<5:03:54,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15092/40080 [3:04:06<5:02:56,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15093/40080 [3:04:07<5:03:04,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15094/40080 [3:04:08<5:03:10,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15095/40080 [3:04:09<5:02:55,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15096/40080 [3:04:09<5:02:34,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15097/40080 [3:04:10<5:02:37,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15098/40080 [3:04:11<5:02:35,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15099/40080 [3:04:12<5:02:17,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15100/40080 [3:04:12<5:02:20,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4131, 'grad_norm': 3.734375, 'learning_rate': 1.7243645615783786e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.78, 'epoch': 1.51}
+ 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15100/40080 [3:04:12<5:02:20,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15101/40080 [3:04:13<5:02:46,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15102/40080 [3:04:14<5:02:39,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15103/40080 [3:04:14<5:03:06,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15104/40080 [3:04:15<5:02:27,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15105/40080 [3:04:16<5:02:59,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15106/40080 [3:04:17<5:02:45,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15107/40080 [3:04:17<5:02:36,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15108/40080 [3:04:18<5:03:08,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15109/40080 [3:04:19<5:03:07,  1.37it/s] 38%|██████████████████████████████████████████████████████���███████▉                                                                                                        | 15110/40080 [3:04:20<5:02:28,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4079, 'grad_norm': 3.4375, 'learning_rate': 1.7234570148320718e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2540.83, 'epoch': 1.51}
+ 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15110/40080 [3:04:20<5:02:28,  1.38it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15111/40080 [3:04:20<5:02:59,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15112/40080 [3:04:21<5:02:55,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15113/40080 [3:04:22<5:03:25,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15114/40080 [3:04:22<5:03:16,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15115/40080 [3:04:23<5:03:27,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15116/40080 [3:04:24<5:03:13,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15117/40080 [3:04:25<5:03:45,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15118/40080 [3:04:25<5:03:21,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15119/40080 [3:04:26<5:03:18,  1.37it/s] 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15120/40080 [3:04:27<5:03:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4316, 'grad_norm': 3.890625, 'learning_rate': 1.72254917661692e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2702.46, 'epoch': 1.51}
+ 38%|██████████████████████████████████████████████████████████████▉                                                                                                        | 15120/40080 [3:04:27<5:03:25,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15121/40080 [3:04:28<5:03:30,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15122/40080 [3:04:28<5:03:09,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15123/40080 [3:04:29<5:02:45,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15124/40080 [3:04:30<5:02:03,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15125/40080 [3:04:30<5:02:20,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15126/40080 [3:04:31<5:02:10,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15127/40080 [3:04:32<5:02:41,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15128/40080 [3:04:33<5:02:28,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15129/40080 [3:04:33<5:02:06,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15130/40080 [3:04:34<5:01:58,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3961, 'grad_norm': 3.8125, 'learning_rate': 1.7216410474918035e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.28, 'epoch': 1.51}
+ 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15130/40080 [3:04:34<5:01:58,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15131/40080 [3:04:35<5:02:33,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15132/40080 [3:04:36<5:02:56,  1.37it/s] 38%|█████████████████████████████████████████████████████���█████████                                                                                                        | 15133/40080 [3:04:36<5:02:25,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15134/40080 [3:04:37<5:02:16,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15135/40080 [3:04:38<5:02:37,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15136/40080 [3:04:38<5:02:25,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15137/40080 [3:04:39<5:02:19,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15138/40080 [3:04:40<5:01:42,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15139/40080 [3:04:41<5:02:07,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15140/40080 [3:04:41<5:01:47,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4156, 'grad_norm': 3.6875, 'learning_rate': 1.7207326280157843e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.55, 'epoch': 1.51}
+ 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15140/40080 [3:04:41<5:01:47,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15141/40080 [3:04:42<5:02:13,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15142/40080 [3:04:43<5:02:06,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15143/40080 [3:04:44<5:02:00,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15144/40080 [3:04:44<5:02:01,  1.38it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15145/40080 [3:04:45<5:02:04,  1.38it/s] 38%|███████████████��███████████████████████████████████████████████                                                                                                        | 15146/40080 [3:04:46<5:03:09,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15147/40080 [3:04:46<5:03:04,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15148/40080 [3:04:47<5:02:42,  1.37it/s] 38%|███████████████████████████████████████████████████████████████                                                                                                        | 15149/40080 [3:04:48<5:02:39,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15150/40080 [3:04:49<5:02:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4052, 'grad_norm': 3.921875, 'learning_rate': 1.7198239187481023e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2336.49, 'epoch': 1.51}
+ 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15150/40080 [3:04:49<5:02:24,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15151/40080 [3:04:49<5:02:50,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15152/40080 [3:04:50<5:02:42,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15153/40080 [3:04:51<5:02:54,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15154/40080 [3:04:52<5:02:42,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15155/40080 [3:04:52<5:02:33,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15156/40080 [3:04:53<5:02:35,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15157/40080 [3:04:54<5:02:34,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15158/40080 [3:04:54<5:02:44,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15159/40080 [3:04:55<5:03:04,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15160/40080 [3:04:56<5:02:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3502, 'grad_norm': 2.8125, 'learning_rate': 1.7189149202481757e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2466.51, 'epoch': 1.51}
+ 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15160/40080 [3:04:56<5:02:33,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15161/40080 [3:04:57<5:03:21,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15162/40080 [3:04:57<5:03:21,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15163/40080 [3:04:58<5:02:58,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15164/40080 [3:04:59<5:02:43,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15165/40080 [3:05:00<5:02:40,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15166/40080 [3:05:00<5:02:26,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15167/40080 [3:05:01<5:02:28,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15168/40080 [3:05:02<5:02:20,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15169/40080 [3:05:03<5:03:09,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15170/40080 [3:05:03<5:02:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4123, 'grad_norm': 4.34375, 'learning_rate': 1.7180056330756e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2307.65, 'epoch': 1.51}
+ 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15170/40080 [3:05:03<5:02:53,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15171/40080 [3:05:04<5:03:22,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15172/40080 [3:05:05<5:03:27,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15173/40080 [3:05:05<5:03:02,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15174/40080 [3:05:06<5:02:46,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15175/40080 [3:05:07<5:03:29,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15176/40080 [3:05:08<5:03:29,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15177/40080 [3:05:08<5:03:22,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15178/40080 [3:05:09<5:03:31,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▏                                                                                                       | 15179/40080 [3:05:10<5:03:10,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15180/40080 [3:05:11<5:02:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3497, 'grad_norm': 3.359375, 'learning_rate': 1.7170960577901496e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.81, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15180/40080 [3:05:11<5:02:55,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15181/40080 [3:05:11<5:03:11,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15182/40080 [3:05:12<5:03:06,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15183/40080 [3:05:13<5:03:33,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15184/40080 [3:05:13<5:03:21,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15185/40080 [3:05:14<5:03:17,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15186/40080 [3:05:15<5:03:03,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15187/40080 [3:05:16<5:02:56,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15188/40080 [3:05:16<5:02:48,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15189/40080 [3:05:17<5:03:17,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15190/40080 [3:05:18<5:03:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3792, 'grad_norm': 2.890625, 'learning_rate': 1.7161861949517753e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2513.9, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15190/40080 [3:05:18<5:03:16,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15191/40080 [3:05:19<5:03:12,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15192/40080 [3:05:19<5:02:25,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15193/40080 [3:05:20<5:02:12,  1.37it/s] 38%|███████████████████���███████████████████████████████████████████▎                                                                                                       | 15194/40080 [3:05:21<5:01:59,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15195/40080 [3:05:22<5:02:28,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15196/40080 [3:05:22<5:02:27,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15197/40080 [3:05:23<5:02:19,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15198/40080 [3:05:24<5:01:47,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15199/40080 [3:05:24<5:02:10,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15200/40080 [3:05:25<5:01:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3534, 'grad_norm': 3.0625, 'learning_rate': 1.715276045120606e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.09, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15200/40080 [3:05:25<5:01:55,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15201/40080 [3:05:26<5:02:55,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15202/40080 [3:05:27<5:02:55,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15203/40080 [3:05:27<5:02:39,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15204/40080 [3:05:28<5:02:42,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15205/40080 [3:05:29<5:02:33,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15206/40080 [3:05:30<5:02:38,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15207/40080 [3:05:30<5:02:01,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15208/40080 [3:05:31<5:01:54,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▎                                                                                                       | 15209/40080 [3:05:32<5:02:06,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15210/40080 [3:05:32<5:02:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3773, 'grad_norm': 3.078125, 'learning_rate': 1.7143656088569464e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2409.16, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15210/40080 [3:05:32<5:02:40,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15211/40080 [3:05:33<5:02:55,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15212/40080 [3:05:34<5:03:19,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15213/40080 [3:05:35<5:02:39,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15214/40080 [3:05:35<5:01:54,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15215/40080 [3:05:36<5:02:13,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15216/40080 [3:05:37<5:01:46,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15217/40080 [3:05:38<5:01:51,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15218/40080 [3:05:38<5:01:32,  1.37it/s] 38%|███████████████████████████████████████���███████████████████████▍                                                                                                       | 15219/40080 [3:05:39<5:00:43,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15220/40080 [3:05:40<5:01:03,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3718, 'grad_norm': 3.796875, 'learning_rate': 1.7134548867212784e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2386.56, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15220/40080 [3:05:40<5:01:03,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15221/40080 [3:05:40<5:01:45,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15222/40080 [3:05:41<5:01:36,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15223/40080 [3:05:42<5:01:54,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15224/40080 [3:05:43<5:02:14,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15225/40080 [3:05:43<5:02:23,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15226/40080 [3:05:44<5:02:15,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15227/40080 [3:05:45<5:02:28,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15228/40080 [3:05:46<5:02:00,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15229/40080 [3:05:46<5:01:14,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15230/40080 [3:05:47<5:01:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3777, 'grad_norm': 2.828125, 'learning_rate': 1.7125438792742578e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2354.55, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15230/40080 [3:05:47<5:01:28,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15231/40080 [3:05:48<5:01:47,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15232/40080 [3:05:48<5:01:45,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15233/40080 [3:05:49<5:02:25,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15234/40080 [3:05:50<5:02:19,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15235/40080 [3:05:51<5:01:47,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15236/40080 [3:05:51<5:01:20,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15237/40080 [3:05:52<5:01:34,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15238/40080 [3:05:53<5:01:06,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▍                                                                                                       | 15239/40080 [3:05:54<5:01:26,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15240/40080 [3:05:54<5:01:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4081, 'grad_norm': 3.03125, 'learning_rate': 1.7116325870767192e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2435.87, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15240/40080 [3:05:54<5:01:14,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15241/40080 [3:05:55<5:02:03,  1.37it/s] 38%|███████████████████���███████████████████████████████████████████▌                                                                                                       | 15242/40080 [3:05:56<5:02:14,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15243/40080 [3:05:56<5:01:36,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15244/40080 [3:05:57<5:01:43,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15245/40080 [3:05:58<5:02:26,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15246/40080 [3:05:59<5:02:16,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15247/40080 [3:05:59<5:02:36,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15248/40080 [3:06:00<5:03:02,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15249/40080 [3:06:01<5:02:32,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15250/40080 [3:06:02<5:02:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3687, 'grad_norm': 3.109375, 'learning_rate': 1.710721010689669e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2706.45, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15250/40080 [3:06:02<5:02:16,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15251/40080 [3:06:02<5:02:18,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15252/40080 [3:06:03<5:01:29,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15253/40080 [3:06:04<5:01:51,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15254/40080 [3:06:05<5:00:57,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15255/40080 [3:06:05<5:00:40,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15256/40080 [3:06:06<5:01:01,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15257/40080 [3:06:07<5:00:36,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15258/40080 [3:06:07<5:01:24,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15259/40080 [3:06:08<5:01:32,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15260/40080 [3:06:09<5:01:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3586, 'grad_norm': 2.6875, 'learning_rate': 1.7098091506742926e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.12, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15260/40080 [3:06:09<5:01:41,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15261/40080 [3:06:10<5:01:36,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15262/40080 [3:06:10<5:01:15,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15263/40080 [3:06:11<5:00:42,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15264/40080 [3:06:12<5:00:30,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15265/40080 [3:06:13<5:01:12,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15266/40080 [3:06:13<5:01:21,  1.37it/s] 38%|███████████████████████████████████████���███████████████████████▌                                                                                                       | 15267/40080 [3:06:14<5:01:55,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15268/40080 [3:06:15<5:02:00,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▌                                                                                                       | 15269/40080 [3:06:15<5:01:50,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15270/40080 [3:06:16<5:01:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3695, 'grad_norm': 2.59375, 'learning_rate': 1.7088970075919465e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2251.71, 'epoch': 1.52}
+ 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15270/40080 [3:06:16<5:01:41,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15271/40080 [3:06:17<5:02:28,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15272/40080 [3:06:18<5:02:03,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15273/40080 [3:06:18<5:02:05,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15274/40080 [3:06:19<5:01:25,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15275/40080 [3:06:20<5:01:08,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15276/40080 [3:06:21<5:01:22,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15277/40080 [3:06:21<5:01:15,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15278/40080 [3:06:22<5:01:13,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15279/40080 [3:06:23<5:00:46,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15280/40080 [3:06:23<5:00:30,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4037, 'grad_norm': 3.203125, 'learning_rate': 1.7079845820041628e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2287.59, 'epoch': 1.53}
+ 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15280/40080 [3:06:23<5:00:30,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15281/40080 [3:06:24<5:01:02,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15282/40080 [3:06:25<5:00:48,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15283/40080 [3:06:26<5:00:18,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15284/40080 [3:06:26<5:00:49,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15285/40080 [3:06:27<5:00:59,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15286/40080 [3:06:28<5:01:23,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15287/40080 [3:06:29<5:01:24,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15288/40080 [3:06:29<5:01:12,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15289/40080 [3:06:30<5:00:58,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15290/40080 [3:06:31<5:01:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3505, 'grad_norm': 2.390625, 'learning_rate': 1.7070718744726477e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2505.53, 'epoch': 1.53}
+ 38%|███████████████████���███████████████████████████████████████████▋                                                                                                       | 15290/40080 [3:06:31<5:01:14,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15291/40080 [3:06:31<5:01:26,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15292/40080 [3:06:32<5:01:41,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15293/40080 [3:06:33<5:01:35,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15294/40080 [3:06:34<5:01:52,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15295/40080 [3:06:34<5:01:58,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15296/40080 [3:06:35<5:01:17,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15297/40080 [3:06:36<5:00:50,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15298/40080 [3:06:37<5:00:57,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▋                                                                                                       | 15299/40080 [3:06:37<5:00:54,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15300/40080 [3:06:38<5:01:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3858, 'grad_norm': 2.859375, 'learning_rate': 1.70615888555928e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.08, 'epoch': 1.53}
+ 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15300/40080 [3:06:38<5:01:11,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15301/40080 [3:06:39<5:01:02,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15302/40080 [3:06:40<5:00:30,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15303/40080 [3:06:40<5:00:13,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15304/40080 [3:06:41<5:00:06,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15305/40080 [3:06:42<5:00:28,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15306/40080 [3:06:43<5:48:07,  1.19it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15307/40080 [3:06:44<5:34:16,  1.24it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15308/40080 [3:06:44<5:23:54,  1.27it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15309/40080 [3:06:45<5:16:57,  1.30it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15310/40080 [3:06:46<5:11:56,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.3847, 'grad_norm': 2.640625, 'learning_rate': 1.705245615826114e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2296.69, 'epoch': 1.53}
+ 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15310/40080 [3:06:46<5:11:56,  1.32it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15311/40080 [3:06:46<5:08:59,  1.34it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15312/40080 [3:06:47<5:06:49,  1.35it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15313/40080 [3:06:48<5:04:42,  1.35it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15314/40080 [3:06:49<5:03:52,  1.36it/s] 38%|███████████████████████████████████████���███████████████████████▊                                                                                                       | 15315/40080 [3:06:49<5:02:53,  1.36it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15316/40080 [3:06:50<5:02:19,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15317/40080 [3:06:51<5:02:21,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15318/40080 [3:06:52<5:01:22,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15319/40080 [3:06:52<5:01:20,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15320/40080 [3:06:53<5:01:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3619, 'grad_norm': 3.546875, 'learning_rate': 1.7043320658353744e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2294.72, 'epoch': 1.53}
+ 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15320/40080 [3:06:53<5:01:13,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15321/40080 [3:06:54<5:01:20,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15322/40080 [3:06:54<5:01:21,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15323/40080 [3:06:55<5:00:59,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15324/40080 [3:06:56<4:59:59,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15325/40080 [3:06:57<4:59:24,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15326/40080 [3:06:57<5:00:02,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15327/40080 [3:06:58<4:59:54,  1.38it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15328/40080 [3:06:59<5:00:16,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15329/40080 [3:07:00<5:00:10,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15330/40080 [3:07:00<5:00:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3842, 'grad_norm': 3.125, 'learning_rate': 1.7034182361494588e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.71, 'epoch': 1.53}
+ 38%|███████████████████████████████████████████████████████████████▊                                                                                                       | 15330/40080 [3:07:00<5:00:03,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15331/40080 [3:07:01<5:00:37,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15332/40080 [3:07:02<5:00:13,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15333/40080 [3:07:02<5:00:31,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15334/40080 [3:07:03<5:00:13,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15335/40080 [3:07:04<4:59:58,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15336/40080 [3:07:05<5:00:21,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15337/40080 [3:07:05<5:00:15,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15338/40080 [3:07:06<5:00:14,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15339/40080 [3:07:07<4:59:54,  1.37it/s] 38%|███████████████████████████████████████████████████████████���███▉                                                                                                       | 15340/40080 [3:07:08<5:00:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.388, 'grad_norm': 3.859375, 'learning_rate': 1.7025041273309383e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2586.04, 'epoch': 1.53}
+ 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15340/40080 [3:07:08<5:00:14,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15341/40080 [3:07:08<5:01:31,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15342/40080 [3:07:09<5:01:42,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15343/40080 [3:07:10<5:01:30,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15344/40080 [3:07:10<5:01:11,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15345/40080 [3:07:11<5:00:50,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15346/40080 [3:07:12<5:00:41,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15347/40080 [3:07:13<5:00:56,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15348/40080 [3:07:13<5:00:45,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15349/40080 [3:07:14<5:00:50,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15350/40080 [3:07:15<5:01:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3892, 'grad_norm': 3.34375, 'learning_rate': 1.7015897399425558e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2483.57, 'epoch': 1.53}
+ 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15350/40080 [3:07:15<5:01:04,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15351/40080 [3:07:16<5:00:41,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15352/40080 [3:07:16<5:00:31,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15353/40080 [3:07:17<5:00:36,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15354/40080 [3:07:18<5:00:30,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15355/40080 [3:07:19<5:00:21,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15356/40080 [3:07:19<5:00:04,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15357/40080 [3:07:20<5:00:04,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15358/40080 [3:07:21<5:00:33,  1.37it/s] 38%|███████████████████████████████████████████████████████████████▉                                                                                                       | 15359/40080 [3:07:21<5:00:34,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15360/40080 [3:07:22<5:00:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3613, 'grad_norm': 3.5, 'learning_rate': 1.7006750745472234e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.34, 'epoch': 1.53}
+ 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15360/40080 [3:07:22<5:00:19,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15361/40080 [3:07:23<5:00:20,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15362/40080 [3:07:24<5:00:13,  1.37it/s] 38%|█████████████████████████████████████████���██████████████████████                                                                                                       | 15363/40080 [3:07:24<5:00:32,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15364/40080 [3:07:25<5:00:43,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15365/40080 [3:07:26<5:00:03,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15366/40080 [3:07:27<4:59:34,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15367/40080 [3:07:27<4:59:16,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15368/40080 [3:07:28<4:58:54,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15369/40080 [3:07:29<4:58:49,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15370/40080 [3:07:29<4:59:27,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4003, 'grad_norm': 4.0, 'learning_rate': 1.699760131708027e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2340.48, 'epoch': 1.53}
+ 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15370/40080 [3:07:29<4:59:27,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15371/40080 [3:07:30<4:59:21,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15372/40080 [3:07:31<4:59:59,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15373/40080 [3:07:32<4:59:59,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15374/40080 [3:07:32<4:59:46,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15375/40080 [3:07:33<4:59:47,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15376/40080 [3:07:34<4:59:25,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15377/40080 [3:07:35<4:59:41,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15378/40080 [3:07:35<5:00:02,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15379/40080 [3:07:36<4:59:45,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15380/40080 [3:07:37<4:59:08,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4202, 'grad_norm': 4.0625, 'learning_rate': 1.6988449119882222e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.43, 'epoch': 1.54}
+ 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15380/40080 [3:07:37<4:59:08,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15381/40080 [3:07:37<4:59:19,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15382/40080 [3:07:38<4:59:37,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15383/40080 [3:07:39<4:59:33,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15384/40080 [3:07:40<4:59:16,  1.38it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15385/40080 [3:07:40<4:59:49,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15386/40080 [3:07:41<5:00:07,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15387/40080 [3:07:42<4:59:55,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15388/40080 [3:07:43<4:59:24,  1.37it/s] 38%|████████████████████████████████████████████████████████████████                                                                                                       | 15389/40080 [3:07:43<4:58:46,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15390/40080 [3:07:44<4:58:51,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3417, 'grad_norm': 3.484375, 'learning_rate': 1.6979294159512342e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2428.61, 'epoch': 1.54}
+ 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15390/40080 [3:07:44<4:58:51,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15391/40080 [3:07:45<4:59:51,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15392/40080 [3:07:45<4:59:52,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15393/40080 [3:07:46<5:00:02,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15394/40080 [3:07:47<5:00:08,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15395/40080 [3:07:48<5:00:18,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15396/40080 [3:07:48<5:00:07,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15397/40080 [3:07:49<5:00:34,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15398/40080 [3:07:50<5:00:33,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15399/40080 [3:07:51<4:59:37,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15400/40080 [3:07:51<4:59:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.408, 'grad_norm': 4.0625, 'learning_rate': 1.6970136441606604e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2555.33, 'epoch': 1.54}
+ 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15400/40080 [3:07:51<4:59:20,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15401/40080 [3:07:52<4:59:33,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15402/40080 [3:07:53<4:59:44,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15403/40080 [3:07:53<4:58:48,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15404/40080 [3:07:54<4:59:16,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15405/40080 [3:07:55<4:58:51,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15406/40080 [3:07:56<4:59:03,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15407/40080 [3:07:56<4:59:10,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15408/40080 [3:07:57<4:58:55,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15409/40080 [3:07:58<4:58:48,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15410/40080 [3:07:59<4:58:59,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.349, 'grad_norm': 3.046875, 'learning_rate': 1.6960975971802663e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.83, 'epoch': 1.54}
+ 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15410/40080 [3:07:59<4:58:59,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15411/40080 [3:07:59<4:58:35,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15412/40080 [3:08:00<4:58:33,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15413/40080 [3:08:01<4:58:26,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15414/40080 [3:08:01<4:58:33,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15415/40080 [3:08:02<4:58:27,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15416/40080 [3:08:03<4:59:22,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15417/40080 [3:08:04<5:01:54,  1.36it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15418/40080 [3:08:04<5:01:29,  1.36it/s] 38%|████████████████████████████████████████████████████████████████▏                                                                                                      | 15419/40080 [3:08:05<5:00:47,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15420/40080 [3:08:06<5:00:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3828, 'grad_norm': 2.828125, 'learning_rate': 1.695181275573987e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2488.02, 'epoch': 1.54}
+ 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15420/40080 [3:08:06<5:00:30,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15421/40080 [3:08:07<5:00:07,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15422/40080 [3:08:07<4:59:33,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15423/40080 [3:08:08<4:59:17,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15424/40080 [3:08:09<4:59:15,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15425/40080 [3:08:09<4:59:14,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15426/40080 [3:08:10<4:58:40,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15427/40080 [3:08:11<4:58:48,  1.38it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15428/40080 [3:08:12<4:58:53,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15429/40080 [3:08:12<4:59:01,  1.37it/s] 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15430/40080 [3:08:13<4:59:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3796, 'grad_norm': 2.90625, 'learning_rate': 1.694264679905927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.29, 'epoch': 1.54}
+ 38%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15430/40080 [3:08:13<4:59:45,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15431/40080 [3:08:14<5:00:29,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15432/40080 [3:08:15<5:00:24,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15433/40080 [3:08:15<5:00:04,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15434/40080 [3:08:16<4:59:51,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15435/40080 [3:08:17<4:59:58,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15436/40080 [3:08:18<4:59:34,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15437/40080 [3:08:18<4:59:18,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15438/40080 [3:08:19<4:59:31,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15439/40080 [3:08:20<4:59:07,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15440/40080 [3:08:20<4:59:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3655, 'grad_norm': 3.703125, 'learning_rate': 1.69334781074036e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2449.66, 'epoch': 1.54}
+ 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15440/40080 [3:08:20<4:59:20,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15441/40080 [3:08:21<4:59:23,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15442/40080 [3:08:22<4:59:43,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15443/40080 [3:08:23<4:59:35,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15444/40080 [3:08:23<4:59:02,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15445/40080 [3:08:24<4:59:07,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15446/40080 [3:08:25<4:58:59,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15447/40080 [3:08:26<4:58:51,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15448/40080 [3:08:26<4:58:43,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▎                                                                                                      | 15449/40080 [3:08:27<4:58:27,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15450/40080 [3:08:28<4:58:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.361, 'grad_norm': 4.03125, 'learning_rate': 1.6924306686417265e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.82, 'epoch': 1.54}
+ 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15450/40080 [3:08:28<4:58:37,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15451/40080 [3:08:28<4:59:01,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15452/40080 [3:08:29<4:58:53,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15453/40080 [3:08:30<4:59:06,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15454/40080 [3:08:31<4:58:41,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15455/40080 [3:08:31<4:58:32,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15456/40080 [3:08:32<4:58:52,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15457/40080 [3:08:33<5:00:21,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15458/40080 [3:08:34<4:59:55,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15459/40080 [3:08:34<4:59:19,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15460/40080 [3:08:35<4:59:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4395, 'grad_norm': 2.578125, 'learning_rate': 1.6915132541746367e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2592.62, 'epoch': 1.54}
+ 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15460/40080 [3:08:35<4:59:09,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15461/40080 [3:08:36<4:59:27,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15462/40080 [3:08:36<4:59:04,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15463/40080 [3:08:37<4:58:35,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15464/40080 [3:08:38<4:58:14,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15465/40080 [3:08:39<4:58:33,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15466/40080 [3:08:39<4:59:04,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15467/40080 [3:08:40<4:58:40,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15468/40080 [3:08:41<4:58:17,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15469/40080 [3:08:42<4:58:46,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15470/40080 [3:08:42<4:58:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4053, 'grad_norm': 3.4375, 'learning_rate': 1.690595567903868e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2595.8, 'epoch': 1.54}
+ 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15470/40080 [3:08:42<4:58:32,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15471/40080 [3:08:43<4:58:57,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15472/40080 [3:08:44<4:58:36,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15473/40080 [3:08:44<4:58:41,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15474/40080 [3:08:45<4:58:27,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15475/40080 [3:08:46<4:58:19,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15476/40080 [3:08:47<4:57:53,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15477/40080 [3:08:47<4:58:08,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15478/40080 [3:08:48<4:57:33,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▍                                                                                                      | 15479/40080 [3:08:49<4:57:44,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15480/40080 [3:08:50<4:58:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3858, 'grad_norm': 3.328125, 'learning_rate': 1.689677610394365e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2285.48, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15480/40080 [3:08:50<4:58:06,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15481/40080 [3:08:50<4:58:43,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15482/40080 [3:08:51<4:58:44,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15483/40080 [3:08:52<4:58:29,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15484/40080 [3:08:52<4:58:37,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15485/40080 [3:08:53<4:58:22,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15486/40080 [3:08:54<4:58:49,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15487/40080 [3:08:55<4:58:34,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15488/40080 [3:08:55<4:57:57,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15489/40080 [3:08:56<4:57:49,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15490/40080 [3:08:57<4:57:33,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.377, 'grad_norm': 2.75, 'learning_rate': 1.6887593822112382e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2371.52, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15490/40080 [3:08:57<4:57:33,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15491/40080 [3:08:58<4:57:54,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15492/40080 [3:08:58<4:57:51,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15493/40080 [3:08:59<4:58:14,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15494/40080 [3:09:00<4:58:40,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15495/40080 [3:09:00<4:58:34,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15496/40080 [3:09:01<4:58:51,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15497/40080 [3:09:02<4:58:49,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15498/40080 [3:09:03<5:05:07,  1.34it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15499/40080 [3:09:04<5:10:22,  1.32it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15500/40080 [3:09:04<5:07:08,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.3866, 'grad_norm': 2.765625, 'learning_rate': 1.687840883919767e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.41, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15500/40080 [3:09:04<5:07:08,  1.33it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15501/40080 [3:09:05<5:04:43,  1.34it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15502/40080 [3:09:06<5:02:51,  1.35it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15503/40080 [3:09:06<5:01:18,  1.36it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15504/40080 [3:09:07<5:00:15,  1.36it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15505/40080 [3:09:08<4:59:41,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15506/40080 [3:09:09<4:58:45,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15507/40080 [3:09:09<4:58:56,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15508/40080 [3:09:10<4:58:27,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▌                                                                                                      | 15509/40080 [3:09:11<4:58:08,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15510/40080 [3:09:12<4:57:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.376, 'grad_norm': 2.765625, 'learning_rate': 1.686922116085395e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.76, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15510/40080 [3:09:12<4:57:46,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15511/40080 [3:09:12<4:58:19,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15512/40080 [3:09:13<4:58:07,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15513/40080 [3:09:14<4:58:27,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15514/40080 [3:09:14<4:59:05,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15515/40080 [3:09:15<4:58:45,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15516/40080 [3:09:16<4:58:00,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15517/40080 [3:09:17<4:58:17,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15518/40080 [3:09:17<4:58:11,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15519/40080 [3:09:18<4:57:41,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15520/40080 [3:09:19<4:57:03,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3924, 'grad_norm': 3.203125, 'learning_rate': 1.6860030792737332e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.89, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15520/40080 [3:09:19<4:57:03,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15521/40080 [3:09:20<4:57:35,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15522/40080 [3:09:20<4:58:16,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15523/40080 [3:09:21<4:58:33,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15524/40080 [3:09:22<4:58:13,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15525/40080 [3:09:22<4:58:10,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15526/40080 [3:09:23<4:57:24,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15527/40080 [3:09:24<4:57:02,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15528/40080 [3:09:25<4:57:24,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15529/40080 [3:09:25<4:57:10,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15530/40080 [3:09:26<4:57:23,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3417, 'grad_norm': 2.90625, 'learning_rate': 1.685083774050557e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2579.53, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15530/40080 [3:09:26<4:57:23,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15531/40080 [3:09:27<4:57:50,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15532/40080 [3:09:28<4:57:23,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15533/40080 [3:09:28<4:57:05,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15534/40080 [3:09:29<4:57:03,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15535/40080 [3:09:30<4:57:05,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15536/40080 [3:09:30<4:57:59,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15537/40080 [3:09:31<4:57:30,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15538/40080 [3:09:32<4:57:19,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▋                                                                                                      | 15539/40080 [3:09:33<4:56:50,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15540/40080 [3:09:33<4:56:52,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3608, 'grad_norm': 3.5625, 'learning_rate': 1.684164200981808e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2339.43, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15540/40080 [3:09:33<4:56:52,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15541/40080 [3:09:34<4:57:01,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15542/40080 [3:09:35<4:56:56,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15543/40080 [3:09:36<4:57:12,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15544/40080 [3:09:36<4:56:28,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15545/40080 [3:09:37<4:56:26,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15546/40080 [3:09:38<4:56:30,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15547/40080 [3:09:38<4:56:23,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15548/40080 [3:09:39<4:56:39,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15549/40080 [3:09:40<4:56:25,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15550/40080 [3:09:41<4:56:01,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.387, 'grad_norm': 2.5625, 'learning_rate': 1.6832443606335924e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2311.16, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15550/40080 [3:09:41<4:56:01,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15551/40080 [3:09:41<4:56:18,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15552/40080 [3:09:42<4:56:37,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15553/40080 [3:09:43<4:57:20,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15554/40080 [3:09:43<4:57:24,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15555/40080 [3:09:44<4:57:36,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15556/40080 [3:09:45<4:57:21,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15557/40080 [3:09:46<4:57:09,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15558/40080 [3:09:46<4:57:30,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15559/40080 [3:09:47<4:57:11,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15560/40080 [3:09:48<4:57:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.399, 'grad_norm': 3.484375, 'learning_rate': 1.6823242535721803e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2565.8, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15560/40080 [3:09:48<4:57:09,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15561/40080 [3:09:49<4:57:12,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15562/40080 [3:09:49<4:57:08,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15563/40080 [3:09:50<4:57:04,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15564/40080 [3:09:51<4:56:26,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15565/40080 [3:09:51<4:56:58,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15566/40080 [3:09:52<4:56:50,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15567/40080 [3:09:53<4:56:33,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▊                                                                                                      | 15568/40080 [3:09:54<4:56:49,  1.38it/s] 39%|████████████████████████��███████████████████████████████████████▊                                                                                                      | 15569/40080 [3:09:54<4:56:34,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15570/40080 [3:09:55<4:56:43,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4166, 'grad_norm': 2.578125, 'learning_rate': 1.681403880364007e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2440.27, 'epoch': 1.55}
+ 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15570/40080 [3:09:55<4:56:43,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15571/40080 [3:09:56<4:56:58,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15572/40080 [3:09:57<4:56:51,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15573/40080 [3:09:57<4:56:30,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15574/40080 [3:09:58<4:56:46,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15575/40080 [3:09:59<4:56:25,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15576/40080 [3:09:59<4:56:51,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15577/40080 [3:10:00<4:56:37,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15578/40080 [3:10:01<4:56:40,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15579/40080 [3:10:02<4:56:19,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15580/40080 [3:10:02<4:55:39,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3627, 'grad_norm': 3.265625, 'learning_rate': 1.6804832415756706e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2443.36, 'epoch': 1.56}
+ 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15580/40080 [3:10:02<4:55:39,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15581/40080 [3:10:03<4:56:37,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15582/40080 [3:10:04<4:56:36,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15583/40080 [3:10:05<4:56:38,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15584/40080 [3:10:05<4:57:10,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15585/40080 [3:10:06<4:56:41,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15586/40080 [3:10:07<4:56:45,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15587/40080 [3:10:07<4:57:02,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15588/40080 [3:10:08<4:56:47,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15589/40080 [3:10:09<4:57:01,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15590/40080 [3:10:10<4:56:38,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3837, 'grad_norm': 3.828125, 'learning_rate': 1.6795623377739335e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2357.12, 'epoch': 1.56}
+ 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15590/40080 [3:10:10<4:56:38,  1.38it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15591/40080 [3:10:10<4:57:10,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15592/40080 [3:10:11<4:56:56,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15593/40080 [3:10:12<4:56:53,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15594/40080 [3:10:13<4:57:19,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15595/40080 [3:10:13<4:57:30,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15596/40080 [3:10:14<4:57:28,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15597/40080 [3:10:15<4:57:22,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15598/40080 [3:10:15<4:57:13,  1.37it/s] 39%|████████████████████████████████████████████████████████████████▉                                                                                                      | 15599/40080 [3:10:16<4:57:10,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15600/40080 [3:10:17<4:56:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3512, 'grad_norm': 2.609375, 'learning_rate': 1.678641169525722e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2593.26, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15600/40080 [3:10:17<4:56:49,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15601/40080 [3:10:18<4:57:44,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15602/40080 [3:10:18<4:57:39,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15603/40080 [3:10:19<4:56:57,  1.37it/s] 39%|█████████████████████████████████████████████��███████████████████                                                                                                      | 15604/40080 [3:10:20<4:57:02,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15605/40080 [3:10:21<4:56:24,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15606/40080 [3:10:21<4:56:42,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15607/40080 [3:10:22<4:58:50,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15608/40080 [3:10:23<5:00:12,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15609/40080 [3:10:24<5:01:39,  1.35it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15610/40080 [3:10:24<4:59:58,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3627, 'grad_norm': 3.53125, 'learning_rate': 1.677719737398123e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2327.69, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15610/40080 [3:10:24<4:59:58,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15611/40080 [3:10:25<4:59:35,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15612/40080 [3:10:26<4:59:08,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15613/40080 [3:10:26<4:58:56,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15614/40080 [3:10:27<4:58:45,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15615/40080 [3:10:28<4:58:06,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15616/40080 [3:10:29<4:57:48,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15617/40080 [3:10:29<4:57:24,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15618/40080 [3:10:30<4:57:40,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15619/40080 [3:10:31<4:58:05,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15620/40080 [3:10:32<4:58:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.411, 'grad_norm': 4.125, 'learning_rate': 1.6767980419583874e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.49, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15620/40080 [3:10:32<4:58:06,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15621/40080 [3:10:32<4:58:34,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15622/40080 [3:10:33<4:58:11,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15623/40080 [3:10:34<4:58:08,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15624/40080 [3:10:35<4:57:45,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15625/40080 [3:10:35<4:58:04,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15626/40080 [3:10:36<4:57:25,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15627/40080 [3:10:37<4:57:37,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████                                                                                                      | 15628/40080 [3:10:37<4:57:29,  1.37it/s] 39%|████████████████████████████████████████████████��████████████████                                                                                                      | 15629/40080 [3:10:38<4:57:47,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15630/40080 [3:10:39<4:58:58,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3824, 'grad_norm': 3.09375, 'learning_rate': 1.6758760837739275e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2539.93, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15630/40080 [3:10:39<4:58:58,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15631/40080 [3:10:40<4:58:58,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15632/40080 [3:10:40<4:58:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15633/40080 [3:10:41<4:57:58,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15634/40080 [3:10:42<4:57:24,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15635/40080 [3:10:43<4:58:06,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15636/40080 [3:10:43<4:57:28,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15637/40080 [3:10:44<4:57:27,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15638/40080 [3:10:45<4:57:26,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15639/40080 [3:10:45<4:57:30,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15640/40080 [3:10:46<4:57:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3425, 'grad_norm': 3.25, 'learning_rate': 1.674953863412319e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.64, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15640/40080 [3:10:46<4:57:59,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15641/40080 [3:10:47<4:58:12,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15642/40080 [3:10:48<4:58:27,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15643/40080 [3:10:48<4:57:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15644/40080 [3:10:49<4:57:05,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15645/40080 [3:10:50<4:57:26,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15646/40080 [3:10:51<4:57:00,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15647/40080 [3:10:51<4:56:50,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15648/40080 [3:10:52<4:56:55,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15649/40080 [3:10:53<4:57:39,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15650/40080 [3:10:54<4:57:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3683, 'grad_norm': 3.796875, 'learning_rate': 1.674031381441296e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2301.23, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15650/40080 [3:10:54<4:57:05,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15651/40080 [3:10:54<4:57:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15652/40080 [3:10:55<4:57:29,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15653/40080 [3:10:56<4:57:46,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15654/40080 [3:10:56<4:57:53,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15655/40080 [3:10:57<4:57:24,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15656/40080 [3:10:58<4:56:39,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15657/40080 [3:10:59<4:57:07,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15658/40080 [3:10:59<4:56:46,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                     | 15659/40080 [3:11:00<4:56:53,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15660/40080 [3:11:01<4:56:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4098, 'grad_norm': 3.796875, 'learning_rate': 1.6731086384287564e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.25, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15660/40080 [3:11:01<4:56:35,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15661/40080 [3:11:02<4:57:28,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15662/40080 [3:11:02<4:57:16,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15663/40080 [3:11:03<4:57:22,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15664/40080 [3:11:04<4:57:01,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15665/40080 [3:11:04<4:57:16,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15666/40080 [3:11:05<4:56:22,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15667/40080 [3:11:06<4:56:32,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15668/40080 [3:11:07<4:56:12,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15669/40080 [3:11:07<4:55:45,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15670/40080 [3:11:08<4:57:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3826, 'grad_norm': 3.28125, 'learning_rate': 1.6721856349427582e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2320.2, 'epoch': 1.56}
+ 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15670/40080 [3:11:08<4:57:40,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15671/40080 [3:11:09<4:57:30,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15672/40080 [3:11:10<4:56:37,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15673/40080 [3:11:10<4:56:23,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15674/40080 [3:11:11<4:56:22,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15675/40080 [3:11:12<4:56:24,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15676/40080 [3:11:12<4:56:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15677/40080 [3:11:13<4:56:20,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15678/40080 [3:11:14<4:56:15,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15679/40080 [3:11:15<4:56:26,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15680/40080 [3:11:15<4:56:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4028, 'grad_norm': 3.390625, 'learning_rate': 1.671262371551518e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2408.37, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15680/40080 [3:11:15<4:56:38,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15681/40080 [3:11:16<4:56:57,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15682/40080 [3:11:17<4:56:56,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15683/40080 [3:11:18<4:56:46,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15684/40080 [3:11:18<4:56:16,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15685/40080 [3:11:19<4:56:15,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15686/40080 [3:11:20<4:56:29,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15687/40080 [3:11:20<4:56:45,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15688/40080 [3:11:21<4:56:34,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▎                                                                                                     | 15689/40080 [3:11:22<4:55:47,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15690/40080 [3:11:23<4:56:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3773, 'grad_norm': 3.359375, 'learning_rate': 1.670338848823415e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2363.74, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15690/40080 [3:11:23<4:56:02,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15691/40080 [3:11:23<4:56:31,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15692/40080 [3:11:24<4:56:08,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15693/40080 [3:11:25<4:55:38,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15694/40080 [3:11:26<4:56:17,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15695/40080 [3:11:26<4:55:40,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15696/40080 [3:11:27<4:55:23,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15697/40080 [3:11:28<4:55:59,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15698/40080 [3:11:29<4:55:33,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15699/40080 [3:11:29<4:55:57,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15700/40080 [3:11:30<4:55:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3719, 'grad_norm': 4.6875, 'learning_rate': 1.669415067326986e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.0, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15700/40080 [3:11:30<4:55:32,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15701/40080 [3:11:31<4:55:25,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15702/40080 [3:11:31<4:55:24,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15703/40080 [3:11:32<4:55:29,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15704/40080 [3:11:33<4:54:56,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15705/40080 [3:11:34<4:54:53,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15706/40080 [3:11:34<4:55:37,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15707/40080 [3:11:35<4:55:43,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15708/40080 [3:11:36<4:55:02,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15709/40080 [3:11:36<4:55:13,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15710/40080 [3:11:37<4:55:12,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.346, 'grad_norm': 2.234375, 'learning_rate': 1.668491027630928e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.53, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15710/40080 [3:11:37<4:55:12,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15711/40080 [3:11:38<4:55:30,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15712/40080 [3:11:39<4:55:31,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15713/40080 [3:11:39<4:55:00,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15714/40080 [3:11:40<4:55:29,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15715/40080 [3:11:41<4:55:18,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15716/40080 [3:11:42<4:55:22,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15717/40080 [3:11:42<4:55:40,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15718/40080 [3:11:43<4:55:10,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▍                                                                                                     | 15719/40080 [3:11:44<4:55:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15720/40080 [3:11:44<4:54:53,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3545, 'grad_norm': 3.609375, 'learning_rate': 1.6675667303040965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2294.56, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15720/40080 [3:11:44<4:54:53,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15721/40080 [3:11:45<4:55:39,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15722/40080 [3:11:46<4:55:12,  1.38it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15723/40080 [3:11:47<4:57:12,  1.37it/s] 39%|██████████████████████████��██████████████████████████████████████▌                                                                                                     | 15724/40080 [3:11:47<4:57:08,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15725/40080 [3:11:48<4:56:52,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15726/40080 [3:11:49<5:03:26,  1.34it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15727/40080 [3:11:50<5:07:02,  1.32it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15728/40080 [3:11:50<5:06:49,  1.32it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15729/40080 [3:11:51<5:03:03,  1.34it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15730/40080 [3:11:52<5:00:50,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3649, 'grad_norm': 2.828125, 'learning_rate': 1.6666421759155072e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2439.22, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15730/40080 [3:11:52<5:00:50,  1.35it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15731/40080 [3:11:53<4:59:36,  1.35it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15732/40080 [3:11:53<4:58:31,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15733/40080 [3:11:54<4:58:09,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15734/40080 [3:11:55<4:57:31,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15735/40080 [3:11:56<4:56:55,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15736/40080 [3:11:56<4:56:37,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15737/40080 [3:11:57<4:56:22,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15738/40080 [3:11:58<4:56:10,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15739/40080 [3:11:59<4:56:30,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15740/40080 [3:11:59<4:56:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3792, 'grad_norm': 3.21875, 'learning_rate': 1.6657173650343315e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2629.06, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15740/40080 [3:11:59<4:56:37,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15741/40080 [3:12:00<4:56:35,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15742/40080 [3:12:01<4:55:56,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15743/40080 [3:12:01<4:55:49,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15744/40080 [3:12:02<4:56:13,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15745/40080 [3:12:03<4:56:13,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15746/40080 [3:12:04<4:55:49,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15747/40080 [3:12:04<4:55:38,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15748/40080 [3:12:05<4:55:00,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▌                                                                                                     | 15749/40080 [3:12:06<4:55:01,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15750/40080 [3:12:07<4:54:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3692, 'grad_norm': 2.96875, 'learning_rate': 1.6647922982299004e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.12, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15750/40080 [3:12:07<4:54:58,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15751/40080 [3:12:07<4:56:12,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15752/40080 [3:12:08<4:56:13,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15753/40080 [3:12:09<4:56:13,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15754/40080 [3:12:09<4:56:21,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15755/40080 [3:12:10<4:55:56,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15756/40080 [3:12:11<4:55:56,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15757/40080 [3:12:12<4:55:45,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15758/40080 [3:12:12<4:55:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15759/40080 [3:12:13<4:55:06,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15760/40080 [3:12:14<4:55:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3387, 'grad_norm': 2.703125, 'learning_rate': 1.663866976071702e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2471.75, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15760/40080 [3:12:14<4:55:34,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15761/40080 [3:12:15<4:56:18,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15762/40080 [3:12:15<4:56:22,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15763/40080 [3:12:16<4:55:50,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15764/40080 [3:12:17<4:55:40,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15765/40080 [3:12:17<4:56:00,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15766/40080 [3:12:18<4:55:56,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15767/40080 [3:12:19<4:56:18,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15768/40080 [3:12:20<4:55:36,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15769/40080 [3:12:20<4:55:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15770/40080 [3:12:21<4:55:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4209, 'grad_norm': 3.71875, 'learning_rate': 1.6629413991293815e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2525.28, 'epoch': 1.57}
+ 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15770/40080 [3:12:21<4:55:06,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15771/40080 [3:12:22<4:55:30,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15772/40080 [3:12:23<4:55:48,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15773/40080 [3:12:23<4:56:00,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15774/40080 [3:12:24<4:55:49,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15775/40080 [3:12:25<4:55:55,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15776/40080 [3:12:26<4:55:47,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15777/40080 [3:12:26<4:55:50,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15778/40080 [3:12:27<4:55:55,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▋                                                                                                     | 15779/40080 [3:12:28<4:55:19,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15780/40080 [3:12:28<4:55:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4158, 'grad_norm': 2.984375, 'learning_rate': 1.6620155679727417e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.31, 'epoch': 1.58}
+ 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15780/40080 [3:12:28<4:55:11,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15781/40080 [3:12:29<4:55:18,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15782/40080 [3:12:30<4:55:44,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15783/40080 [3:12:31<4:55:43,  1.37it/s] 39%|█████���███████████████████████████████████████████████████████████▊                                                                                                     | 15784/40080 [3:12:31<4:55:28,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15785/40080 [3:12:32<4:55:48,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15786/40080 [3:12:33<4:55:23,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15787/40080 [3:12:34<4:55:33,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15788/40080 [3:12:34<4:55:09,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15789/40080 [3:12:35<4:55:57,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15790/40080 [3:12:36<4:56:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.369, 'grad_norm': 3.328125, 'learning_rate': 1.6610894831717406e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2576.39, 'epoch': 1.58}
+ 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15790/40080 [3:12:36<4:56:07,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15791/40080 [3:12:36<4:56:21,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15792/40080 [3:12:37<4:55:47,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15793/40080 [3:12:38<4:55:29,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15794/40080 [3:12:39<4:55:28,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15795/40080 [3:12:39<4:55:30,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15796/40080 [3:12:40<4:55:16,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15797/40080 [3:12:41<4:55:05,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15798/40080 [3:12:42<4:55:14,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15799/40080 [3:12:42<4:55:15,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15800/40080 [3:12:43<4:55:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3386, 'grad_norm': 3.109375, 'learning_rate': 1.6601631452964935e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2392.57, 'epoch': 1.58}
+ 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15800/40080 [3:12:43<4:55:21,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15801/40080 [3:12:44<4:55:39,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15802/40080 [3:12:44<4:55:04,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15803/40080 [3:12:45<4:55:03,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15804/40080 [3:12:46<4:55:28,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15805/40080 [3:12:47<4:55:24,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15806/40080 [3:12:47<4:54:57,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15807/40080 [3:12:48<4:55:36,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15808/40080 [3:12:49<4:55:18,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▊                                                                                                     | 15809/40080 [3:12:50<4:54:52,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15810/40080 [3:12:50<4:55:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.2971, 'grad_norm': 2.640625, 'learning_rate': 1.6592365549172712e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2363.93, 'epoch': 1.58}
+ 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15810/40080 [3:12:50<4:55:22,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15811/40080 [3:12:51<4:55:45,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15812/40080 [3:12:52<4:55:20,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15813/40080 [3:12:53<4:55:23,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15814/40080 [3:12:53<4:55:10,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15815/40080 [3:12:54<4:55:24,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15816/40080 [3:12:55<4:54:53,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15817/40080 [3:12:55<4:55:07,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15818/40080 [3:12:56<4:55:13,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15819/40080 [3:12:57<4:54:41,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15820/40080 [3:12:58<4:54:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4657, 'grad_norm': 4.78125, 'learning_rate': 1.6583097126044986e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2339.79, 'epoch': 1.58}
+ 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15820/40080 [3:12:58<4:54:55,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15821/40080 [3:12:58<4:55:31,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15822/40080 [3:12:59<4:55:56,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15823/40080 [3:13:00<4:56:31,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15824/40080 [3:13:01<4:56:11,  1.36it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15825/40080 [3:13:01<4:55:37,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15826/40080 [3:13:02<4:55:38,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15827/40080 [3:13:03<4:55:34,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15828/40080 [3:13:03<4:55:35,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15829/40080 [3:13:04<4:54:56,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15830/40080 [3:13:05<4:55:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4158, 'grad_norm': 3.359375, 'learning_rate': 1.657382618928758e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2494.56, 'epoch': 1.58}
+ 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15830/40080 [3:13:05<4:55:21,  1.37it/s] 39%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15831/40080 [3:13:06<4:55:16,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15832/40080 [3:13:06<4:54:57,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15833/40080 [3:13:07<4:54:56,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15834/40080 [3:13:08<4:55:14,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15835/40080 [3:13:09<4:55:38,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15836/40080 [3:13:09<4:55:38,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15837/40080 [3:13:10<4:55:13,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15838/40080 [3:13:11<4:54:53,  1.37it/s] 40%|█████████████████████████████████████████████████████████████████▉                                                                                                     | 15839/40080 [3:13:12<4:54:22,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15840/40080 [3:13:12<4:54:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4108, 'grad_norm': 4.09375, 'learning_rate': 1.656455274460785e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.41, 'epoch': 1.58}
+ 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15840/40080 [3:13:12<4:54:23,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15841/40080 [3:13:13<4:54:18,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15842/40080 [3:13:14<4:54:15,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15843/40080 [3:13:14<4:53:59,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15844/40080 [3:13:15<4:54:04,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15845/40080 [3:13:16<4:54:24,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15846/40080 [3:13:17<4:53:50,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15847/40080 [3:13:17<4:53:16,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15848/40080 [3:13:18<4:53:38,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15849/40080 [3:13:19<4:53:46,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15850/40080 [3:13:20<4:54:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3768, 'grad_norm': 3.359375, 'learning_rate': 1.65552767977147e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.51, 'epoch': 1.58}
+ 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15850/40080 [3:13:20<4:54:37,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15851/40080 [3:13:20<4:55:01,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15852/40080 [3:13:21<4:54:54,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15853/40080 [3:13:22<4:54:29,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15854/40080 [3:13:22<4:54:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15855/40080 [3:13:23<4:54:10,  1.37it/s] 40%|██████████████████████████████████���███████████████████████████████                                                                                                     | 15856/40080 [3:13:24<4:54:19,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15857/40080 [3:13:25<4:54:03,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15858/40080 [3:13:25<4:53:46,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15859/40080 [3:13:26<4:54:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15860/40080 [3:13:27<4:54:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4054, 'grad_norm': 2.9375, 'learning_rate': 1.6545998354318573e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.98, 'epoch': 1.58}
+ 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15860/40080 [3:13:27<4:54:05,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15861/40080 [3:13:28<4:55:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15862/40080 [3:13:28<4:54:42,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15863/40080 [3:13:29<4:54:07,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15864/40080 [3:13:30<4:54:15,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15865/40080 [3:13:30<4:54:15,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15866/40080 [3:13:31<4:54:06,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15867/40080 [3:13:32<4:53:44,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15868/40080 [3:13:33<4:53:57,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████                                                                                                     | 15869/40080 [3:13:33<4:53:59,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15870/40080 [3:13:34<4:56:51,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.4184, 'grad_norm': 3.59375, 'learning_rate': 1.653671742013145e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.26, 'epoch': 1.58}
+ 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15870/40080 [3:13:34<4:56:51,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15871/40080 [3:13:35<4:56:34,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15872/40080 [3:13:36<4:55:57,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15873/40080 [3:13:36<4:55:46,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15874/40080 [3:13:37<4:55:41,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15875/40080 [3:13:38<4:55:21,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15876/40080 [3:13:39<4:54:42,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15877/40080 [3:13:39<4:54:12,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15878/40080 [3:13:40<4:54:10,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15879/40080 [3:13:41<4:54:48,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15880/40080 [3:13:41<4:55:42,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3683, 'grad_norm': 3.21875, 'learning_rate': 1.652743400086684e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2442.09, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15880/40080 [3:13:41<4:55:42,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15881/40080 [3:13:42<4:55:20,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15882/40080 [3:13:43<4:54:22,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15883/40080 [3:13:44<4:53:57,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15884/40080 [3:13:44<4:53:31,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15885/40080 [3:13:45<4:53:55,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15886/40080 [3:13:46<4:53:48,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15887/40080 [3:13:47<5:39:56,  1.19it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15888/40080 [3:13:48<5:26:11,  1.24it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15889/40080 [3:13:48<5:16:38,  1.27it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15890/40080 [3:13:49<5:09:59,  1.30it/s]                                                                                                                                                                                                                      {'loss': 0.3516, 'grad_norm': 3.359375, 'learning_rate': 1.6518148102239792e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2414.76, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15890/40080 [3:13:49<5:09:59,  1.30it/s] 40%|██████████████��███████████████████████████████████████████████████▏                                                                                                    | 15891/40080 [3:13:50<5:04:47,  1.32it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15892/40080 [3:13:51<5:01:36,  1.34it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15893/40080 [3:13:51<4:59:14,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15894/40080 [3:13:52<4:57:40,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15895/40080 [3:13:53<4:55:45,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15896/40080 [3:13:53<4:55:18,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15897/40080 [3:13:54<4:54:28,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15898/40080 [3:13:55<4:54:16,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▏                                                                                                    | 15899/40080 [3:13:56<4:53:34,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15900/40080 [3:13:56<4:53:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3894, 'grad_norm': 3.671875, 'learning_rate': 1.6508859729966877e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.89, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15900/40080 [3:13:56<4:53:22,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15901/40080 [3:13:57<4:54:13,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15902/40080 [3:13:58<4:54:21,  1.37it/s] 40%|███████████████████████████████████████████████████████���██████████▎                                                                                                    | 15903/40080 [3:13:59<4:53:32,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15904/40080 [3:13:59<4:53:33,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15905/40080 [3:14:00<4:53:39,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15906/40080 [3:14:01<4:53:45,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15907/40080 [3:14:01<4:53:36,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15908/40080 [3:14:02<4:53:02,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15909/40080 [3:14:03<4:53:40,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15910/40080 [3:14:04<4:53:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4086, 'grad_norm': 4.40625, 'learning_rate': 1.6499568889766182e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.98, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15910/40080 [3:14:04<4:53:32,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15911/40080 [3:14:04<4:54:39,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15912/40080 [3:14:05<4:54:11,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15913/40080 [3:14:06<4:54:29,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15914/40080 [3:14:07<4:53:47,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15915/40080 [3:14:07<4:53:56,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15916/40080 [3:14:08<4:54:06,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15917/40080 [3:14:09<4:54:33,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15918/40080 [3:14:10<4:54:45,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15919/40080 [3:14:10<4:54:27,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15920/40080 [3:14:11<4:53:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4302, 'grad_norm': 3.671875, 'learning_rate': 1.6490275587357323e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2604.09, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15920/40080 [3:14:11<4:53:52,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15921/40080 [3:14:12<4:53:59,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15922/40080 [3:14:12<4:53:24,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15923/40080 [3:14:13<4:53:01,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15924/40080 [3:14:14<4:52:54,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15925/40080 [3:14:15<4:53:03,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15926/40080 [3:14:15<4:54:49,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15927/40080 [3:14:16<4:53:52,  1.37it/s] 40%|████████████████████��█████████████████████████████████████████████▎                                                                                                    | 15928/40080 [3:14:17<4:53:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                    | 15929/40080 [3:14:18<4:52:15,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15930/40080 [3:14:18<4:52:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4009, 'grad_norm': 3.859375, 'learning_rate': 1.648097982846143e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2428.34, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15930/40080 [3:14:18<4:52:06,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15931/40080 [3:14:19<4:53:19,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15932/40080 [3:14:20<4:53:07,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15933/40080 [3:14:20<4:53:14,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15934/40080 [3:14:21<4:53:14,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15935/40080 [3:14:22<4:53:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15936/40080 [3:14:23<4:52:38,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15937/40080 [3:14:23<4:52:24,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15938/40080 [3:14:24<4:52:57,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15939/40080 [3:14:25<4:52:52,  1.37it/s] 40%|█████████████████████████████████████████████████████████████��████▍                                                                                                    | 15940/40080 [3:14:26<4:55:02,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3566, 'grad_norm': 3.28125, 'learning_rate': 1.6471681618801138e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.83, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15940/40080 [3:14:26<4:55:02,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15941/40080 [3:14:26<4:57:41,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15942/40080 [3:14:27<4:59:28,  1.34it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15943/40080 [3:14:28<4:59:34,  1.34it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15944/40080 [3:14:29<5:00:34,  1.34it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15945/40080 [3:14:29<5:01:00,  1.34it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15946/40080 [3:14:30<5:01:29,  1.33it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15947/40080 [3:14:31<4:59:39,  1.34it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15948/40080 [3:14:32<4:57:06,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15949/40080 [3:14:32<4:55:19,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15950/40080 [3:14:33<4:54:58,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3766, 'grad_norm': 3.1875, 'learning_rate': 1.6462380964100597e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2553.73, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15950/40080 [3:14:33<4:54:58,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15951/40080 [3:14:34<4:55:03,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15952/40080 [3:14:34<4:54:42,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15953/40080 [3:14:35<4:53:50,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15954/40080 [3:14:36<4:56:23,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15955/40080 [3:14:37<4:57:24,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15956/40080 [3:14:37<4:55:49,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15957/40080 [3:14:38<4:55:15,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15958/40080 [3:14:39<4:54:50,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▍                                                                                                    | 15959/40080 [3:14:40<4:53:47,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15960/40080 [3:14:40<4:53:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4132, 'grad_norm': 4.03125, 'learning_rate': 1.6453077870085464e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2416.48, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15960/40080 [3:14:40<4:53:04,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15961/40080 [3:14:41<4:53:28,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15962/40080 [3:14:42<4:53:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15963/40080 [3:14:42<4:52:21,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15964/40080 [3:14:43<4:52:06,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15965/40080 [3:14:44<4:52:28,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15966/40080 [3:14:45<4:51:53,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15967/40080 [3:14:45<4:53:42,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15968/40080 [3:14:46<4:54:17,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15969/40080 [3:14:47<4:53:08,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15970/40080 [3:14:48<4:52:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3492, 'grad_norm': 3.53125, 'learning_rate': 1.644377234248289e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2423.97, 'epoch': 1.59}
+ 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15970/40080 [3:14:48<4:52:58,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15971/40080 [3:14:48<4:55:04,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15972/40080 [3:14:49<4:53:52,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15973/40080 [3:14:50<4:53:06,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15974/40080 [3:14:51<4:52:27,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15975/40080 [3:14:51<4:52:23,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15976/40080 [3:14:52<4:52:33,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15977/40080 [3:14:53<4:52:36,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15978/40080 [3:14:53<4:52:15,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15979/40080 [3:14:54<4:51:41,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15980/40080 [3:14:55<4:52:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4313, 'grad_norm': 3.375, 'learning_rate': 1.6434464387021535e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2272.91, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15980/40080 [3:14:55<4:52:29,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15981/40080 [3:14:56<4:52:31,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15982/40080 [3:14:56<4:52:18,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15983/40080 [3:14:57<4:52:19,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15984/40080 [3:14:58<4:51:55,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15985/40080 [3:14:59<4:52:03,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15986/40080 [3:14:59<4:52:03,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15987/40080 [3:15:00<4:53:53,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15988/40080 [3:15:01<4:52:41,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▌                                                                                                    | 15989/40080 [3:15:01<4:51:55,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15990/40080 [3:15:02<4:52:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4121, 'grad_norm': 3.859375, 'learning_rate': 1.6425154009431547e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2213.04, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15990/40080 [3:15:02<4:52:25,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15991/40080 [3:15:03<4:52:40,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15992/40080 [3:15:04<4:52:22,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15993/40080 [3:15:04<4:52:10,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15994/40080 [3:15:05<4:52:03,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15995/40080 [3:15:06<4:51:51,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15996/40080 [3:15:07<4:51:49,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15997/40080 [3:15:07<4:52:09,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15998/40080 [3:15:08<4:51:54,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 15999/40080 [3:15:09<4:51:27,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16000/40080 [3:15:09<4:52:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.337, 'grad_norm': 2.21875, 'learning_rate': 1.6415841215444556e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2411.7, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16000/40080 [3:15:09<4:52:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16001/40080 [3:15:10<4:52:40,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16002/40080 [3:15:11<4:52:30,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16003/40080 [3:15:12<4:52:10,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16004/40080 [3:15:12<4:52:17,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16005/40080 [3:15:13<4:52:40,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16006/40080 [3:15:14<4:52:48,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16007/40080 [3:15:15<4:52:59,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16008/40080 [3:15:15<4:52:41,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16009/40080 [3:15:16<4:52:18,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16010/40080 [3:15:17<4:52:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3731, 'grad_norm': 3.703125, 'learning_rate': 1.6406526010793704e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.84, 'epoch': 1.6}
+ 40%|███��██████████████████████████████████████████████████████████████▋                                                                                                    | 16010/40080 [3:15:17<4:52:03,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16011/40080 [3:15:17<4:52:28,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16012/40080 [3:15:18<4:52:35,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16013/40080 [3:15:19<4:52:50,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16014/40080 [3:15:20<4:52:33,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16015/40080 [3:15:20<4:52:31,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16016/40080 [3:15:21<4:52:32,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16017/40080 [3:15:22<4:52:44,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16018/40080 [3:15:23<4:52:13,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                    | 16019/40080 [3:15:23<4:51:58,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16020/40080 [3:15:24<4:51:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3673, 'grad_norm': 3.03125, 'learning_rate': 1.639720840121359e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2200.41, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16020/40080 [3:15:24<4:51:58,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16021/40080 [3:15:25<4:52:28,  1.37it/s] 40%|█████████████████████████████████████████████���████████████████████▊                                                                                                    | 16022/40080 [3:15:25<4:52:38,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16023/40080 [3:15:26<4:52:00,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16024/40080 [3:15:27<4:51:39,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16025/40080 [3:15:28<4:51:33,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16026/40080 [3:15:28<4:51:41,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16027/40080 [3:15:29<4:51:37,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16028/40080 [3:15:30<4:51:42,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16029/40080 [3:15:31<4:51:20,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16030/40080 [3:15:31<4:50:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3673, 'grad_norm': 3.984375, 'learning_rate': 1.6387888392440312e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.89, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16030/40080 [3:15:31<4:50:56,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16031/40080 [3:15:32<4:51:42,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16032/40080 [3:15:33<4:51:53,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16033/40080 [3:15:33<4:51:57,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16034/40080 [3:15:34<4:51:22,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16035/40080 [3:15:35<4:51:24,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16036/40080 [3:15:36<4:51:35,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16037/40080 [3:15:36<4:51:18,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16038/40080 [3:15:37<4:51:06,  1.38it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16039/40080 [3:15:38<4:51:35,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16040/40080 [3:15:39<4:51:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.379, 'grad_norm': 3.078125, 'learning_rate': 1.637856599021144e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.35, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16040/40080 [3:15:39<4:51:42,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16041/40080 [3:15:39<4:52:33,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16042/40080 [3:15:40<4:54:59,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16043/40080 [3:15:41<4:56:25,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16044/40080 [3:15:42<4:54:29,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16045/40080 [3:15:42<4:54:04,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16046/40080 [3:15:43<4:53:06,  1.37it/s] 40%|███████████��██████████████████████████████████████████████████████▊                                                                                                    | 16047/40080 [3:15:44<4:52:40,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16048/40080 [3:15:44<4:52:50,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▊                                                                                                    | 16049/40080 [3:15:45<4:52:07,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16050/40080 [3:15:46<4:52:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3974, 'grad_norm': 2.953125, 'learning_rate': 1.6369241200266007e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2587.53, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16050/40080 [3:15:46<4:52:11,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16051/40080 [3:15:47<4:52:25,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16052/40080 [3:15:47<4:51:48,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16053/40080 [3:15:48<4:51:48,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16054/40080 [3:15:49<4:52:01,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16055/40080 [3:15:50<4:51:47,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16056/40080 [3:15:50<4:51:42,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16057/40080 [3:15:51<4:51:13,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16058/40080 [3:15:52<4:51:04,  1.38it/s] 40%|████████████████████████████████████████████████████��█████████████▉                                                                                                    | 16059/40080 [3:15:52<4:51:35,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16060/40080 [3:15:53<4:51:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.371, 'grad_norm': 3.109375, 'learning_rate': 1.6359914028344535e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2534.41, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16060/40080 [3:15:53<4:51:44,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16061/40080 [3:15:54<4:52:09,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16062/40080 [3:15:55<4:51:44,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16063/40080 [3:15:55<4:51:54,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16064/40080 [3:15:56<4:51:59,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16065/40080 [3:15:57<4:51:55,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16066/40080 [3:15:58<4:51:23,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16067/40080 [3:15:58<4:51:21,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16068/40080 [3:15:59<4:52:56,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16069/40080 [3:16:00<4:55:48,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16070/40080 [3:16:01<4:57:02,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4175, 'grad_norm': 2.96875, 'learning_rate': 1.6350584480189004e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2456.17, 'epoch': 1.6}
+ 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16070/40080 [3:16:01<4:57:02,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16071/40080 [3:16:01<4:57:20,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16072/40080 [3:16:02<4:55:19,  1.35it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16073/40080 [3:16:03<4:54:16,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16074/40080 [3:16:03<4:53:22,  1.36it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16075/40080 [3:16:04<4:52:28,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16076/40080 [3:16:05<4:52:30,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16077/40080 [3:16:06<4:52:07,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16078/40080 [3:16:06<4:52:05,  1.37it/s] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                    | 16079/40080 [3:16:07<4:51:35,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16080/40080 [3:16:08<4:51:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.378, 'grad_norm': 3.046875, 'learning_rate': 1.6341252561542848e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.63, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16080/40080 [3:16:08<4:51:15,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16081/40080 [3:16:09<4:51:52,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16082/40080 [3:16:09<4:51:49,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16083/40080 [3:16:10<4:51:21,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16084/40080 [3:16:11<4:51:04,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16085/40080 [3:16:11<4:51:01,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16086/40080 [3:16:12<4:50:29,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16087/40080 [3:16:13<4:50:21,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16088/40080 [3:16:14<4:50:19,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16089/40080 [3:16:14<4:50:52,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16090/40080 [3:16:15<4:50:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.351, 'grad_norm': 3.46875, 'learning_rate': 1.6331918278150964e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.66, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16090/40080 [3:16:15<4:50:46,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16091/40080 [3:16:16<4:51:22,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16092/40080 [3:16:17<4:51:05,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16093/40080 [3:16:17<4:50:24,  1.38it/s] 40%|███████████████████████���███████████████████████████████████████████                                                                                                    | 16094/40080 [3:16:18<4:50:41,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16095/40080 [3:16:19<4:50:53,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16096/40080 [3:16:19<4:50:53,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16097/40080 [3:16:20<4:51:40,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16098/40080 [3:16:21<4:51:49,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16099/40080 [3:16:22<4:51:22,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16100/40080 [3:16:22<4:50:38,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4051, 'grad_norm': 4.03125, 'learning_rate': 1.6322581635759725e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2343.49, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16100/40080 [3:16:22<4:50:38,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16101/40080 [3:16:23<4:51:07,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16102/40080 [3:16:24<4:51:11,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16103/40080 [3:16:25<4:51:15,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16104/40080 [3:16:25<4:51:19,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16105/40080 [3:16:26<4:50:59,  1.37it/s] 40%|████████████████████████████████████████████████████████████████���██                                                                                                    | 16106/40080 [3:16:27<4:51:09,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16107/40080 [3:16:28<4:54:27,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16108/40080 [3:16:28<4:56:06,  1.35it/s] 40%|███████████████████████████████████████████████████████████████████                                                                                                    | 16109/40080 [3:16:29<4:54:54,  1.35it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16110/40080 [3:16:30<4:54:07,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3997, 'grad_norm': 3.921875, 'learning_rate': 1.6313242640116923e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.94, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16110/40080 [3:16:30<4:54:07,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16111/40080 [3:16:30<4:53:03,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16112/40080 [3:16:31<4:52:46,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16113/40080 [3:16:32<4:52:13,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16114/40080 [3:16:33<4:51:21,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16115/40080 [3:16:33<4:50:58,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16116/40080 [3:16:34<4:50:49,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16117/40080 [3:16:35<4:50:55,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16118/40080 [3:16:36<4:50:14,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16119/40080 [3:16:36<4:50:46,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16120/40080 [3:16:37<4:50:24,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3979, 'grad_norm': 5.5625, 'learning_rate': 1.6303901296971826e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.16, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16120/40080 [3:16:37<4:50:24,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16121/40080 [3:16:38<4:51:05,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16122/40080 [3:16:38<4:51:15,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16123/40080 [3:16:39<4:51:20,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16124/40080 [3:16:40<4:51:00,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16125/40080 [3:16:41<4:51:16,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16126/40080 [3:16:41<4:50:36,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16127/40080 [3:16:42<4:50:46,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16128/40080 [3:16:43<4:50:55,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16129/40080 [3:16:44<4:50:43,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16130/40080 [3:16:44<4:50:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.421, 'grad_norm': 3.28125, 'learning_rate': 1.6294557612075136e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2487.29, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16130/40080 [3:16:44<4:50:54,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16131/40080 [3:16:45<4:50:54,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16132/40080 [3:16:46<4:51:02,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16133/40080 [3:16:46<4:51:01,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16134/40080 [3:16:47<4:51:18,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16135/40080 [3:16:48<4:51:04,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16136/40080 [3:16:49<4:50:30,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16137/40080 [3:16:49<4:50:06,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16138/40080 [3:16:50<4:49:45,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                   | 16139/40080 [3:16:51<4:49:39,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16140/40080 [3:16:52<4:50:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3468, 'grad_norm': 3.375, 'learning_rate': 1.6285211591178986e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.75, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16140/40080 [3:16:52<4:50:17,  1.37it/s] 40%|███████████��███████████████████████████████████████████████████████▎                                                                                                   | 16141/40080 [3:16:52<4:50:24,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16142/40080 [3:16:53<4:49:56,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16143/40080 [3:16:54<4:49:59,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16144/40080 [3:16:54<4:50:17,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16145/40080 [3:16:55<4:50:33,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16146/40080 [3:16:56<4:50:16,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16147/40080 [3:16:57<4:50:13,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16148/40080 [3:16:57<4:50:21,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16149/40080 [3:16:58<4:50:16,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16150/40080 [3:16:59<4:50:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3853, 'grad_norm': 3.0625, 'learning_rate': 1.627586324003697e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2722.54, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16150/40080 [3:16:59<4:50:46,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16151/40080 [3:17:00<4:51:00,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16152/40080 [3:17:00<4:51:06,  1.37it/s] 40%|████████████████████████████████████████████��██████████████████████▎                                                                                                   | 16153/40080 [3:17:01<4:51:06,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16154/40080 [3:17:02<4:50:43,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16155/40080 [3:17:03<4:50:18,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16156/40080 [3:17:03<4:50:59,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16157/40080 [3:17:04<4:50:46,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16158/40080 [3:17:05<4:50:23,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16159/40080 [3:17:05<4:50:03,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16160/40080 [3:17:06<4:50:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4085, 'grad_norm': 3.671875, 'learning_rate': 1.62665125644041e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2384.13, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16160/40080 [3:17:06<4:50:43,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16161/40080 [3:17:07<4:51:14,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16162/40080 [3:17:08<4:52:51,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16163/40080 [3:17:08<4:52:43,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16164/40080 [3:17:09<4:52:28,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16165/40080 [3:17:10<4:51:10,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16166/40080 [3:17:11<4:50:41,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16167/40080 [3:17:11<4:50:39,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16168/40080 [3:17:12<4:50:27,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▎                                                                                                   | 16169/40080 [3:17:13<4:50:11,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16170/40080 [3:17:13<4:50:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4367, 'grad_norm': 3.390625, 'learning_rate': 1.6257159570036828e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.83, 'epoch': 1.61}
+ 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16170/40080 [3:17:13<4:50:32,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16171/40080 [3:17:14<4:50:56,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16172/40080 [3:17:15<4:50:52,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16173/40080 [3:17:16<4:50:42,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16174/40080 [3:17:16<4:50:36,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16175/40080 [3:17:17<4:50:32,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16176/40080 [3:17:18<4:50:10,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16177/40080 [3:17:19<4:50:20,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16178/40080 [3:17:19<4:50:10,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16179/40080 [3:17:20<4:50:05,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16180/40080 [3:17:21<4:50:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3996, 'grad_norm': 2.59375, 'learning_rate': 1.624780426269303e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2491.19, 'epoch': 1.62}
+ 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16180/40080 [3:17:21<4:50:16,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16181/40080 [3:17:21<4:50:35,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16182/40080 [3:17:22<4:50:18,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16183/40080 [3:17:23<4:50:05,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16184/40080 [3:17:24<4:49:21,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16185/40080 [3:17:24<4:49:42,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16186/40080 [3:17:25<4:49:57,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16187/40080 [3:17:26<4:49:56,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16188/40080 [3:17:27<4:49:51,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16189/40080 [3:17:27<4:49:37,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16190/40080 [3:17:28<4:49:33,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3803, 'grad_norm': 3.421875, 'learning_rate': 1.6238446648131996e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2273.36, 'epoch': 1.62}
+ 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16190/40080 [3:17:28<4:49:33,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16191/40080 [3:17:29<4:50:19,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16192/40080 [3:17:29<4:50:20,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16193/40080 [3:17:30<4:50:06,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16194/40080 [3:17:31<4:50:10,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16195/40080 [3:17:32<4:50:19,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16196/40080 [3:17:32<4:50:01,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16197/40080 [3:17:33<4:49:21,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16198/40080 [3:17:34<4:49:34,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▍                                                                                                   | 16199/40080 [3:17:35<4:49:31,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16200/40080 [3:17:35<4:49:20,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3972, 'grad_norm': 2.28125, 'learning_rate': 1.622908673211445e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2573.93, 'epoch': 1.62}
+ 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16200/40080 [3:17:35<4:49:20,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16201/40080 [3:17:36<4:49:42,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16202/40080 [3:17:37<4:49:39,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16203/40080 [3:17:37<4:49:20,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16204/40080 [3:17:38<4:48:49,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16205/40080 [3:17:39<4:49:03,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16206/40080 [3:17:40<4:48:46,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16207/40080 [3:17:40<4:48:54,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16208/40080 [3:17:41<4:49:18,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16209/40080 [3:17:42<4:48:59,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16210/40080 [3:17:43<4:48:49,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3444, 'grad_norm': 3.578125, 'learning_rate': 1.6219724520402537e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2334.85, 'epoch': 1.62}
+ 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16210/40080 [3:17:43<4:48:49,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16211/40080 [3:17:43<4:49:09,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16212/40080 [3:17:44<4:49:03,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16213/40080 [3:17:45<4:49:40,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16214/40080 [3:17:45<4:49:16,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16215/40080 [3:17:46<4:48:59,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16216/40080 [3:17:47<4:49:28,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16217/40080 [3:17:48<4:49:53,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16218/40080 [3:17:48<4:49:52,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16219/40080 [3:17:49<4:49:14,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16220/40080 [3:17:50<4:49:08,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3539, 'grad_norm': 3.75, 'learning_rate': 1.6210360018759795e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2392.04, 'epoch': 1.62}
+ 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16220/40080 [3:17:50<4:49:08,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16221/40080 [3:17:51<4:49:43,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16222/40080 [3:17:51<4:49:28,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16223/40080 [3:17:52<4:50:02,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16224/40080 [3:17:53<4:49:55,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16225/40080 [3:17:53<4:49:39,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16226/40080 [3:17:54<4:49:05,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16227/40080 [3:17:55<4:49:03,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16228/40080 [3:17:56<4:49:08,  1.37it/s] 40%|███████████████████████████████████████████████████████████████████▌                                                                                                   | 16229/40080 [3:17:56<4:48:48,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16230/40080 [3:17:57<4:49:04,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4295, 'grad_norm': 3.609375, 'learning_rate': 1.6200993232951188e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2191.63, 'epoch': 1.62}
+ 40%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16230/40080 [3:17:57<4:49:04,  1.38it/s] 40%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16231/40080 [3:17:58<4:52:12,  1.36it/s] 40%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16232/40080 [3:17:59<4:54:11,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16233/40080 [3:17:59<4:54:20,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16234/40080 [3:18:00<4:53:06,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16235/40080 [3:18:01<4:51:42,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16236/40080 [3:18:02<4:51:06,  1.37it/s] 41%|█���█████████████████████████████████████████████████████████████████▋                                                                                                   | 16237/40080 [3:18:02<4:50:23,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16238/40080 [3:18:03<4:50:24,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16239/40080 [3:18:04<4:50:30,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16240/40080 [3:18:04<4:49:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4148, 'grad_norm': 4.53125, 'learning_rate': 1.6191624168743086e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2509.97, 'epoch': 1.62}
+ 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16240/40080 [3:18:04<4:49:39,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16241/40080 [3:18:05<4:50:05,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16242/40080 [3:18:06<4:49:41,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16243/40080 [3:18:07<4:49:25,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16244/40080 [3:18:07<4:49:25,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16245/40080 [3:18:08<4:49:38,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16246/40080 [3:18:09<4:51:53,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16247/40080 [3:18:10<4:53:11,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16248/40080 [3:18:10<4:52:26,  1.36it/s] 41%|█████████████████████████████████��█████████████████████████████████▋                                                                                                   | 16249/40080 [3:18:11<4:50:57,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16250/40080 [3:18:12<4:52:06,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3348, 'grad_norm': 2.65625, 'learning_rate': 1.618225283190325e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2371.44, 'epoch': 1.62}
+ 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16250/40080 [3:18:12<4:52:06,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16251/40080 [3:18:13<4:54:28,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16252/40080 [3:18:13<4:55:07,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16253/40080 [3:18:14<4:54:08,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16254/40080 [3:18:15<4:55:37,  1.34it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16255/40080 [3:18:16<4:56:54,  1.34it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16256/40080 [3:18:16<4:54:29,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16257/40080 [3:18:17<4:52:01,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16258/40080 [3:18:18<4:50:40,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▋                                                                                                   | 16259/40080 [3:18:18<4:50:27,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16260/40080 [3:18:19<4:49:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3699, 'grad_norm': 2.8125, 'learning_rate': 1.617287922820085e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2487.26, 'epoch': 1.62}
+ 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16260/40080 [3:18:19<4:49:34,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16261/40080 [3:18:20<4:50:01,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16262/40080 [3:18:21<4:49:43,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16263/40080 [3:18:21<4:49:34,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16264/40080 [3:18:22<4:49:17,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16265/40080 [3:18:23<4:49:24,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16266/40080 [3:18:24<4:49:17,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16267/40080 [3:18:24<4:48:48,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16268/40080 [3:18:25<4:49:37,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16269/40080 [3:18:26<4:50:24,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16270/40080 [3:18:27<4:52:14,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3729, 'grad_norm': 2.703125, 'learning_rate': 1.6163503363406452e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.94, 'epoch': 1.62}
+ 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16270/40080 [3:18:27<4:52:14,  1.36it/s] 41%|██████████████████████████████████████████████████████████████��████▊                                                                                                   | 16271/40080 [3:18:27<4:54:13,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16272/40080 [3:18:28<4:53:57,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16273/40080 [3:18:29<4:52:21,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16274/40080 [3:18:29<4:51:23,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16275/40080 [3:18:30<4:50:55,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16276/40080 [3:18:31<4:50:32,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16277/40080 [3:18:32<4:52:35,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16278/40080 [3:18:32<4:53:07,  1.35it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16279/40080 [3:18:33<4:52:07,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16280/40080 [3:18:34<4:51:34,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3931, 'grad_norm': 2.78125, 'learning_rate': 1.6154125243292e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2660.41, 'epoch': 1.63}
+ 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16280/40080 [3:18:34<4:51:34,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16281/40080 [3:18:35<4:51:02,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16282/40080 [3:18:35<4:50:41,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16283/40080 [3:18:36<4:50:36,  1.36it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16284/40080 [3:18:37<4:50:17,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16285/40080 [3:18:38<4:50:18,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16286/40080 [3:18:38<4:49:40,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16287/40080 [3:18:39<4:49:06,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16288/40080 [3:18:40<4:48:44,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                   | 16289/40080 [3:18:40<4:48:07,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16290/40080 [3:18:41<4:47:51,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3987, 'grad_norm': 2.84375, 'learning_rate': 1.614474487363085e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2618.38, 'epoch': 1.63}
+ 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16290/40080 [3:18:41<4:47:51,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16291/40080 [3:18:42<4:48:08,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16292/40080 [3:18:43<4:48:38,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16293/40080 [3:18:43<4:50:14,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16294/40080 [3:18:44<4:49:58,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16295/40080 [3:18:45<4:49:27,  1.37it/s] 41%|███████████��███████████████████████████████████████████████████████▉                                                                                                   | 16296/40080 [3:18:46<4:48:32,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16297/40080 [3:18:46<4:48:43,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16298/40080 [3:18:47<4:48:10,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16299/40080 [3:18:48<4:48:09,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16300/40080 [3:18:48<4:48:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.366, 'grad_norm': 4.1875, 'learning_rate': 1.6135362260197728e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2336.9, 'epoch': 1.63}
+ 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16300/40080 [3:18:48<4:48:16,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16301/40080 [3:18:49<4:48:22,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16302/40080 [3:18:50<4:48:42,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16303/40080 [3:18:51<4:47:51,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16304/40080 [3:18:51<4:47:39,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16305/40080 [3:18:52<4:47:47,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16306/40080 [3:18:53<4:47:45,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16307/40080 [3:18:54<4:47:59,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16308/40080 [3:18:54<4:48:14,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16309/40080 [3:18:55<4:47:58,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16310/40080 [3:18:56<4:47:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.381, 'grad_norm': 3.609375, 'learning_rate': 1.6125977408768737e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.41, 'epoch': 1.63}
+ 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16310/40080 [3:18:56<4:47:46,  1.38it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16311/40080 [3:18:56<4:48:19,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16312/40080 [3:18:57<4:48:58,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16313/40080 [3:18:58<4:48:35,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16314/40080 [3:18:59<4:48:46,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16315/40080 [3:18:59<4:49:12,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16316/40080 [3:19:00<4:49:50,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16317/40080 [3:19:01<4:50:00,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16318/40080 [3:19:02<4:50:04,  1.37it/s] 41%|███████████████████████████████████████████████████████████████████▉                                                                                                   | 16319/40080 [3:19:02<4:49:55,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16320/40080 [3:19:03<4:49:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3988, 'grad_norm': 2.796875, 'learning_rate': 1.611659032512137e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2321.94, 'epoch': 1.63}
+ 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16320/40080 [3:19:03<4:49:58,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16321/40080 [3:19:04<4:49:30,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16322/40080 [3:19:04<4:48:56,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16323/40080 [3:19:05<4:48:05,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16324/40080 [3:19:06<4:47:58,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16325/40080 [3:19:07<4:48:13,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16326/40080 [3:19:07<4:47:58,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16327/40080 [3:19:08<4:47:22,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16328/40080 [3:19:09<4:48:10,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16329/40080 [3:19:10<4:47:48,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16330/40080 [3:19:10<4:47:48,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3719, 'grad_norm': 3.75, 'learning_rate': 1.6107201015034486e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.81, 'epoch': 1.63}
+ 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16330/40080 [3:19:10<4:47:48,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16331/40080 [3:19:11<4:48:49,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16332/40080 [3:19:12<4:48:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16333/40080 [3:19:12<4:48:47,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16334/40080 [3:19:13<4:49:49,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16335/40080 [3:19:14<4:49:04,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16336/40080 [3:19:15<4:49:09,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16337/40080 [3:19:15<4:48:30,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16338/40080 [3:19:16<4:48:54,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16339/40080 [3:19:17<4:50:47,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16340/40080 [3:19:18<4:53:19,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3691, 'grad_norm': 3.28125, 'learning_rate': 1.6097809484288314e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.35, 'epoch': 1.63}
+ 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16340/40080 [3:19:18<4:53:19,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16341/40080 [3:19:18<4:55:27,  1.34it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16342/40080 [3:19:19<4:56:18,  1.34it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16343/40080 [3:19:20<4:54:09,  1.34it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16344/40080 [3:19:21<4:52:17,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16345/40080 [3:19:21<4:51:18,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16346/40080 [3:19:22<4:50:56,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16347/40080 [3:19:23<4:49:36,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16348/40080 [3:19:24<4:48:49,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████                                                                                                   | 16349/40080 [3:19:24<4:48:03,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16350/40080 [3:19:25<4:48:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3809, 'grad_norm': 2.75, 'learning_rate': 1.6088415738664458e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2578.67, 'epoch': 1.63}
+ 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16350/40080 [3:19:25<4:48:21,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16351/40080 [3:19:26<4:48:52,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16352/40080 [3:19:26<4:48:31,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16353/40080 [3:19:27<4:48:29,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16354/40080 [3:19:28<4:48:19,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16355/40080 [3:19:29<4:56:38,  1.33it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16356/40080 [3:19:30<5:02:20,  1.31it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16357/40080 [3:19:30<5:06:56,  1.29it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16358/40080 [3:19:31<5:07:56,  1.28it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16359/40080 [3:19:32<5:06:30,  1.29it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16360/40080 [3:19:33<5:04:05,  1.30it/s]                                                                                                                                                                                                                      {'loss': 0.3481, 'grad_norm': 3.828125, 'learning_rate': 1.607901978394588e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2320.32, 'epoch': 1.63}
+ 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16360/40080 [3:19:33<5:04:05,  1.30it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16361/40080 [3:19:33<5:01:43,  1.31it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16362/40080 [3:19:34<4:57:05,  1.33it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16363/40080 [3:19:35<4:53:54,  1.34it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16364/40080 [3:19:36<4:52:24,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16365/40080 [3:19:36<4:51:18,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16366/40080 [3:19:37<4:49:28,  1.37it/s] 41%|██████████████████████████████████████████��█████████████████████████▏                                                                                                  | 16367/40080 [3:19:38<4:48:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16368/40080 [3:19:38<4:48:47,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16369/40080 [3:19:39<4:49:39,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16370/40080 [3:19:40<4:55:07,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3385, 'grad_norm': 3.296875, 'learning_rate': 1.6069621625916897e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2256.75, 'epoch': 1.63}
+ 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16370/40080 [3:19:40<4:55:07,  1.34it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16371/40080 [3:19:41<4:57:41,  1.33it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16372/40080 [3:19:41<4:56:07,  1.33it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16373/40080 [3:19:42<4:53:59,  1.34it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16374/40080 [3:19:43<4:51:56,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16375/40080 [3:19:44<4:51:01,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16376/40080 [3:19:44<4:49:34,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16377/40080 [3:19:45<4:49:08,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16378/40080 [3:19:46<4:48:28,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▏                                                                                                  | 16379/40080 [3:19:47<4:48:19,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16380/40080 [3:19:47<4:47:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.418, 'grad_norm': 2.890625, 'learning_rate': 1.60602212703632e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.82, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16380/40080 [3:19:47<4:47:26,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16381/40080 [3:19:48<4:47:26,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16382/40080 [3:19:49<4:49:05,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16383/40080 [3:19:50<4:51:19,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16384/40080 [3:19:50<4:50:20,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16385/40080 [3:19:51<4:51:06,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16386/40080 [3:19:52<4:51:03,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16387/40080 [3:19:52<4:51:11,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16388/40080 [3:19:53<4:51:40,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16389/40080 [3:19:54<4:51:07,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16390/40080 [3:19:55<4:49:42,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3232, 'grad_norm': 3.34375, 'learning_rate': 1.6050818723071808e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2303.64, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16390/40080 [3:19:55<4:49:42,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16391/40080 [3:19:55<4:49:44,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16392/40080 [3:19:56<4:49:24,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16393/40080 [3:19:57<4:49:05,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16394/40080 [3:19:58<4:48:56,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16395/40080 [3:19:58<4:48:45,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16396/40080 [3:19:59<4:48:46,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16397/40080 [3:20:00<4:49:12,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16398/40080 [3:20:01<4:49:10,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16399/40080 [3:20:01<4:49:01,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16400/40080 [3:20:02<4:48:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.351, 'grad_norm': 2.796875, 'learning_rate': 1.6041413989831105e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.14, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16400/40080 [3:20:02<4:48:38,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16401/40080 [3:20:03<4:49:23,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16402/40080 [3:20:03<4:49:15,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16403/40080 [3:20:04<4:48:57,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16404/40080 [3:20:05<4:49:14,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16405/40080 [3:20:06<4:48:43,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16406/40080 [3:20:06<4:48:24,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16407/40080 [3:20:07<4:47:52,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16408/40080 [3:20:08<4:47:18,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▎                                                                                                  | 16409/40080 [3:20:09<4:47:02,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16410/40080 [3:20:09<4:48:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3725, 'grad_norm': 3.703125, 'learning_rate': 1.603200707643082e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2253.22, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16410/40080 [3:20:09<4:48:18,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16411/40080 [3:20:10<4:48:26,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16412/40080 [3:20:11<4:47:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16413/40080 [3:20:11<4:48:36,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16414/40080 [3:20:12<4:48:19,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16415/40080 [3:20:13<4:47:42,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16416/40080 [3:20:14<4:47:07,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16417/40080 [3:20:14<4:47:10,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16418/40080 [3:20:15<4:47:01,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16419/40080 [3:20:16<4:46:45,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16420/40080 [3:20:17<4:46:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3885, 'grad_norm': 3.578125, 'learning_rate': 1.6022597988662026e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.45, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16420/40080 [3:20:17<4:46:49,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16421/40080 [3:20:17<4:47:06,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16422/40080 [3:20:18<4:46:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16423/40080 [3:20:19<4:47:08,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16424/40080 [3:20:19<4:46:59,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16425/40080 [3:20:20<4:47:55,  1.37it/s] 41%|███████��████████████████████████████████████████████████████████████▍                                                                                                  | 16426/40080 [3:20:21<4:49:48,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16427/40080 [3:20:22<4:51:01,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16428/40080 [3:20:22<4:52:20,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16429/40080 [3:20:23<4:50:39,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16430/40080 [3:20:24<4:49:20,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3723, 'grad_norm': 3.671875, 'learning_rate': 1.601318673231712e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2308.59, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16430/40080 [3:20:24<4:49:20,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16431/40080 [3:20:25<4:48:44,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16432/40080 [3:20:25<4:48:18,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16433/40080 [3:20:26<4:47:12,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16434/40080 [3:20:27<4:46:47,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16435/40080 [3:20:28<4:47:05,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16436/40080 [3:20:28<4:47:13,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16437/40080 [3:20:29<4:46:18,  1.38it/s] 41%|███████████████████████████████���████████████████████████████████████▍                                                                                                  | 16438/40080 [3:20:30<4:46:46,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                  | 16439/40080 [3:20:30<4:46:44,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16440/40080 [3:20:31<4:46:24,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3951, 'grad_norm': 3.328125, 'learning_rate': 1.6003773313189853e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2468.38, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16440/40080 [3:20:31<4:46:24,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16441/40080 [3:20:32<4:46:44,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16442/40080 [3:20:33<4:46:18,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16443/40080 [3:20:33<4:46:46,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16444/40080 [3:20:34<4:46:56,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16445/40080 [3:20:35<4:47:02,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16446/40080 [3:20:36<4:47:02,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16447/40080 [3:20:36<4:46:39,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16448/40080 [3:20:37<4:46:34,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16449/40080 [3:20:38<4:46:31,  1.37it/s] 41%|██████████████████████████████████████████████████████��█████████████▌                                                                                                  | 16450/40080 [3:20:38<4:46:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3699, 'grad_norm': 2.765625, 'learning_rate': 1.59943577370753e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2404.55, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16450/40080 [3:20:38<4:46:33,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16451/40080 [3:20:39<4:46:30,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16452/40080 [3:20:40<4:46:25,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16453/40080 [3:20:41<4:46:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16454/40080 [3:20:41<4:47:20,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16455/40080 [3:20:42<4:47:15,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16456/40080 [3:20:43<4:47:14,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16457/40080 [3:20:44<4:47:39,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16458/40080 [3:20:44<4:47:13,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16459/40080 [3:20:45<4:46:22,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16460/40080 [3:20:46<4:46:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4027, 'grad_norm': 2.734375, 'learning_rate': 1.5984940009769857e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.55, 'epoch': 1.64}
+ 41%|██████████████████████████████████████████��█████████████████████████▌                                                                                                  | 16460/40080 [3:20:46<4:46:19,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16461/40080 [3:20:46<4:46:24,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16462/40080 [3:20:47<4:46:03,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16463/40080 [3:20:48<4:46:38,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16464/40080 [3:20:49<4:46:42,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16465/40080 [3:20:49<4:47:22,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16466/40080 [3:20:50<4:47:12,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16467/40080 [3:20:51<4:47:34,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16468/40080 [3:20:52<4:47:02,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▌                                                                                                  | 16469/40080 [3:20:52<4:47:00,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16470/40080 [3:20:53<4:46:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3921, 'grad_norm': 2.984375, 'learning_rate': 1.597552013707125e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2317.36, 'epoch': 1.64}
+ 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16470/40080 [3:20:53<4:46:26,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16471/40080 [3:20:54<4:47:12,  1.37it/s] 41%|██████████████████████████████████████████████████████████████████���█▋                                                                                                  | 16472/40080 [3:20:55<4:46:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16473/40080 [3:20:56<5:34:15,  1.18it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16474/40080 [3:20:56<5:19:59,  1.23it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16475/40080 [3:20:57<5:12:36,  1.26it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16476/40080 [3:20:58<5:07:27,  1.28it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16477/40080 [3:20:59<5:03:23,  1.30it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16478/40080 [3:20:59<4:58:11,  1.32it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16479/40080 [3:21:00<4:55:20,  1.33it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16480/40080 [3:21:01<4:53:04,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3389, 'grad_norm': 3.921875, 'learning_rate': 1.5966098124778528e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2460.72, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16480/40080 [3:21:01<4:53:04,  1.34it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16481/40080 [3:21:02<4:51:23,  1.35it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16482/40080 [3:21:02<4:49:54,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16483/40080 [3:21:03<4:48:55,  1.36it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16484/40080 [3:21:04<4:48:05,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16485/40080 [3:21:04<4:47:35,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16486/40080 [3:21:05<4:47:32,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16487/40080 [3:21:06<4:47:00,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16488/40080 [3:21:07<4:46:53,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16489/40080 [3:21:07<4:46:29,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16490/40080 [3:21:08<4:45:55,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3789, 'grad_norm': 3.859375, 'learning_rate': 1.5956673978692054e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.74, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16490/40080 [3:21:08<4:45:55,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16491/40080 [3:21:09<4:46:29,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16492/40080 [3:21:10<4:46:21,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16493/40080 [3:21:10<4:46:00,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16494/40080 [3:21:11<4:46:16,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16495/40080 [3:21:12<4:46:43,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16496/40080 [3:21:12<4:46:31,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16497/40080 [3:21:13<4:46:14,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16498/40080 [3:21:14<4:46:20,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                  | 16499/40080 [3:21:15<4:45:48,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16500/40080 [3:21:15<4:46:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3663, 'grad_norm': 2.765625, 'learning_rate': 1.5947247704613513e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2576.99, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16500/40080 [3:21:15<4:46:14,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16501/40080 [3:21:16<4:45:54,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16502/40080 [3:21:17<4:46:04,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16503/40080 [3:21:18<4:46:16,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16504/40080 [3:21:18<4:45:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16505/40080 [3:21:19<4:45:48,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16506/40080 [3:21:20<4:45:56,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16507/40080 [3:21:20<4:45:39,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16508/40080 [3:21:21<4:46:09,  1.37it/s] 41%|██████████████████��█████████████████████████████████████████████████▊                                                                                                  | 16509/40080 [3:21:22<4:46:27,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16510/40080 [3:21:23<4:46:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3895, 'grad_norm': 2.78125, 'learning_rate': 1.5937819308345885e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2552.62, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16510/40080 [3:21:23<4:46:00,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16511/40080 [3:21:23<4:46:19,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16512/40080 [3:21:24<4:45:50,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16513/40080 [3:21:25<4:46:16,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16514/40080 [3:21:26<4:45:57,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16515/40080 [3:21:26<4:45:51,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16516/40080 [3:21:27<4:46:05,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16517/40080 [3:21:28<4:45:54,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16518/40080 [3:21:28<4:46:13,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16519/40080 [3:21:29<4:46:09,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16520/40080 [3:21:30<4:46:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3904, 'grad_norm': 3.875, 'learning_rate': 1.5928388795693462e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2218.15, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16520/40080 [3:21:30<4:46:09,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16521/40080 [3:21:31<4:46:15,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16522/40080 [3:21:31<4:46:33,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16523/40080 [3:21:32<4:46:17,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16524/40080 [3:21:33<4:46:09,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16525/40080 [3:21:34<4:46:08,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16526/40080 [3:21:34<4:45:33,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16527/40080 [3:21:35<4:45:29,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16528/40080 [3:21:36<4:44:56,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▊                                                                                                  | 16529/40080 [3:21:36<4:44:19,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16530/40080 [3:21:37<4:44:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3967, 'grad_norm': 2.90625, 'learning_rate': 1.5918956172461852e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.83, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16530/40080 [3:21:37<4:44:50,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16531/40080 [3:21:38<4:45:11,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16532/40080 [3:21:39<4:45:24,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16533/40080 [3:21:39<4:45:11,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16534/40080 [3:21:40<4:45:29,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16535/40080 [3:21:41<4:45:22,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16536/40080 [3:21:42<4:45:37,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16537/40080 [3:21:42<4:45:03,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16538/40080 [3:21:43<4:44:48,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16539/40080 [3:21:44<4:44:52,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16540/40080 [3:21:44<4:45:13,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.387, 'grad_norm': 3.046875, 'learning_rate': 1.5909521444457935e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.0, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16540/40080 [3:21:44<4:45:13,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16541/40080 [3:21:45<4:45:22,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16542/40080 [3:21:46<4:45:38,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16543/40080 [3:21:47<4:45:52,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16544/40080 [3:21:47<4:45:41,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16545/40080 [3:21:48<4:46:00,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16546/40080 [3:21:49<4:45:50,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16547/40080 [3:21:50<4:45:49,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16548/40080 [3:21:50<4:45:07,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16549/40080 [3:21:51<4:44:57,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16550/40080 [3:21:52<4:44:36,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.417, 'grad_norm': 4.0, 'learning_rate': 1.5900084617489915e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2387.53, 'epoch': 1.65}
+ 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16550/40080 [3:21:52<4:44:36,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16551/40080 [3:21:52<4:45:13,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16552/40080 [3:21:53<4:45:28,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16553/40080 [3:21:54<4:45:26,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16554/40080 [3:21:55<4:45:12,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16555/40080 [3:21:55<4:45:10,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16556/40080 [3:21:56<4:45:03,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16557/40080 [3:21:57<4:44:59,  1.38it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16558/40080 [3:21:58<4:45:17,  1.37it/s] 41%|████████████████████████████████████████████████████████████████████▉                                                                                                  | 16559/40080 [3:21:58<4:45:02,  1.38it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16560/40080 [3:21:59<4:45:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3809, 'grad_norm': 4.125, 'learning_rate': 1.589064569736728e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.95, 'epoch': 1.65}
+ 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16560/40080 [3:21:59<4:45:20,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16561/40080 [3:22:00<4:45:46,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16562/40080 [3:22:01<4:45:49,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16563/40080 [3:22:01<4:45:42,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16564/40080 [3:22:02<4:45:20,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16565/40080 [3:22:03<4:46:03,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16566/40080 [3:22:03<4:46:05,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16567/40080 [3:22:04<4:45:54,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16568/40080 [3:22:05<4:45:51,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16569/40080 [3:22:06<4:45:39,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16570/40080 [3:22:06<4:45:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3531, 'grad_norm': 3.359375, 'learning_rate': 1.588120468990079e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2408.9, 'epoch': 1.65}
+ 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16570/40080 [3:22:06<4:45:30,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16571/40080 [3:22:07<4:45:44,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16572/40080 [3:22:08<4:45:29,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16573/40080 [3:22:09<4:45:57,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16574/40080 [3:22:09<4:45:40,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16575/40080 [3:22:10<4:45:40,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16576/40080 [3:22:11<4:45:39,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16577/40080 [3:22:11<4:45:41,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16578/40080 [3:22:12<4:45:33,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16579/40080 [3:22:13<4:45:38,  1.37it/s] 41%|███████████���█████████████████████████████████████████████████████████                                                                                                  | 16580/40080 [3:22:14<4:45:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3421, 'grad_norm': 3.375, 'learning_rate': 1.587176160090251e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2414.67, 'epoch': 1.66}
+ 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16580/40080 [3:22:14<4:45:39,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16581/40080 [3:22:14<4:45:30,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16582/40080 [3:22:15<4:45:07,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16583/40080 [3:22:16<4:45:13,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16584/40080 [3:22:17<4:44:35,  1.38it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16585/40080 [3:22:17<4:44:52,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16586/40080 [3:22:18<4:45:20,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16587/40080 [3:22:19<4:45:06,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16588/40080 [3:22:19<4:45:22,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████                                                                                                  | 16589/40080 [3:22:20<4:45:15,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16590/40080 [3:22:21<4:45:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4134, 'grad_norm': 3.46875, 'learning_rate': 1.5862316436185782e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.99, 'epoch': 1.66}
+ 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16590/40080 [3:22:21<4:45:14,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16591/40080 [3:22:22<4:45:19,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16592/40080 [3:22:22<4:44:57,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16593/40080 [3:22:23<4:44:46,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16594/40080 [3:22:24<4:44:25,  1.38it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16595/40080 [3:22:25<4:44:42,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16596/40080 [3:22:25<4:44:43,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16597/40080 [3:22:26<4:44:19,  1.38it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16598/40080 [3:22:27<4:44:38,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16599/40080 [3:22:27<4:45:00,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16600/40080 [3:22:28<4:45:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3659, 'grad_norm': 3.640625, 'learning_rate': 1.5852869201565212e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2281.18, 'epoch': 1.66}
+ 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16600/40080 [3:22:28<4:45:02,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16601/40080 [3:22:29<4:45:20,  1.37it/s] 41%|██████████████���██████████████████████████████████████████████████████▏                                                                                                 | 16602/40080 [3:22:30<4:45:32,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16603/40080 [3:22:30<4:45:34,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16604/40080 [3:22:31<4:45:46,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16605/40080 [3:22:32<4:45:15,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16606/40080 [3:22:33<4:45:34,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16607/40080 [3:22:33<4:44:47,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16608/40080 [3:22:34<4:44:39,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16609/40080 [3:22:35<4:44:53,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16610/40080 [3:22:35<4:44:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4214, 'grad_norm': 4.3125, 'learning_rate': 1.58434199028567e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2543.05, 'epoch': 1.66}
+ 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16610/40080 [3:22:35<4:44:56,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16611/40080 [3:22:36<4:45:12,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16612/40080 [3:22:37<4:45:07,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16613/40080 [3:22:38<4:45:08,  1.37it/s] 41%|██████████████████████████████���██████████████████████████████████████▏                                                                                                 | 16614/40080 [3:22:38<4:45:03,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16615/40080 [3:22:39<4:44:49,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16616/40080 [3:22:40<4:45:11,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16617/40080 [3:22:41<4:45:07,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16618/40080 [3:22:41<4:44:41,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                 | 16619/40080 [3:22:42<4:44:39,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16620/40080 [3:22:43<4:44:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3908, 'grad_norm': 3.671875, 'learning_rate': 1.5833968545877414e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2384.86, 'epoch': 1.66}
+ 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16620/40080 [3:22:43<4:44:36,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16621/40080 [3:22:43<4:45:07,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16622/40080 [3:22:44<4:45:21,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16623/40080 [3:22:45<4:45:06,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16624/40080 [3:22:46<4:44:54,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16625/40080 [3:22:46<4:44:44,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16626/40080 [3:22:47<4:44:33,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16627/40080 [3:22:48<4:44:59,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16628/40080 [3:22:49<4:44:51,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16629/40080 [3:22:49<4:44:34,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16630/40080 [3:22:50<4:44:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3862, 'grad_norm': 4.375, 'learning_rate': 1.582451513644577e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2239.67, 'epoch': 1.66}
+ 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16630/40080 [3:22:50<4:44:27,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16631/40080 [3:22:51<4:44:54,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16632/40080 [3:22:52<4:44:23,  1.37it/s] 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16633/40080 [3:22:52<4:44:36,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16634/40080 [3:22:53<4:44:21,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16635/40080 [3:22:54<4:44:25,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16636/40080 [3:22:54<4:44:13,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16637/40080 [3:22:55<4:44:22,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16638/40080 [3:22:56<4:44:31,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16639/40080 [3:22:57<4:44:29,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16640/40080 [3:22:57<4:44:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3207, 'grad_norm': 2.515625, 'learning_rate': 1.581505968038147e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2575.84, 'epoch': 1.66}
+ 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16640/40080 [3:22:57<4:44:19,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16641/40080 [3:22:58<4:44:29,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16642/40080 [3:22:59<4:44:03,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16643/40080 [3:23:00<4:44:26,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16644/40080 [3:23:00<4:44:15,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16645/40080 [3:23:01<4:44:24,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16646/40080 [3:23:02<4:44:21,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16647/40080 [3:23:02<4:44:36,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16648/40080 [3:23:03<4:44:35,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                 | 16649/40080 [3:23:04<4:44:27,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16650/40080 [3:23:05<4:44:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.335, 'grad_norm': 2.890625, 'learning_rate': 1.5805602183505465e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.88, 'epoch': 1.66}
+ 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16650/40080 [3:23:05<4:44:37,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16651/40080 [3:23:05<4:45:10,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16652/40080 [3:23:06<4:44:29,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16653/40080 [3:23:07<4:44:42,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16654/40080 [3:23:08<4:44:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16655/40080 [3:23:08<4:44:39,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16656/40080 [3:23:09<4:44:17,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16657/40080 [3:23:10<4:44:16,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16658/40080 [3:23:10<4:44:14,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16659/40080 [3:23:11<4:44:25,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16660/40080 [3:23:12<4:44:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3879, 'grad_norm': 3.421875, 'learning_rate': 1.5796142651639957e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2404.77, 'epoch': 1.66}
+ 42%|███████████████████████████████████████████████████████��█████████████▍                                                                                                 | 16660/40080 [3:23:12<4:44:44,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16661/40080 [3:23:13<4:44:52,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16662/40080 [3:23:13<4:44:55,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16663/40080 [3:23:14<4:44:31,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16664/40080 [3:23:15<4:44:30,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16665/40080 [3:23:16<4:44:38,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16666/40080 [3:23:16<4:46:18,  1.36it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16667/40080 [3:23:17<4:45:57,  1.36it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16668/40080 [3:23:18<4:46:01,  1.36it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16669/40080 [3:23:18<4:45:30,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16670/40080 [3:23:19<4:45:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4161, 'grad_norm': 3.859375, 'learning_rate': 1.5786681090608416e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2511.88, 'epoch': 1.66}
+ 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16670/40080 [3:23:19<4:45:47,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16671/40080 [3:23:20<4:45:18,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16672/40080 [3:23:21<4:45:12,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16673/40080 [3:23:21<4:44:24,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16674/40080 [3:23:22<4:44:27,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16675/40080 [3:23:23<4:45:15,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16676/40080 [3:23:24<4:44:53,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16677/40080 [3:23:24<4:44:36,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16678/40080 [3:23:25<4:44:04,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▍                                                                                                 | 16679/40080 [3:23:26<4:43:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16680/40080 [3:23:27<4:44:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3874, 'grad_norm': 2.546875, 'learning_rate': 1.5777217506235548e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2527.54, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16680/40080 [3:23:27<4:44:17,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16681/40080 [3:23:27<4:44:28,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16682/40080 [3:23:28<4:44:02,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16683/40080 [3:23:29<4:43:57,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16684/40080 [3:23:29<4:43:43,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16685/40080 [3:23:30<4:43:25,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16686/40080 [3:23:31<4:43:48,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16687/40080 [3:23:32<4:43:47,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16688/40080 [3:23:32<4:43:32,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16689/40080 [3:23:33<4:43:31,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16690/40080 [3:23:34<4:43:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3629, 'grad_norm': 3.453125, 'learning_rate': 1.5767751904347317e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2237.65, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16690/40080 [3:23:34<4:43:49,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16691/40080 [3:23:35<4:43:38,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16692/40080 [3:23:35<4:43:31,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16693/40080 [3:23:36<4:43:53,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16694/40080 [3:23:37<4:42:59,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16695/40080 [3:23:37<4:43:32,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16696/40080 [3:23:38<4:43:19,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16697/40080 [3:23:39<4:43:19,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16698/40080 [3:23:40<4:43:05,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16699/40080 [3:23:40<4:43:00,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16700/40080 [3:23:41<4:43:12,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.364, 'grad_norm': 3.015625, 'learning_rate': 1.5758284290770914e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2209.74, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16700/40080 [3:23:41<4:43:12,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16701/40080 [3:23:42<4:43:49,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16702/40080 [3:23:43<4:43:07,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16703/40080 [3:23:43<4:43:22,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16704/40080 [3:23:44<4:43:08,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16705/40080 [3:23:45<4:43:23,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16706/40080 [3:23:45<4:43:13,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16707/40080 [3:23:46<4:43:20,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16708/40080 [3:23:47<4:43:24,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                 | 16709/40080 [3:23:48<4:43:15,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16710/40080 [3:23:48<4:43:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3857, 'grad_norm': 2.3125, 'learning_rate': 1.5748814671334776e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2325.27, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16710/40080 [3:23:48<4:43:26,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16711/40080 [3:23:49<4:43:30,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16712/40080 [3:23:50<4:43:51,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16713/40080 [3:23:51<4:43:58,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16714/40080 [3:23:51<4:43:51,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16715/40080 [3:23:52<4:43:11,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16716/40080 [3:23:53<4:43:52,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16717/40080 [3:23:53<4:43:28,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16718/40080 [3:23:54<4:43:57,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16719/40080 [3:23:55<4:43:17,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16720/40080 [3:23:56<4:42:40,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3689, 'grad_norm': 3.265625, 'learning_rate': 1.5739343051868575e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.77, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16720/40080 [3:23:56<4:42:40,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16721/40080 [3:23:56<4:43:06,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16722/40080 [3:23:57<4:43:38,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16723/40080 [3:23:58<4:43:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16724/40080 [3:23:59<4:43:31,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16725/40080 [3:23:59<4:43:42,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16726/40080 [3:24:00<4:43:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16727/40080 [3:24:01<4:43:04,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16728/40080 [3:24:01<4:42:57,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16729/40080 [3:24:02<4:43:29,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16730/40080 [3:24:03<4:42:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3742, 'grad_norm': 3.578125, 'learning_rate': 1.5729869438203224e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2231.08, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16730/40080 [3:24:03<4:42:56,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16731/40080 [3:24:04<4:43:05,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16732/40080 [3:24:04<4:42:53,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16733/40080 [3:24:05<4:43:22,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16734/40080 [3:24:06<4:43:16,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16735/40080 [3:24:07<4:42:42,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16736/40080 [3:24:07<4:42:43,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16737/40080 [3:24:08<4:42:46,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16738/40080 [3:24:09<4:43:25,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▋                                                                                                 | 16739/40080 [3:24:09<4:44:00,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16740/40080 [3:24:10<4:44:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4107, 'grad_norm': 3.90625, 'learning_rate': 1.572039383617084e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.55, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16740/40080 [3:24:10<4:44:13,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16741/40080 [3:24:11<4:44:33,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16742/40080 [3:24:12<4:44:43,  1.37it/s] 42%|██████���██████████████████████████████████████████████████████████████▊                                                                                                 | 16743/40080 [3:24:12<4:43:45,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16744/40080 [3:24:13<4:43:02,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16745/40080 [3:24:14<4:42:27,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16746/40080 [3:24:15<4:42:44,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16747/40080 [3:24:15<4:42:59,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16748/40080 [3:24:16<4:42:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16749/40080 [3:24:17<4:42:53,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16750/40080 [3:24:17<4:42:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4331, 'grad_norm': 3.21875, 'learning_rate': 1.5710916251604784e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2454.2, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16750/40080 [3:24:17<4:42:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16751/40080 [3:24:18<4:43:11,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16752/40080 [3:24:19<4:42:56,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16753/40080 [3:24:20<4:43:06,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16754/40080 [3:24:20<4:43:19,  1.37it/s] 42%|█████████████████████��███████████████████████████████████████████████▊                                                                                                 | 16755/40080 [3:24:21<4:42:32,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16756/40080 [3:24:22<4:42:45,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16757/40080 [3:24:23<4:42:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16758/40080 [3:24:23<4:43:07,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16759/40080 [3:24:24<4:43:10,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16760/40080 [3:24:25<4:43:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.452, 'grad_norm': 3.25, 'learning_rate': 1.5701436690339638e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.6, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16760/40080 [3:24:25<4:43:00,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16761/40080 [3:24:25<4:43:03,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16762/40080 [3:24:26<4:42:27,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16763/40080 [3:24:27<4:42:25,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16764/40080 [3:24:28<4:42:47,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16765/40080 [3:24:28<4:43:00,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16766/40080 [3:24:29<4:43:12,  1.37it/s] 42%|██████████████████████████████████████���██████████████████████████████▊                                                                                                 | 16767/40080 [3:24:30<4:43:00,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16768/40080 [3:24:31<4:42:50,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                 | 16769/40080 [3:24:31<4:43:40,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16770/40080 [3:24:32<4:43:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3565, 'grad_norm': 3.546875, 'learning_rate': 1.5691955158211184e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2365.04, 'epoch': 1.67}
+ 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16770/40080 [3:24:32<4:43:44,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16771/40080 [3:24:33<4:43:32,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16772/40080 [3:24:33<4:43:04,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16773/40080 [3:24:34<4:42:35,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16774/40080 [3:24:35<4:42:09,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16775/40080 [3:24:36<4:42:56,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16776/40080 [3:24:36<4:42:28,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16777/40080 [3:24:37<4:42:32,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16778/40080 [3:24:38<4:42:22,  1.38it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16779/40080 [3:24:39<4:42:41,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16780/40080 [3:24:39<4:43:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.349, 'grad_norm': 2.984375, 'learning_rate': 1.568247166105643e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2299.09, 'epoch': 1.68}
+ 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16780/40080 [3:24:39<4:43:21,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16781/40080 [3:24:40<4:43:12,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16782/40080 [3:24:41<4:43:13,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16783/40080 [3:24:41<4:44:04,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16784/40080 [3:24:42<4:44:28,  1.36it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16785/40080 [3:24:43<4:44:09,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16786/40080 [3:24:44<4:43:27,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16787/40080 [3:24:44<4:43:38,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16788/40080 [3:24:45<4:43:19,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16789/40080 [3:24:46<4:42:29,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16790/40080 [3:24:47<4:42:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3882, 'grad_norm': 3.8125, 'learning_rate': 1.5672986204713598e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2208.28, 'epoch': 1.68}
+ 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16790/40080 [3:24:47<4:42:28,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16791/40080 [3:24:47<4:42:42,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16792/40080 [3:24:48<4:43:28,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16793/40080 [3:24:49<4:43:33,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16794/40080 [3:24:50<4:43:22,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16795/40080 [3:24:50<4:43:35,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16796/40080 [3:24:51<4:42:53,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16797/40080 [3:24:52<4:42:20,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16798/40080 [3:24:52<4:42:42,  1.37it/s] 42%|█████████████████████████████████████████████████████████████████████▉                                                                                                 | 16799/40080 [3:24:53<4:42:12,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16800/40080 [3:24:54<4:42:04,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4115, 'grad_norm': 5.34375, 'learning_rate': 1.5663498795022097e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2439.72, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16800/40080 [3:24:54<4:42:04,  1.38it/s] 42%|████████████████████████████████████████████████��█████████████████████                                                                                                 | 16801/40080 [3:24:55<4:43:05,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16802/40080 [3:24:55<4:43:31,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16803/40080 [3:24:56<4:43:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16804/40080 [3:24:57<4:42:41,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16805/40080 [3:24:58<4:42:57,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16806/40080 [3:24:58<4:42:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16807/40080 [3:24:59<4:42:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16808/40080 [3:25:00<4:42:26,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16809/40080 [3:25:00<4:41:59,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16810/40080 [3:25:01<4:42:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3846, 'grad_norm': 3.390625, 'learning_rate': 1.565400943782256e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.8, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16810/40080 [3:25:01<4:42:17,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16811/40080 [3:25:02<4:42:07,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16812/40080 [3:25:03<4:42:47,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16813/40080 [3:25:03<4:43:04,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16814/40080 [3:25:04<4:42:25,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16815/40080 [3:25:05<4:42:35,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16816/40080 [3:25:06<4:42:02,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16817/40080 [3:25:06<4:41:44,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16818/40080 [3:25:07<4:41:47,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16819/40080 [3:25:08<4:42:09,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16820/40080 [3:25:08<4:42:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3985, 'grad_norm': 3.953125, 'learning_rate': 1.5644518138956807e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2551.87, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16820/40080 [3:25:08<4:42:19,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16821/40080 [3:25:09<4:42:44,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16822/40080 [3:25:10<4:42:33,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16823/40080 [3:25:11<4:42:01,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16824/40080 [3:25:11<4:42:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16825/40080 [3:25:12<4:41:56,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16826/40080 [3:25:13<4:42:19,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16827/40080 [3:25:14<4:42:17,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16828/40080 [3:25:14<4:41:57,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████                                                                                                 | 16829/40080 [3:25:15<4:41:39,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16830/40080 [3:25:16<4:41:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3768, 'grad_norm': 2.890625, 'learning_rate': 1.563502490426786e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.68, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16830/40080 [3:25:16<4:41:59,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16831/40080 [3:25:16<4:41:51,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16832/40080 [3:25:17<4:42:02,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16833/40080 [3:25:18<4:42:21,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16834/40080 [3:25:19<4:42:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16835/40080 [3:25:19<4:42:29,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16836/40080 [3:25:20<4:42:16,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16837/40080 [3:25:21<4:41:32,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16838/40080 [3:25:22<4:41:58,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16839/40080 [3:25:22<4:41:34,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16840/40080 [3:25:23<4:41:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4268, 'grad_norm': 3.5625, 'learning_rate': 1.562552973959992e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2554.16, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16840/40080 [3:25:23<4:41:58,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16841/40080 [3:25:24<4:42:24,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16842/40080 [3:25:24<4:42:28,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16843/40080 [3:25:25<4:42:23,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16844/40080 [3:25:26<4:42:24,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16845/40080 [3:25:27<4:42:15,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16846/40080 [3:25:27<4:41:35,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16847/40080 [3:25:28<4:41:47,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16848/40080 [3:25:29<4:41:52,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16849/40080 [3:25:30<4:41:48,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16850/40080 [3:25:30<4:41:30,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.38, 'grad_norm': 3.90625, 'learning_rate': 1.5616032650798397e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.33, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16850/40080 [3:25:30<4:41:30,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16851/40080 [3:25:31<4:42:13,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16852/40080 [3:25:32<4:42:16,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16853/40080 [3:25:32<4:41:38,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16854/40080 [3:25:33<4:41:30,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16855/40080 [3:25:34<4:41:38,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16856/40080 [3:25:35<4:41:28,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16857/40080 [3:25:35<4:42:24,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16858/40080 [3:25:36<4:42:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                | 16859/40080 [3:25:37<4:42:07,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16860/40080 [3:25:38<4:41:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3558, 'grad_norm': 3.078125, 'learning_rate': 1.5606533643709865e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.43, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16860/40080 [3:25:38<4:41:55,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16861/40080 [3:25:38<4:42:21,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16862/40080 [3:25:39<4:42:13,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16863/40080 [3:25:40<4:42:19,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16864/40080 [3:25:41<4:41:57,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16865/40080 [3:25:41<4:41:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16866/40080 [3:25:42<4:41:34,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16867/40080 [3:25:43<4:41:42,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16868/40080 [3:25:43<4:41:43,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16869/40080 [3:25:44<4:41:47,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16870/40080 [3:25:45<4:41:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3928, 'grad_norm': 3.265625, 'learning_rate': 1.5597032724182085e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2344.73, 'epoch': 1.68}
+ 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16870/40080 [3:25:45<4:41:54,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16871/40080 [3:25:46<4:42:13,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16872/40080 [3:25:46<4:41:55,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16873/40080 [3:25:47<4:41:40,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16874/40080 [3:25:48<4:42:02,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16875/40080 [3:25:49<4:42:05,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16876/40080 [3:25:49<4:42:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16877/40080 [3:25:50<4:42:23,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16878/40080 [3:25:51<4:41:58,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16879/40080 [3:25:51<4:42:18,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16880/40080 [3:25:52<4:42:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.387, 'grad_norm': 3.34375, 'learning_rate': 1.5587529898064008e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2487.74, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16880/40080 [3:25:52<4:42:00,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16881/40080 [3:25:53<4:42:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16882/40080 [3:25:54<4:41:52,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16883/40080 [3:25:54<4:41:23,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16884/40080 [3:25:55<4:41:43,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16885/40080 [3:25:56<4:41:34,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16886/40080 [3:25:57<4:42:01,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16887/40080 [3:25:57<4:41:54,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16888/40080 [3:25:58<4:41:37,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▎                                                                                                | 16889/40080 [3:25:59<4:41:33,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16890/40080 [3:25:59<4:41:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4158, 'grad_norm': 2.84375, 'learning_rate': 1.5578025171205742e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2609.74, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16890/40080 [3:25:59<4:41:30,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16891/40080 [3:26:00<4:42:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16892/40080 [3:26:01<4:42:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16893/40080 [3:26:02<4:41:53,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16894/40080 [3:26:02<4:41:49,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16895/40080 [3:26:03<4:42:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16896/40080 [3:26:04<4:42:06,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16897/40080 [3:26:05<4:42:04,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16898/40080 [3:26:05<4:41:48,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16899/40080 [3:26:06<4:41:29,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16900/40080 [3:26:07<4:41:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4049, 'grad_norm': 2.765625, 'learning_rate': 1.556851854945857e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.82, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16900/40080 [3:26:07<4:41:28,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16901/40080 [3:26:07<4:42:00,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16902/40080 [3:26:08<4:41:24,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16903/40080 [3:26:09<4:41:39,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16904/40080 [3:26:10<4:41:28,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16905/40080 [3:26:10<4:40:37,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16906/40080 [3:26:11<4:40:52,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16907/40080 [3:26:12<4:40:48,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16908/40080 [3:26:13<4:40:37,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16909/40080 [3:26:13<4:40:49,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16910/40080 [3:26:14<4:41:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3692, 'grad_norm': 2.9375, 'learning_rate': 1.5559010038674947e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2474.13, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16910/40080 [3:26:14<4:41:05,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16911/40080 [3:26:15<4:41:35,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16912/40080 [3:26:15<4:41:12,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16913/40080 [3:26:16<4:41:21,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16914/40080 [3:26:17<4:41:05,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16915/40080 [3:26:18<4:41:29,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16916/40080 [3:26:18<4:41:18,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16917/40080 [3:26:19<4:41:37,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16918/40080 [3:26:20<4:41:26,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                | 16919/40080 [3:26:21<4:41:26,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16920/40080 [3:26:21<4:41:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3821, 'grad_norm': 3.5625, 'learning_rate': 1.5549499644708487e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.96, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16920/40080 [3:26:21<4:41:51,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16921/40080 [3:26:22<4:41:11,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16922/40080 [3:26:23<4:41:09,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16923/40080 [3:26:24<4:41:30,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16924/40080 [3:26:24<4:41:23,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16925/40080 [3:26:25<4:40:59,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16926/40080 [3:26:26<4:40:45,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16927/40080 [3:26:26<4:40:55,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16928/40080 [3:26:27<4:40:20,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16929/40080 [3:26:28<4:40:12,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16930/40080 [3:26:29<4:40:27,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.413, 'grad_norm': 4.15625, 'learning_rate': 1.5539987373413965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2518.36, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16930/40080 [3:26:29<4:40:27,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16931/40080 [3:26:29<4:41:11,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16932/40080 [3:26:30<4:41:02,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16933/40080 [3:26:31<4:40:57,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16934/40080 [3:26:32<4:40:45,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16935/40080 [3:26:32<4:41:31,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16936/40080 [3:26:33<4:40:52,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16937/40080 [3:26:34<4:40:19,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16938/40080 [3:26:34<4:40:10,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16939/40080 [3:26:35<4:40:20,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16940/40080 [3:26:36<4:39:47,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3526, 'grad_norm': 3.453125, 'learning_rate': 1.55304732306473e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2397.02, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16940/40080 [3:26:36<4:39:47,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16941/40080 [3:26:37<4:39:58,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16942/40080 [3:26:37<4:40:01,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16943/40080 [3:26:38<4:40:15,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16944/40080 [3:26:39<4:40:30,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16945/40080 [3:26:40<4:42:15,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16946/40080 [3:26:40<4:41:39,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16947/40080 [3:26:41<4:40:55,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16948/40080 [3:26:42<4:40:40,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                | 16949/40080 [3:26:42<4:41:02,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16950/40080 [3:26:43<4:40:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3766, 'grad_norm': 3.375, 'learning_rate': 1.5520957222265587e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2398.92, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16950/40080 [3:26:43<4:40:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16951/40080 [3:26:44<4:40:57,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16952/40080 [3:26:45<4:40:58,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16953/40080 [3:26:45<4:41:07,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16954/40080 [3:26:46<4:41:00,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16955/40080 [3:26:47<4:41:23,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16956/40080 [3:26:48<4:41:24,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16957/40080 [3:26:48<4:41:25,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16958/40080 [3:26:49<4:41:00,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16959/40080 [3:26:50<4:41:28,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16960/40080 [3:26:50<4:40:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3504, 'grad_norm': 3.5625, 'learning_rate': 1.551143935412705e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.84, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16960/40080 [3:26:50<4:40:54,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16961/40080 [3:26:51<4:41:06,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16962/40080 [3:26:52<4:40:47,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16963/40080 [3:26:53<4:40:29,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16964/40080 [3:26:53<4:40:14,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16965/40080 [3:26:54<4:40:02,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16966/40080 [3:26:55<4:40:11,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16967/40080 [3:26:56<4:40:05,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16968/40080 [3:26:56<4:40:34,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16969/40080 [3:26:57<4:40:22,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16970/40080 [3:26:58<4:41:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4094, 'grad_norm': 2.84375, 'learning_rate': 1.550191963209106e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2456.33, 'epoch': 1.69}
+ 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16970/40080 [3:26:58<4:41:01,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16971/40080 [3:26:58<4:41:19,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16972/40080 [3:26:59<4:40:44,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16973/40080 [3:27:00<4:40:34,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16974/40080 [3:27:01<4:40:41,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16975/40080 [3:27:01<4:41:09,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16976/40080 [3:27:02<4:40:56,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16977/40080 [3:27:03<4:40:49,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16978/40080 [3:27:04<4:40:31,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                | 16979/40080 [3:27:04<4:40:47,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16980/40080 [3:27:05<4:40:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4063, 'grad_norm': 3.8125, 'learning_rate': 1.549239806201813e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.78, 'epoch': 1.7}
+ 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16980/40080 [3:27:05<4:40:35,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16981/40080 [3:27:06<4:41:09,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16982/40080 [3:27:06<4:40:59,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16983/40080 [3:27:07<4:40:47,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16984/40080 [3:27:08<4:41:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16985/40080 [3:27:09<4:40:46,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16986/40080 [3:27:09<4:40:38,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16987/40080 [3:27:10<4:40:41,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16988/40080 [3:27:11<4:40:52,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16989/40080 [3:27:12<4:40:19,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16990/40080 [3:27:12<4:39:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3787, 'grad_norm': 3.65625, 'learning_rate': 1.548287464976993e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.8, 'epoch': 1.7}
+ 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16990/40080 [3:27:12<4:39:52,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16991/40080 [3:27:13<4:40:27,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16992/40080 [3:27:14<4:41:20,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16993/40080 [3:27:15<4:41:44,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16994/40080 [3:27:15<4:41:15,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16995/40080 [3:27:16<4:41:12,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16996/40080 [3:27:17<4:41:07,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16997/40080 [3:27:17<4:40:56,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16998/40080 [3:27:18<4:41:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 16999/40080 [3:27:19<4:40:21,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17000/40080 [3:27:20<4:40:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3975, 'grad_norm': 3.875, 'learning_rate': 1.5473349401209235e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2492.42, 'epoch': 1.7}
+ 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17000/40080 [3:27:20<4:40:25,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17001/40080 [3:27:20<4:41:05,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17002/40080 [3:27:21<4:41:28,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17003/40080 [3:27:22<4:40:56,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17004/40080 [3:27:23<4:40:48,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17005/40080 [3:27:23<4:40:43,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17006/40080 [3:27:24<4:40:55,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17007/40080 [3:27:25<4:40:41,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17008/40080 [3:27:25<4:40:31,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▊                                                                                                | 17009/40080 [3:27:26<4:40:10,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17010/40080 [3:27:27<4:40:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.346, 'grad_norm': 3.34375, 'learning_rate': 1.5463822322199965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2476.92, 'epoch': 1.7}
+ 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17010/40080 [3:27:27<4:40:04,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17011/40080 [3:27:28<4:40:17,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17012/40080 [3:27:28<4:40:07,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17013/40080 [3:27:29<4:40:17,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17014/40080 [3:27:30<4:40:40,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17015/40080 [3:27:31<4:40:05,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17016/40080 [3:27:31<4:40:18,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17017/40080 [3:27:32<4:40:14,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17018/40080 [3:27:33<4:39:56,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17019/40080 [3:27:33<4:39:41,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17020/40080 [3:27:34<4:39:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4391, 'grad_norm': 3.875, 'learning_rate': 1.5454293418607165e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.57, 'epoch': 1.7}
+ 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17020/40080 [3:27:34<4:39:48,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17021/40080 [3:27:35<4:40:02,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17022/40080 [3:27:36<4:39:41,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17023/40080 [3:27:36<4:39:09,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17024/40080 [3:27:37<4:39:48,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17025/40080 [3:27:38<4:39:22,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17026/40080 [3:27:39<4:39:17,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17027/40080 [3:27:39<4:38:52,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17028/40080 [3:27:40<4:39:06,  1.38it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17029/40080 [3:27:41<4:39:34,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17030/40080 [3:27:41<4:40:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4231, 'grad_norm': 3.78125, 'learning_rate': 1.5444762696297e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2519.85, 'epoch': 1.7}
+ 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17030/40080 [3:27:41<4:40:00,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17031/40080 [3:27:42<4:40:01,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17032/40080 [3:27:43<4:40:03,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17033/40080 [3:27:44<4:39:59,  1.37it/s] 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17034/40080 [3:27:44<4:39:47,  1.37it/s] 43%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17035/40080 [3:27:45<4:39:50,  1.37it/s] 43%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17036/40080 [3:27:46<4:39:27,  1.37it/s] 43%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17037/40080 [3:27:47<4:39:49,  1.37it/s] 43%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17038/40080 [3:27:47<4:39:48,  1.37it/s] 43%|██████████████████████████████████████████████████████████████████████▉                                                                                                | 17039/40080 [3:27:48<4:39:40,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17040/40080 [3:27:49<4:39:15,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3371, 'grad_norm': 2.609375, 'learning_rate': 1.543523016113677e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.54, 'epoch': 1.7}
+ 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17040/40080 [3:27:49<4:39:15,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17041/40080 [3:27:49<4:39:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17042/40080 [3:27:50<4:39:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17043/40080 [3:27:51<4:40:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17044/40080 [3:27:52<4:39:45,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17045/40080 [3:27:52<4:39:14,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17046/40080 [3:27:53<4:39:01,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17047/40080 [3:27:54<4:39:41,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17048/40080 [3:27:55<4:39:50,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17049/40080 [3:27:55<4:40:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17050/40080 [3:27:56<4:39:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3675, 'grad_norm': 3.71875, 'learning_rate': 1.5425695818994866e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2325.39, 'epoch': 1.7}
+ 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17050/40080 [3:27:56<4:39:39,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17051/40080 [3:27:57<4:39:27,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17052/40080 [3:27:58<4:39:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17053/40080 [3:27:58<4:39:25,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17054/40080 [3:27:59<4:39:37,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17055/40080 [3:28:00<4:39:41,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17056/40080 [3:28:00<4:39:22,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17057/40080 [3:28:01<4:40:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17058/40080 [3:28:02<4:40:33,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17059/40080 [3:28:03<4:40:34,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17060/40080 [3:28:03<4:40:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3579, 'grad_norm': 3.34375, 'learning_rate': 1.541615967574081e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.2, 'epoch': 1.7}
+ 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17060/40080 [3:28:03<4:40:34,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17061/40080 [3:28:04<4:40:25,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17062/40080 [3:28:05<5:24:22,  1.18it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17063/40080 [3:28:06<5:10:45,  1.23it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17064/40080 [3:28:07<5:00:40,  1.28it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17065/40080 [3:28:07<4:54:15,  1.30it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17066/40080 [3:28:08<4:50:12,  1.32it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17067/40080 [3:28:09<4:46:54,  1.34it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17068/40080 [3:28:10<4:44:53,  1.35it/s] 43%|███████████████████████████████████████████████████████████████████████                                                                                                | 17069/40080 [3:28:10<4:43:21,  1.35it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17070/40080 [3:28:11<4:42:23,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3883, 'grad_norm': 3.140625, 'learning_rate': 1.5406621737245226e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2495.58, 'epoch': 1.7}
+ 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17070/40080 [3:28:11<4:42:23,  1.36it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17071/40080 [3:28:12<4:42:01,  1.36it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17072/40080 [3:28:12<4:41:24,  1.36it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17073/40080 [3:28:13<4:41:18,  1.36it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17074/40080 [3:28:14<4:40:30,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17075/40080 [3:28:15<4:40:41,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17076/40080 [3:28:15<4:40:35,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17077/40080 [3:28:16<4:40:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17078/40080 [3:28:17<4:40:25,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17079/40080 [3:28:18<4:39:41,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17080/40080 [3:28:18<4:39:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3456, 'grad_norm': 2.625, 'learning_rate': 1.5397082009379846e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2488.74, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17080/40080 [3:28:18<4:39:57,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17081/40080 [3:28:19<4:40:12,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17082/40080 [3:28:20<4:39:40,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17083/40080 [3:28:21<4:39:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17084/40080 [3:28:21<4:39:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17085/40080 [3:28:22<4:40:11,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17086/40080 [3:28:23<4:39:43,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17087/40080 [3:28:23<4:39:57,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17088/40080 [3:28:24<4:39:16,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17089/40080 [3:28:25<4:39:27,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17090/40080 [3:28:26<4:38:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3776, 'grad_norm': 3.109375, 'learning_rate': 1.53875404980175e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2355.56, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17090/40080 [3:28:26<4:38:40,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17091/40080 [3:28:26<4:38:46,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17092/40080 [3:28:27<4:38:54,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17093/40080 [3:28:28<4:38:42,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17094/40080 [3:28:29<4:38:39,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17095/40080 [3:28:29<4:39:04,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17096/40080 [3:28:30<4:38:34,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17097/40080 [3:28:31<4:38:33,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17098/40080 [3:28:31<4:38:52,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▏                                                                                               | 17099/40080 [3:28:32<4:38:34,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17100/40080 [3:28:33<4:38:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3787, 'grad_norm': 3.296875, 'learning_rate': 1.5377997209032118e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2322.53, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17100/40080 [3:28:33<4:38:49,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17101/40080 [3:28:34<4:39:11,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17102/40080 [3:28:34<4:39:28,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17103/40080 [3:28:35<4:39:08,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17104/40080 [3:28:36<4:38:50,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17105/40080 [3:28:37<4:38:41,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17106/40080 [3:28:37<4:38:36,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17107/40080 [3:28:38<4:38:52,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17108/40080 [3:28:39<4:38:43,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17109/40080 [3:28:39<4:38:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17110/40080 [3:28:40<4:38:01,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3667, 'grad_norm': 3.140625, 'learning_rate': 1.5368452148298727e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2528.23, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17110/40080 [3:28:40<4:38:01,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17111/40080 [3:28:41<4:38:24,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17112/40080 [3:28:42<4:38:05,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17113/40080 [3:28:42<4:38:50,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17114/40080 [3:28:43<4:38:31,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17115/40080 [3:28:44<4:38:53,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17116/40080 [3:28:45<4:39:05,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17117/40080 [3:28:45<4:38:43,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17118/40080 [3:28:46<4:38:21,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17119/40080 [3:28:47<4:38:30,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17120/40080 [3:28:47<4:38:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4305, 'grad_norm': 3.328125, 'learning_rate': 1.5358905321693437e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2625.61, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17120/40080 [3:28:47<4:38:33,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17121/40080 [3:28:48<4:39:02,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17122/40080 [3:28:49<4:39:08,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17123/40080 [3:28:50<4:38:52,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17124/40080 [3:28:50<4:39:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17125/40080 [3:28:51<4:39:05,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17126/40080 [3:28:52<4:38:27,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17127/40080 [3:28:53<4:38:41,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17128/40080 [3:28:53<4:38:05,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                               | 17129/40080 [3:28:54<4:38:02,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17130/40080 [3:28:55<4:38:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3983, 'grad_norm': 2.75, 'learning_rate': 1.5349356735093456e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.55, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17130/40080 [3:28:55<4:38:21,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17131/40080 [3:28:55<4:38:04,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17132/40080 [3:28:56<4:38:03,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17133/40080 [3:28:57<4:37:41,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17134/40080 [3:28:58<4:37:36,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17135/40080 [3:28:58<4:37:17,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17136/40080 [3:28:59<4:37:23,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17137/40080 [3:29:00<4:37:42,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17138/40080 [3:29:01<4:38:03,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17139/40080 [3:29:01<4:38:18,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17140/40080 [3:29:02<4:38:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4107, 'grad_norm': 2.921875, 'learning_rate': 1.533980639437706e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2471.1, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17140/40080 [3:29:02<4:38:30,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17141/40080 [3:29:03<4:39:34,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17142/40080 [3:29:03<4:39:03,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17143/40080 [3:29:04<4:38:53,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17144/40080 [3:29:05<4:38:28,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17145/40080 [3:29:06<4:38:23,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17146/40080 [3:29:06<4:38:44,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17147/40080 [3:29:07<4:38:32,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17148/40080 [3:29:08<4:38:34,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17149/40080 [3:29:09<4:39:02,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17150/40080 [3:29:09<4:39:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3888, 'grad_norm': 2.84375, 'learning_rate': 1.533025430542363e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2560.99, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17150/40080 [3:29:09<4:39:04,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17151/40080 [3:29:10<4:39:11,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17152/40080 [3:29:11<4:38:57,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17153/40080 [3:29:11<4:38:17,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17154/40080 [3:29:12<4:38:17,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17155/40080 [3:29:13<4:38:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17156/40080 [3:29:14<4:38:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17157/40080 [3:29:14<4:38:33,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17158/40080 [3:29:15<4:38:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▍                                                                                               | 17159/40080 [3:29:16<4:37:55,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17160/40080 [3:29:17<4:37:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3857, 'grad_norm': 4.53125, 'learning_rate': 1.5320700474113594e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2364.04, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17160/40080 [3:29:17<4:37:57,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17161/40080 [3:29:17<4:38:11,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17162/40080 [3:29:18<4:37:48,  1.37it/s] 43%|██████████████████████████████████████��████████████████████████████████▌                                                                                               | 17163/40080 [3:29:19<4:37:33,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17164/40080 [3:29:20<4:38:15,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17165/40080 [3:29:20<4:38:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17166/40080 [3:29:21<4:38:14,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17167/40080 [3:29:22<4:38:10,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17168/40080 [3:29:22<4:38:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17169/40080 [3:29:23<4:38:42,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17170/40080 [3:29:24<4:38:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3667, 'grad_norm': 3.4375, 'learning_rate': 1.531114490632847e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2337.04, 'epoch': 1.71}
+ 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17170/40080 [3:29:24<4:38:07,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17171/40080 [3:29:25<4:38:23,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17172/40080 [3:29:25<4:38:22,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17173/40080 [3:29:26<4:38:21,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17174/40080 [3:29:27<4:38:33,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17175/40080 [3:29:28<4:38:02,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17176/40080 [3:29:28<4:37:55,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17177/40080 [3:29:29<4:37:31,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17178/40080 [3:29:30<4:36:57,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17179/40080 [3:29:30<4:37:26,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17180/40080 [3:29:31<4:37:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3554, 'grad_norm': 3.640625, 'learning_rate': 1.530158760795084e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.18, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17180/40080 [3:29:31<4:37:35,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17181/40080 [3:29:32<4:38:24,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17182/40080 [3:29:33<4:37:59,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17183/40080 [3:29:33<4:37:39,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17184/40080 [3:29:34<4:37:46,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17185/40080 [3:29:35<4:37:42,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17186/40080 [3:29:36<4:37:29,  1.38it/s] 43%|██████████████████████████████████��████████████████████████████████████▌                                                                                               | 17187/40080 [3:29:36<4:37:50,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17188/40080 [3:29:37<4:37:57,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                               | 17189/40080 [3:29:38<4:37:25,  1.38it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17190/40080 [3:29:38<4:38:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3681, 'grad_norm': 2.46875, 'learning_rate': 1.529202858486436e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2572.19, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17190/40080 [3:29:38<4:38:03,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17191/40080 [3:29:39<4:38:47,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17192/40080 [3:29:40<4:38:18,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17193/40080 [3:29:41<4:38:33,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17194/40080 [3:29:41<4:38:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17195/40080 [3:29:42<4:38:16,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17196/40080 [3:29:43<4:38:21,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17197/40080 [3:29:44<4:38:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17198/40080 [3:29:44<4:38:28,  1.37it/s] 43%|████████████████████████████████��██████████████████████████████████████▋                                                                                               | 17199/40080 [3:29:45<4:38:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17200/40080 [3:29:46<4:38:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.444, 'grad_norm': 3.140625, 'learning_rate': 1.528246784295373e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2465.08, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17200/40080 [3:29:46<4:38:28,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17201/40080 [3:29:46<4:38:03,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17202/40080 [3:29:47<4:37:35,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17203/40080 [3:29:48<4:37:50,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17204/40080 [3:29:49<4:37:55,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17205/40080 [3:29:49<4:38:23,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17206/40080 [3:29:50<4:38:09,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17207/40080 [3:29:51<4:37:53,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17208/40080 [3:29:52<4:37:53,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17209/40080 [3:29:52<4:37:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17210/40080 [3:29:53<4:37:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4044, 'grad_norm': 3.8125, 'learning_rate': 1.5272905388104724e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2517.62, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17210/40080 [3:29:53<4:37:52,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17211/40080 [3:29:54<4:38:19,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17212/40080 [3:29:54<4:38:24,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17213/40080 [3:29:55<4:38:22,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17214/40080 [3:29:56<4:38:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17215/40080 [3:29:57<4:38:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17216/40080 [3:29:57<4:38:18,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17217/40080 [3:29:58<4:37:41,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17218/40080 [3:29:59<4:37:47,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▋                                                                                               | 17219/40080 [3:30:00<4:38:04,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17220/40080 [3:30:00<4:37:33,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3342, 'grad_norm': 3.546875, 'learning_rate': 1.5263341226204166e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2536.95, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17220/40080 [3:30:00<4:37:33,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17221/40080 [3:30:01<4:37:58,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17222/40080 [3:30:02<4:38:01,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17223/40080 [3:30:03<4:39:07,  1.36it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17224/40080 [3:30:03<4:39:04,  1.36it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17225/40080 [3:30:04<4:38:33,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17226/40080 [3:30:05<4:38:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17227/40080 [3:30:05<4:38:05,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17228/40080 [3:30:06<4:37:40,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17229/40080 [3:30:07<4:37:14,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17230/40080 [3:30:08<4:37:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4, 'grad_norm': 3.34375, 'learning_rate': 1.5253775363139927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2238.12, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17230/40080 [3:30:08<4:37:17,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17231/40080 [3:30:08<4:37:25,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17232/40080 [3:30:09<4:37:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17233/40080 [3:30:10<4:37:35,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17234/40080 [3:30:11<4:37:54,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17235/40080 [3:30:11<4:37:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17236/40080 [3:30:12<4:37:40,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17237/40080 [3:30:13<4:37:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17238/40080 [3:30:13<4:36:56,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17239/40080 [3:30:14<4:37:23,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17240/40080 [3:30:15<4:37:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3735, 'grad_norm': 3.265625, 'learning_rate': 1.5244207804800931e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.43, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17240/40080 [3:30:15<4:37:21,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17241/40080 [3:30:16<4:37:23,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17242/40080 [3:30:16<4:37:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17243/40080 [3:30:17<4:37:16,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17244/40080 [3:30:18<4:36:59,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17245/40080 [3:30:19<4:37:12,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17246/40080 [3:30:19<4:37:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17247/40080 [3:30:20<4:37:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17248/40080 [3:30:21<4:37:28,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▊                                                                                               | 17249/40080 [3:30:21<4:37:29,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17250/40080 [3:30:22<4:37:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3502, 'grad_norm': 3.6875, 'learning_rate': 1.523463855707714e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2440.77, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17250/40080 [3:30:22<4:37:21,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17251/40080 [3:30:23<4:37:22,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17252/40080 [3:30:24<4:37:19,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17253/40080 [3:30:24<4:37:47,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17254/40080 [3:30:25<4:37:56,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17255/40080 [3:30:26<4:37:52,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17256/40080 [3:30:27<4:37:38,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17257/40080 [3:30:27<4:37:43,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17258/40080 [3:30:28<4:37:00,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17259/40080 [3:30:29<4:37:15,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17260/40080 [3:30:29<4:37:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3676, 'grad_norm': 4.75, 'learning_rate': 1.5225067625859562e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2511.21, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17260/40080 [3:30:30<4:37:13,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17261/40080 [3:30:30<4:37:26,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17262/40080 [3:30:31<4:36:56,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17263/40080 [3:30:32<4:36:46,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17264/40080 [3:30:32<4:36:57,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17265/40080 [3:30:33<4:36:51,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17266/40080 [3:30:34<4:37:15,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17267/40080 [3:30:35<4:37:00,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17268/40080 [3:30:35<4:36:54,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17269/40080 [3:30:36<4:37:06,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17270/40080 [3:30:37<4:36:49,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3521, 'grad_norm': 2.9375, 'learning_rate': 1.5215495017040238e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2504.83, 'epoch': 1.72}
+ 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17270/40080 [3:30:37<4:36:49,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17271/40080 [3:30:38<4:37:30,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17272/40080 [3:30:38<4:37:47,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17273/40080 [3:30:39<4:37:35,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17274/40080 [3:30:40<4:37:21,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17275/40080 [3:30:40<4:37:34,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17276/40080 [3:30:41<4:37:30,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17277/40080 [3:30:42<4:36:59,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17278/40080 [3:30:43<4:37:19,  1.37it/s] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                               | 17279/40080 [3:30:43<4:37:23,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17280/40080 [3:30:44<4:37:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3991, 'grad_norm': 3.21875, 'learning_rate': 1.5205920736512238e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2559.19, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17280/40080 [3:30:44<4:37:00,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17281/40080 [3:30:45<4:36:40,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17282/40080 [3:30:46<4:36:44,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17283/40080 [3:30:46<4:36:40,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17284/40080 [3:30:47<4:36:47,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17285/40080 [3:30:48<4:36:26,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17286/40080 [3:30:48<4:36:40,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17287/40080 [3:30:49<4:36:15,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17288/40080 [3:30:50<4:36:25,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17289/40080 [3:30:51<4:36:51,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17290/40080 [3:30:51<4:37:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3947, 'grad_norm': 4.03125, 'learning_rate': 1.519634479016967e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2285.31, 'epoch': 1.73}
+ 43%|█████████████████████████████████████████████████████████████████████��██                                                                                               | 17290/40080 [3:30:51<4:37:14,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17291/40080 [3:30:52<4:37:12,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17292/40080 [3:30:53<4:37:00,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17293/40080 [3:30:54<4:36:59,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17294/40080 [3:30:54<4:36:49,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17295/40080 [3:30:55<4:36:54,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17296/40080 [3:30:56<4:36:33,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17297/40080 [3:30:56<4:36:30,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17298/40080 [3:30:57<4:36:40,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17299/40080 [3:30:58<4:36:38,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17300/40080 [3:30:59<4:36:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3302, 'grad_norm': 3.609375, 'learning_rate': 1.5186767183907658e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2446.37, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17300/40080 [3:30:59<4:36:15,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17301/40080 [3:30:59<4:36:07,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17302/40080 [3:31:00<4:36:24,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17303/40080 [3:31:01<4:36:16,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17304/40080 [3:31:02<4:36:03,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17305/40080 [3:31:02<4:36:32,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17306/40080 [3:31:03<4:36:17,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17307/40080 [3:31:04<4:36:09,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17308/40080 [3:31:04<4:36:01,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████                                                                                               | 17309/40080 [3:31:05<4:35:44,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17310/40080 [3:31:06<4:36:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3661, 'grad_norm': 4.3125, 'learning_rate': 1.5177187923622358e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2478.51, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17310/40080 [3:31:06<4:36:14,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17311/40080 [3:31:07<4:36:25,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17312/40080 [3:31:07<4:36:10,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17313/40080 [3:31:08<4:37:24,  1.37it/s] 43%|█████████████████████████████████████████████████████████████��██████████▏                                                                                              | 17314/40080 [3:31:09<4:37:39,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17315/40080 [3:31:10<4:37:36,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17316/40080 [3:31:10<4:37:01,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17317/40080 [3:31:11<4:36:39,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17318/40080 [3:31:12<4:36:17,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17319/40080 [3:31:12<4:36:07,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17320/40080 [3:31:13<4:36:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3551, 'grad_norm': 2.40625, 'learning_rate': 1.5167607015210932e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2395.42, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17320/40080 [3:31:13<4:36:12,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17321/40080 [3:31:14<4:36:41,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17322/40080 [3:31:15<4:36:41,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17323/40080 [3:31:15<4:36:58,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17324/40080 [3:31:16<4:36:03,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17325/40080 [3:31:17<4:36:25,  1.37it/s] 43%|██████████████████████████████████████████████████��█████████████████████▏                                                                                              | 17326/40080 [3:31:18<4:36:28,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17327/40080 [3:31:18<4:36:36,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17328/40080 [3:31:19<4:36:40,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17329/40080 [3:31:20<4:36:53,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17330/40080 [3:31:21<4:36:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3406, 'grad_norm': 2.890625, 'learning_rate': 1.5158024464571575e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2562.07, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17330/40080 [3:31:21<4:36:38,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17331/40080 [3:31:21<4:36:52,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17332/40080 [3:31:22<4:36:26,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17333/40080 [3:31:23<4:35:48,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17334/40080 [3:31:23<4:35:55,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17335/40080 [3:31:24<4:36:20,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17336/40080 [3:31:25<4:36:30,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17337/40080 [3:31:26<4:36:32,  1.37it/s] 43%|███████████████████████████████████████���████████████████████████████████▏                                                                                              | 17338/40080 [3:31:26<4:36:24,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                              | 17339/40080 [3:31:27<4:36:03,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17340/40080 [3:31:28<4:36:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3416, 'grad_norm': 2.28125, 'learning_rate': 1.5148440277603468e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2371.24, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17340/40080 [3:31:28<4:36:42,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17341/40080 [3:31:29<4:37:10,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17342/40080 [3:31:29<4:36:57,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17343/40080 [3:31:30<4:36:36,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17344/40080 [3:31:31<4:36:44,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17345/40080 [3:31:31<4:36:42,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17346/40080 [3:31:32<4:36:27,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17347/40080 [3:31:33<4:36:35,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17348/40080 [3:31:34<4:36:13,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17349/40080 [3:31:34<4:36:34,  1.37it/s] 43%|████████████████████████████���███████████████████████████████████████████▎                                                                                              | 17350/40080 [3:31:35<4:36:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3918, 'grad_norm': 3.734375, 'learning_rate': 1.513885446020682e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2588.57, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17350/40080 [3:31:35<4:36:08,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17351/40080 [3:31:36<4:35:53,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17352/40080 [3:31:37<4:35:27,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17353/40080 [3:31:37<4:35:39,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17354/40080 [3:31:38<4:35:30,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17355/40080 [3:31:39<4:35:52,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17356/40080 [3:31:39<4:35:35,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17357/40080 [3:31:40<4:35:14,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17358/40080 [3:31:41<4:35:13,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17359/40080 [3:31:42<4:34:50,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17360/40080 [3:31:42<4:35:00,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3675, 'grad_norm': 3.53125, 'learning_rate': 1.512926701828283e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2232.15, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17360/40080 [3:31:42<4:35:00,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17361/40080 [3:31:43<4:35:06,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17362/40080 [3:31:44<4:35:26,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17363/40080 [3:31:45<4:35:33,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17364/40080 [3:31:45<4:35:53,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17365/40080 [3:31:46<4:35:31,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17366/40080 [3:31:47<4:36:00,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17367/40080 [3:31:47<4:35:38,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17368/40080 [3:31:48<4:36:09,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▎                                                                                              | 17369/40080 [3:31:49<4:36:06,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17370/40080 [3:31:50<4:36:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3741, 'grad_norm': 3.34375, 'learning_rate': 1.5119677957733717e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2270.82, 'epoch': 1.73}
+ 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17370/40080 [3:31:50<4:36:03,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17371/40080 [3:31:50<4:36:00,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17372/40080 [3:31:51<4:36:04,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17373/40080 [3:31:52<4:35:39,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17374/40080 [3:31:53<4:35:13,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17375/40080 [3:31:53<4:35:12,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17376/40080 [3:31:54<4:35:12,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17377/40080 [3:31:55<4:35:15,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17378/40080 [3:31:55<4:34:47,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17379/40080 [3:31:56<4:34:41,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17380/40080 [3:31:57<4:34:41,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3669, 'grad_norm': 3.3125, 'learning_rate': 1.511008728446267e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2260.55, 'epoch': 1.74}
+ 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17380/40080 [3:31:57<4:34:41,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17381/40080 [3:31:58<4:34:49,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17382/40080 [3:31:58<4:35:29,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17383/40080 [3:31:59<4:35:47,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17384/40080 [3:32:00<4:35:42,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17385/40080 [3:32:01<4:35:12,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17386/40080 [3:32:01<4:35:21,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17387/40080 [3:32:02<4:35:15,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17388/40080 [3:32:03<4:35:23,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17389/40080 [3:32:03<4:35:27,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17390/40080 [3:32:04<4:35:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.385, 'grad_norm': 3.390625, 'learning_rate': 1.510049500437389e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2572.04, 'epoch': 1.74}
+ 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17390/40080 [3:32:04<4:35:19,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17391/40080 [3:32:05<4:35:23,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17392/40080 [3:32:06<4:35:34,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17393/40080 [3:32:06<4:35:36,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17394/40080 [3:32:07<4:35:34,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17395/40080 [3:32:08<4:35:02,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17396/40080 [3:32:09<4:34:52,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17397/40080 [3:32:09<4:34:33,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17398/40080 [3:32:10<4:34:58,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▍                                                                                              | 17399/40080 [3:32:11<4:34:51,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17400/40080 [3:32:11<4:34:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.343, 'grad_norm': 3.25, 'learning_rate': 1.509090112337256e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.61, 'epoch': 1.74}
+ 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17400/40080 [3:32:11<4:34:50,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17401/40080 [3:32:12<4:34:51,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17402/40080 [3:32:13<4:34:57,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17403/40080 [3:32:14<4:34:38,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17404/40080 [3:32:14<4:35:15,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17405/40080 [3:32:15<4:35:17,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17406/40080 [3:32:16<4:35:07,  1.37it/s] 43%|███████████████████████████████████████████████████████████████��████████▌                                                                                              | 17407/40080 [3:32:17<4:35:21,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17408/40080 [3:32:17<4:35:15,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17409/40080 [3:32:18<4:35:30,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17410/40080 [3:32:19<4:34:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3916, 'grad_norm': 2.90625, 'learning_rate': 1.5081305647364846e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2257.72, 'epoch': 1.74}
+ 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17410/40080 [3:32:19<4:34:56,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17411/40080 [3:32:20<4:35:19,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17412/40080 [3:32:20<4:35:24,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17413/40080 [3:32:21<4:35:20,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17414/40080 [3:32:22<4:35:26,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17415/40080 [3:32:22<4:35:07,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17416/40080 [3:32:23<4:35:13,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17417/40080 [3:32:24<4:35:01,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17418/40080 [3:32:25<4:34:32,  1.38it/s] 43%|████████████████████████████████████████████████████��███████████████████▌                                                                                              | 17419/40080 [3:32:25<4:34:27,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17420/40080 [3:32:26<4:34:13,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3529, 'grad_norm': 3.9375, 'learning_rate': 1.5071708582257907e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.79, 'epoch': 1.74}
+ 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17420/40080 [3:32:26<4:34:13,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17421/40080 [3:32:27<4:35:17,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17422/40080 [3:32:28<4:35:05,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17423/40080 [3:32:28<4:34:43,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17424/40080 [3:32:29<4:35:04,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17425/40080 [3:32:30<4:34:49,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17426/40080 [3:32:30<4:34:33,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17427/40080 [3:32:31<4:34:35,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17428/40080 [3:32:32<4:34:47,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▌                                                                                              | 17429/40080 [3:32:33<4:34:26,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17430/40080 [3:32:33<4:34:16,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4323, 'grad_norm': 5.25, 'learning_rate': 1.5062109933959865e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2243.06, 'epoch': 1.74}
+ 43%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17430/40080 [3:32:33<4:34:16,  1.38it/s] 43%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17431/40080 [3:32:34<4:35:08,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17432/40080 [3:32:35<4:35:19,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17433/40080 [3:32:36<4:34:52,  1.37it/s] 43%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17434/40080 [3:32:36<4:34:53,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17435/40080 [3:32:37<4:34:36,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17436/40080 [3:32:38<4:34:44,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17437/40080 [3:32:38<4:35:03,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17438/40080 [3:32:39<4:35:03,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17439/40080 [3:32:40<4:35:24,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17440/40080 [3:32:41<4:35:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4015, 'grad_norm': 3.84375, 'learning_rate': 1.5052509708379829e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2499.24, 'epoch': 1.74}
+ 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17440/40080 [3:32:41<4:35:40,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17441/40080 [3:32:41<4:35:40,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17442/40080 [3:32:42<4:35:25,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17443/40080 [3:32:43<4:34:41,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17444/40080 [3:32:44<4:34:26,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17445/40080 [3:32:44<4:34:53,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17446/40080 [3:32:45<4:34:42,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17447/40080 [3:32:46<4:35:15,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17448/40080 [3:32:46<4:34:38,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17449/40080 [3:32:47<4:34:24,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17450/40080 [3:32:48<4:33:59,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3521, 'grad_norm': 4.0625, 'learning_rate': 1.5042907911427872e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2310.95, 'epoch': 1.74}
+ 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17450/40080 [3:32:48<4:33:59,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17451/40080 [3:32:49<4:35:02,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17452/40080 [3:32:49<4:37:19,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17453/40080 [3:32:50<4:38:50,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17454/40080 [3:32:51<4:39:45,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17455/40080 [3:32:52<4:37:53,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17456/40080 [3:32:52<4:37:02,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17457/40080 [3:32:53<4:36:05,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17458/40080 [3:32:54<4:35:07,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▋                                                                                              | 17459/40080 [3:32:55<4:34:51,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17460/40080 [3:32:55<4:34:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3548, 'grad_norm': 3.15625, 'learning_rate': 1.503330454901504e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.9, 'epoch': 1.74}
+ 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17460/40080 [3:32:55<4:34:14,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17461/40080 [3:32:56<4:34:24,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17462/40080 [3:32:57<4:34:10,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17463/40080 [3:32:57<4:33:25,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17464/40080 [3:32:58<4:33:16,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17465/40080 [3:32:59<4:33:18,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17466/40080 [3:33:00<4:33:45,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17467/40080 [3:33:00<4:35:11,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17468/40080 [3:33:01<4:34:51,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17469/40080 [3:33:02<4:34:38,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17470/40080 [3:33:03<4:35:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3754, 'grad_norm': 2.828125, 'learning_rate': 1.502369962705334e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.42, 'epoch': 1.74}
+ 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17470/40080 [3:33:03<4:35:23,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17471/40080 [3:33:03<4:39:22,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17472/40080 [3:33:04<4:39:51,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17473/40080 [3:33:05<4:40:46,  1.34it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17474/40080 [3:33:06<4:38:28,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17475/40080 [3:33:06<4:36:40,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17476/40080 [3:33:07<4:35:48,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17477/40080 [3:33:08<4:35:44,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17478/40080 [3:33:08<4:35:45,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17479/40080 [3:33:09<4:35:16,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17480/40080 [3:33:10<4:34:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3806, 'grad_norm': 3.25, 'learning_rate': 1.5014093151455732e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.92, 'epoch': 1.75}
+ 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17480/40080 [3:33:10<4:34:39,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17481/40080 [3:33:11<4:34:24,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17482/40080 [3:33:11<4:34:26,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17483/40080 [3:33:12<4:34:18,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17484/40080 [3:33:13<4:34:11,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17485/40080 [3:33:14<4:36:58,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17486/40080 [3:33:14<4:39:54,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17487/40080 [3:33:15<4:40:06,  1.34it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17488/40080 [3:33:16<4:37:41,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                              | 17489/40080 [3:33:16<4:36:06,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17490/40080 [3:33:17<4:35:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3987, 'grad_norm': 2.75, 'learning_rate': 1.5004485128136145e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2513.24, 'epoch': 1.75}
+ 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17490/40080 [3:33:17<4:35:43,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17491/40080 [3:33:18<4:35:27,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17492/40080 [3:33:19<4:34:58,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17493/40080 [3:33:19<4:34:14,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17494/40080 [3:33:20<4:33:47,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17495/40080 [3:33:21<4:33:40,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17496/40080 [3:33:22<4:33:09,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17497/40080 [3:33:22<4:33:14,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17498/40080 [3:33:23<4:32:45,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17499/40080 [3:33:24<4:33:02,  1.38it/s] 44%|███████████████████████████████████████████████████████████████████���████▉                                                                                              | 17500/40080 [3:33:24<4:33:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3979, 'grad_norm': 3.421875, 'learning_rate': 1.499487556300945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2247.5, 'epoch': 1.75}
+ 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17500/40080 [3:33:24<4:33:09,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17501/40080 [3:33:25<4:33:34,  1.38it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17502/40080 [3:33:26<4:35:57,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17503/40080 [3:33:27<4:35:20,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17504/40080 [3:33:27<4:34:43,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17505/40080 [3:33:28<4:34:30,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17506/40080 [3:33:29<4:36:38,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17507/40080 [3:33:30<4:38:06,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17508/40080 [3:33:30<4:36:27,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17509/40080 [3:33:31<4:35:36,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17510/40080 [3:33:32<4:34:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3534, 'grad_norm': 3.0, 'learning_rate': 1.4985264461991477e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2417.18, 'epoch': 1.75}
+ 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17510/40080 [3:33:32<4:34:58,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17511/40080 [3:33:33<4:35:08,  1.37it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17512/40080 [3:33:33<4:37:12,  1.36it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17513/40080 [3:33:34<4:39:19,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17514/40080 [3:33:35<4:38:29,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17515/40080 [3:33:36<4:38:13,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17516/40080 [3:33:36<4:42:40,  1.33it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17517/40080 [3:33:37<4:40:10,  1.34it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17518/40080 [3:33:38<4:38:26,  1.35it/s] 44%|████████████████████████████████████████████████████████████████████████▉                                                                                              | 17519/40080 [3:33:38<4:36:56,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17520/40080 [3:33:39<4:36:38,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3744, 'grad_norm': 3.265625, 'learning_rate': 1.4975651830998997e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2545.88, 'epoch': 1.75}
+ 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17520/40080 [3:33:39<4:36:38,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17521/40080 [3:33:40<4:37:32,  1.35it/s] 44%|█████████████��███████████████████████████████████████████████████████████                                                                                              | 17522/40080 [3:33:41<4:36:39,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17523/40080 [3:33:41<4:35:58,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17524/40080 [3:33:42<4:34:49,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17525/40080 [3:33:43<4:34:35,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17526/40080 [3:33:44<4:33:50,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17527/40080 [3:33:44<4:33:26,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17528/40080 [3:33:45<4:33:37,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17529/40080 [3:33:46<4:33:12,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17530/40080 [3:33:47<4:33:00,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3817, 'grad_norm': 3.234375, 'learning_rate': 1.4966037675949719e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2455.09, 'epoch': 1.75}
+ 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17530/40080 [3:33:47<4:33:00,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17531/40080 [3:33:47<4:33:32,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17532/40080 [3:33:48<4:33:36,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17533/40080 [3:33:49<4:33:02,  1.38it/s] 44%|██���██████████████████████████████████████████████████████████████████████                                                                                              | 17534/40080 [3:33:49<4:32:50,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17535/40080 [3:33:50<4:33:16,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17536/40080 [3:33:51<4:33:04,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17537/40080 [3:33:52<4:33:43,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17538/40080 [3:33:52<4:33:39,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17539/40080 [3:33:53<4:33:40,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17540/40080 [3:33:54<4:33:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3545, 'grad_norm': 3.53125, 'learning_rate': 1.4956422002762293e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2532.7, 'epoch': 1.75}
+ 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17540/40080 [3:33:54<4:33:44,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17541/40080 [3:33:55<4:33:43,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17542/40080 [3:33:55<4:33:21,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17543/40080 [3:33:56<4:32:48,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17544/40080 [3:33:57<4:32:45,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17545/40080 [3:33:57<4:32:48,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17546/40080 [3:33:58<4:33:03,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17547/40080 [3:33:59<4:32:54,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17548/40080 [3:34:00<4:33:06,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████                                                                                              | 17549/40080 [3:34:00<4:33:04,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17550/40080 [3:34:01<4:33:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3963, 'grad_norm': 2.828125, 'learning_rate': 1.4946804817356308e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.35, 'epoch': 1.75}
+ 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17550/40080 [3:34:01<4:33:30,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17551/40080 [3:34:02<4:33:26,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17552/40080 [3:34:03<4:33:28,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17553/40080 [3:34:03<4:33:53,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17554/40080 [3:34:04<4:34:13,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17555/40080 [3:34:05<4:33:47,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17556/40080 [3:34:05<4:34:08,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17557/40080 [3:34:06<4:34:00,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17558/40080 [3:34:07<4:33:43,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17559/40080 [3:34:08<4:33:30,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17560/40080 [3:34:08<4:32:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.366, 'grad_norm': 2.9375, 'learning_rate': 1.4937186125652274e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.38, 'epoch': 1.75}
+ 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17560/40080 [3:34:08<4:32:46,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17561/40080 [3:34:09<4:32:47,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17562/40080 [3:34:10<4:33:00,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17563/40080 [3:34:11<4:32:48,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17564/40080 [3:34:11<4:32:40,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17565/40080 [3:34:12<4:32:45,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17566/40080 [3:34:13<4:32:53,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17567/40080 [3:34:13<4:33:11,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17568/40080 [3:34:14<4:33:27,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17569/40080 [3:34:15<4:33:33,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17570/40080 [3:34:16<4:34:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4229, 'grad_norm': 3.859375, 'learning_rate': 1.4927565933571644e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2307.21, 'epoch': 1.75}
+ 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17570/40080 [3:34:16<4:34:06,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17571/40080 [3:34:16<4:37:04,  1.35it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17572/40080 [3:34:17<4:38:22,  1.35it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17573/40080 [3:34:18<4:38:19,  1.35it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17574/40080 [3:34:19<4:36:08,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17575/40080 [3:34:19<4:34:45,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17576/40080 [3:34:20<4:34:57,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17577/40080 [3:34:21<4:34:22,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17578/40080 [3:34:22<4:33:31,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▏                                                                                             | 17579/40080 [3:34:22<4:33:02,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17580/40080 [3:34:23<4:32:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4262, 'grad_norm': 3.625, 'learning_rate': 1.4917944247036778e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.39, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17580/40080 [3:34:23<4:32:53,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17581/40080 [3:34:24<4:33:25,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17582/40080 [3:34:24<4:32:48,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17583/40080 [3:34:25<4:32:06,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17584/40080 [3:34:26<4:32:19,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17585/40080 [3:34:27<4:32:26,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17586/40080 [3:34:27<4:32:15,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17587/40080 [3:34:28<4:31:55,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17588/40080 [3:34:29<4:31:55,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17589/40080 [3:34:30<4:32:18,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17590/40080 [3:34:30<4:31:53,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4157, 'grad_norm': 3.90625, 'learning_rate': 1.4908321071970965e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2503.13, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17590/40080 [3:34:30<4:31:53,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17591/40080 [3:34:31<4:32:26,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17592/40080 [3:34:32<4:32:31,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17593/40080 [3:34:32<4:33:47,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17594/40080 [3:34:33<4:35:28,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17595/40080 [3:34:34<4:36:33,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17596/40080 [3:34:35<4:35:23,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17597/40080 [3:34:35<4:33:56,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17598/40080 [3:34:36<4:33:44,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17599/40080 [3:34:37<4:33:41,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17600/40080 [3:34:38<4:32:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4054, 'grad_norm': 3.671875, 'learning_rate': 1.489869641429841e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2399.36, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17600/40080 [3:34:38<4:32:50,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17601/40080 [3:34:38<4:33:11,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17602/40080 [3:34:39<4:32:49,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17603/40080 [3:34:40<4:32:34,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17604/40080 [3:34:40<4:32:24,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17605/40080 [3:34:41<4:32:27,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17606/40080 [3:34:42<4:34:45,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17607/40080 [3:34:43<4:34:03,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17608/40080 [3:34:43<4:34:14,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                             | 17609/40080 [3:34:44<4:33:53,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17610/40080 [3:34:45<4:33:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3832, 'grad_norm': 2.609375, 'learning_rate': 1.4889070279944222e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2549.11, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17610/40080 [3:34:45<4:33:29,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17611/40080 [3:34:46<4:33:25,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17612/40080 [3:34:46<4:32:51,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17613/40080 [3:34:47<4:32:56,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17614/40080 [3:34:48<4:32:47,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17615/40080 [3:34:49<4:32:33,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17616/40080 [3:34:49<4:32:55,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17617/40080 [3:34:50<4:32:22,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17618/40080 [3:34:51<4:31:58,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17619/40080 [3:34:51<4:31:42,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17620/40080 [3:34:52<4:31:34,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3869, 'grad_norm': 3.53125, 'learning_rate': 1.487944267483444e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.77, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17620/40080 [3:34:52<4:31:34,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17621/40080 [3:34:53<4:31:54,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17622/40080 [3:34:54<4:32:26,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17623/40080 [3:34:54<4:33:40,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17624/40080 [3:34:55<4:33:00,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17625/40080 [3:34:56<4:32:58,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17626/40080 [3:34:57<4:32:52,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17627/40080 [3:34:57<4:32:50,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17628/40080 [3:34:58<4:33:43,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17629/40080 [3:34:59<4:33:40,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17630/40080 [3:34:59<4:33:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3706, 'grad_norm': 3.171875, 'learning_rate': 1.4869813604895982e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2527.44, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17630/40080 [3:34:59<4:33:29,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17631/40080 [3:35:00<4:33:48,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17632/40080 [3:35:01<4:33:34,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17633/40080 [3:35:02<4:33:38,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17634/40080 [3:35:02<4:33:26,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17635/40080 [3:35:03<4:33:13,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17636/40080 [3:35:04<4:32:47,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17637/40080 [3:35:05<4:32:47,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17638/40080 [3:35:05<4:33:06,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                             | 17639/40080 [3:35:06<4:33:17,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17640/40080 [3:35:07<4:33:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.374, 'grad_norm': 3.875, 'learning_rate': 1.4860183076056686e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2320.04, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17640/40080 [3:35:07<4:33:09,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17641/40080 [3:35:07<4:33:32,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17642/40080 [3:35:08<4:32:45,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17643/40080 [3:35:09<4:32:43,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17644/40080 [3:35:10<4:32:15,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17645/40080 [3:35:10<4:32:12,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17646/40080 [3:35:11<4:32:26,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17647/40080 [3:35:12<4:32:23,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17648/40080 [3:35:13<4:32:34,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17649/40080 [3:35:13<4:32:35,  1.37it/s] 44%|████████████████████████████���████████████████████████████████████████████▌                                                                                             | 17650/40080 [3:35:14<4:33:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3598, 'grad_norm': 2.5625, 'learning_rate': 1.4850551094245286e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2408.43, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17650/40080 [3:35:14<4:33:12,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17651/40080 [3:35:15<4:33:15,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17652/40080 [3:35:15<4:32:59,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17653/40080 [3:35:17<5:18:46,  1.17it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17654/40080 [3:35:17<5:04:52,  1.23it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17655/40080 [3:35:18<4:54:27,  1.27it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17656/40080 [3:35:19<4:47:44,  1.30it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17657/40080 [3:35:20<4:42:36,  1.32it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17658/40080 [3:35:20<4:39:43,  1.34it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17659/40080 [3:35:21<4:37:14,  1.35it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17660/40080 [3:35:22<4:34:58,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3814, 'grad_norm': 3.734375, 'learning_rate': 1.4840917665391401e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2513.46, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17660/40080 [3:35:22<4:34:58,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17661/40080 [3:35:22<4:34:08,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17662/40080 [3:35:23<4:33:37,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17663/40080 [3:35:24<4:33:38,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17664/40080 [3:35:25<4:32:46,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17665/40080 [3:35:25<4:32:38,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17666/40080 [3:35:26<4:32:49,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17667/40080 [3:35:27<4:32:16,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17668/40080 [3:35:28<4:31:59,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▌                                                                                             | 17669/40080 [3:35:28<4:31:52,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17670/40080 [3:35:29<4:31:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4051, 'grad_norm': 4.09375, 'learning_rate': 1.4831282795425546e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.93, 'epoch': 1.76}
+ 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17670/40080 [3:35:29<4:31:54,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17671/40080 [3:35:30<4:32:52,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17672/40080 [3:35:30<4:32:21,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17673/40080 [3:35:31<4:32:04,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17674/40080 [3:35:32<4:32:32,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17675/40080 [3:35:33<4:31:55,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17676/40080 [3:35:33<4:31:32,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17677/40080 [3:35:34<4:31:23,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17678/40080 [3:35:35<4:31:11,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17679/40080 [3:35:36<4:31:32,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17680/40080 [3:35:36<4:31:10,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.374, 'grad_norm': 3.296875, 'learning_rate': 1.482164649027913e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2384.39, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17680/40080 [3:35:36<4:31:10,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17681/40080 [3:35:37<4:32:10,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17682/40080 [3:35:38<4:32:44,  1.37it/s] 44%|██████████████████████████████████████████████████████████���██████████████▋                                                                                             | 17683/40080 [3:35:38<4:32:13,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17684/40080 [3:35:39<4:32:03,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17685/40080 [3:35:40<4:32:06,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17686/40080 [3:35:41<4:31:26,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17687/40080 [3:35:41<4:30:59,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17688/40080 [3:35:42<4:31:01,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17689/40080 [3:35:43<4:31:09,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17690/40080 [3:35:44<4:31:23,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4091, 'grad_norm': 3.65625, 'learning_rate': 1.4812008755884438e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2444.08, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17690/40080 [3:35:44<4:31:23,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17691/40080 [3:35:44<4:31:51,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17692/40080 [3:35:45<4:32:14,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17693/40080 [3:35:46<4:31:53,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17694/40080 [3:35:46<4:31:54,  1.37it/s] 44%|██████████████████████████████████████��██████████████████████████████████▋                                                                                             | 17695/40080 [3:35:47<4:32:04,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17696/40080 [3:35:48<4:31:55,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17697/40080 [3:35:49<4:31:59,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17698/40080 [3:35:49<4:32:01,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                             | 17699/40080 [3:35:50<4:32:01,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17700/40080 [3:35:51<4:31:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3446, 'grad_norm': 2.984375, 'learning_rate': 1.4802369598174634e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2530.95, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17700/40080 [3:35:51<4:31:46,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17701/40080 [3:35:52<4:32:17,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17702/40080 [3:35:52<4:31:50,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17703/40080 [3:35:53<4:31:59,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17704/40080 [3:35:54<4:31:37,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17705/40080 [3:35:54<4:31:29,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17706/40080 [3:35:55<4:32:03,  1.37it/s] 44%|██████████████████��██████████████████████████████████████████████████████▊                                                                                             | 17707/40080 [3:35:56<4:32:05,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17708/40080 [3:35:57<4:31:23,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17709/40080 [3:35:57<4:31:14,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17710/40080 [3:35:58<4:30:51,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3543, 'grad_norm': 3.421875, 'learning_rate': 1.4792729023083765e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.05, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17710/40080 [3:35:58<4:30:51,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17711/40080 [3:35:59<4:31:43,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17712/40080 [3:36:00<4:31:28,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17713/40080 [3:36:00<4:31:36,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17714/40080 [3:36:01<4:31:45,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17715/40080 [3:36:02<4:32:52,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17716/40080 [3:36:03<4:34:57,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17717/40080 [3:36:03<4:34:28,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17718/40080 [3:36:04<4:33:21,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17719/40080 [3:36:05<4:32:36,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17720/40080 [3:36:05<4:31:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3558, 'grad_norm': 4.03125, 'learning_rate': 1.4783087036546744e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2275.33, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17720/40080 [3:36:05<4:31:55,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17721/40080 [3:36:06<4:31:54,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17722/40080 [3:36:07<4:31:21,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17723/40080 [3:36:08<4:31:30,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17724/40080 [3:36:08<4:31:32,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17725/40080 [3:36:09<4:31:11,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17726/40080 [3:36:10<4:31:18,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17727/40080 [3:36:11<4:31:05,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17728/40080 [3:36:11<4:31:01,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▊                                                                                             | 17729/40080 [3:36:12<4:31:05,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17730/40080 [3:36:13<4:30:44,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3676, 'grad_norm': 4.625, 'learning_rate': 1.4773443644499352e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2361.99, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17730/40080 [3:36:13<4:30:44,  1.38it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17731/40080 [3:36:13<4:31:18,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17732/40080 [3:36:14<4:31:21,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17733/40080 [3:36:15<4:31:25,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17734/40080 [3:36:16<4:31:27,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17735/40080 [3:36:16<4:32:37,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17736/40080 [3:36:17<4:32:25,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17737/40080 [3:36:18<4:31:36,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17738/40080 [3:36:19<4:31:50,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17739/40080 [3:36:19<4:31:42,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17740/40080 [3:36:20<4:32:06,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3568, 'grad_norm': 3.5, 'learning_rate': 1.4763798852878244e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2428.39, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17740/40080 [3:36:20<4:32:06,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17741/40080 [3:36:21<4:35:58,  1.35it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17742/40080 [3:36:22<4:34:17,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17743/40080 [3:36:22<4:33:15,  1.36it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17744/40080 [3:36:23<4:32:35,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17745/40080 [3:36:24<4:31:54,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17746/40080 [3:36:24<4:31:34,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17747/40080 [3:36:25<4:31:05,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17748/40080 [3:36:26<4:31:06,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17749/40080 [3:36:27<4:31:11,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17750/40080 [3:36:27<4:31:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3301, 'grad_norm': 3.203125, 'learning_rate': 1.4754152667620927e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2330.25, 'epoch': 1.77}
+ 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17750/40080 [3:36:27<4:31:25,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17751/40080 [3:36:28<4:31:28,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17752/40080 [3:36:29<4:30:58,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17753/40080 [3:36:30<4:30:42,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17754/40080 [3:36:30<4:30:51,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17755/40080 [3:36:31<4:30:52,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17756/40080 [3:36:32<4:30:39,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17757/40080 [3:36:32<4:30:44,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17758/40080 [3:36:33<4:30:50,  1.37it/s] 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                             | 17759/40080 [3:36:34<4:30:52,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17760/40080 [3:36:35<4:30:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3201, 'grad_norm': 2.765625, 'learning_rate': 1.474450509466577e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2475.08, 'epoch': 1.77}
+ 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17760/40080 [3:36:35<4:30:42,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17761/40080 [3:36:35<4:30:42,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17762/40080 [3:36:36<4:30:32,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17763/40080 [3:36:37<4:30:08,  1.38it/s] 44%|██████████���███████████████████████████████████████████████████████████████                                                                                             | 17764/40080 [3:36:38<4:30:21,  1.38it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17765/40080 [3:36:38<4:30:15,  1.38it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17766/40080 [3:36:39<4:30:26,  1.38it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17767/40080 [3:36:40<4:30:09,  1.38it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17768/40080 [3:36:40<4:30:24,  1.38it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17769/40080 [3:36:41<4:30:37,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17770/40080 [3:36:42<4:30:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4158, 'grad_norm': 3.90625, 'learning_rate': 1.4734856139952003e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2371.54, 'epoch': 1.77}
+ 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17770/40080 [3:36:42<4:30:38,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17771/40080 [3:36:43<4:31:04,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17772/40080 [3:36:43<4:30:50,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17773/40080 [3:36:44<4:31:13,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17774/40080 [3:36:45<4:31:06,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17775/40080 [3:36:46<4:31:31,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17776/40080 [3:36:46<4:30:32,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17777/40080 [3:36:47<4:30:47,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17778/40080 [3:36:48<4:30:51,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17779/40080 [3:36:48<4:30:44,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17780/40080 [3:36:49<4:31:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3417, 'grad_norm': 2.9375, 'learning_rate': 1.472520580941969e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2321.41, 'epoch': 1.78}
+ 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17780/40080 [3:36:49<4:31:04,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17781/40080 [3:36:50<4:30:35,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17782/40080 [3:36:51<4:30:50,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17783/40080 [3:36:51<4:30:46,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17784/40080 [3:36:52<4:30:41,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17785/40080 [3:36:53<4:30:35,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17786/40080 [3:36:54<4:30:38,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17787/40080 [3:36:54<4:30:47,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17788/40080 [3:36:55<4:31:16,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████                                                                                             | 17789/40080 [3:36:56<4:31:18,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17790/40080 [3:36:56<4:31:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4249, 'grad_norm': 4.40625, 'learning_rate': 1.471555410900976e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2539.29, 'epoch': 1.78}
+ 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17790/40080 [3:36:56<4:31:18,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17791/40080 [3:36:57<4:30:55,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17792/40080 [3:36:58<4:30:52,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17793/40080 [3:36:59<4:30:24,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17794/40080 [3:36:59<4:30:31,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17795/40080 [3:37:00<4:31:01,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17796/40080 [3:37:01<4:30:29,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17797/40080 [3:37:02<4:30:53,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17798/40080 [3:37:02<4:30:40,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████��███████▏                                                                                            | 17799/40080 [3:37:03<4:30:27,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17800/40080 [3:37:04<4:30:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3861, 'grad_norm': 2.984375, 'learning_rate': 1.4705901044663971e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.51, 'epoch': 1.78}
+ 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17800/40080 [3:37:04<4:30:31,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17801/40080 [3:37:05<4:30:47,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17802/40080 [3:37:05<4:31:00,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17803/40080 [3:37:06<4:30:41,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17804/40080 [3:37:07<4:30:11,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17805/40080 [3:37:07<4:30:41,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17806/40080 [3:37:08<4:30:42,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17807/40080 [3:37:09<4:30:39,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17808/40080 [3:37:10<4:31:03,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17809/40080 [3:37:10<4:30:44,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17810/40080 [3:37:11<4:30:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3869, 'grad_norm': 3.015625, 'learning_rate': 1.4696246622324933e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2529.2, 'epoch': 1.78}
+ 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17810/40080 [3:37:11<4:30:00,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17811/40080 [3:37:12<4:30:41,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17812/40080 [3:37:13<4:30:38,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17813/40080 [3:37:13<4:30:50,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17814/40080 [3:37:14<4:30:13,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17815/40080 [3:37:15<4:31:01,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17816/40080 [3:37:15<4:30:57,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17817/40080 [3:37:16<4:30:45,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17818/40080 [3:37:17<4:30:28,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                            | 17819/40080 [3:37:18<4:30:35,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17820/40080 [3:37:18<4:30:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3983, 'grad_norm': 3.9375, 'learning_rate': 1.4686590847936083e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2290.19, 'epoch': 1.78}
+ 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17820/40080 [3:37:18<4:30:59,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17821/40080 [3:37:19<4:31:23,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17822/40080 [3:37:20<4:30:56,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17823/40080 [3:37:21<4:30:45,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17824/40080 [3:37:21<4:30:38,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17825/40080 [3:37:22<4:30:49,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17826/40080 [3:37:23<4:30:11,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17827/40080 [3:37:23<4:30:11,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17828/40080 [3:37:24<4:30:08,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17829/40080 [3:37:25<4:29:39,  1.38it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17830/40080 [3:37:26<4:29:07,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4587, 'grad_norm': 4.4375, 'learning_rate': 1.4676933727441694e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2452.19, 'epoch': 1.78}
+ 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17830/40080 [3:37:26<4:29:07,  1.38it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17831/40080 [3:37:26<4:29:41,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17832/40080 [3:37:27<4:29:55,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17833/40080 [3:37:28<4:29:51,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17834/40080 [3:37:29<4:30:25,  1.37it/s] 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17835/40080 [3:37:29<4:30:27,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17836/40080 [3:37:30<4:30:20,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17837/40080 [3:37:31<4:30:30,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17838/40080 [3:37:31<4:30:47,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17839/40080 [3:37:32<4:30:45,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17840/40080 [3:37:33<4:30:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3588, 'grad_norm': 4.46875, 'learning_rate': 1.4667275266786861e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2594.42, 'epoch': 1.78}
+ 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17840/40080 [3:37:33<4:30:34,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17841/40080 [3:37:34<4:31:02,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17842/40080 [3:37:34<4:29:51,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17843/40080 [3:37:35<4:29:38,  1.37it/s] 45%|███████████████████████████████████████████��██████████████████████████████▎                                                                                            | 17844/40080 [3:37:36<4:29:25,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17845/40080 [3:37:37<4:28:56,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17846/40080 [3:37:37<4:29:01,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17847/40080 [3:37:38<4:28:55,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17848/40080 [3:37:39<4:29:12,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▎                                                                                            | 17849/40080 [3:37:39<4:29:34,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17850/40080 [3:37:40<4:29:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3946, 'grad_norm': 3.0625, 'learning_rate': 1.4657615471917521e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.87, 'epoch': 1.78}
+ 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17850/40080 [3:37:40<4:29:47,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17851/40080 [3:37:41<4:30:04,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17852/40080 [3:37:42<4:30:10,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17853/40080 [3:37:42<4:30:30,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17854/40080 [3:37:43<4:30:17,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17855/40080 [3:37:44<4:30:04,  1.37it/s] 45%|███████████████��██████████████████████████████████████████████████████████▍                                                                                            | 17856/40080 [3:37:45<4:30:46,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17857/40080 [3:37:45<4:30:29,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17858/40080 [3:37:46<4:30:03,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17859/40080 [3:37:47<4:29:44,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17860/40080 [3:37:48<4:29:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3946, 'grad_norm': 3.3125, 'learning_rate': 1.4647954348780416e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2316.45, 'epoch': 1.78}
+ 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17860/40080 [3:37:48<4:29:59,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17861/40080 [3:37:48<4:30:38,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17862/40080 [3:37:49<4:30:21,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17863/40080 [3:37:50<4:30:12,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17864/40080 [3:37:50<4:30:48,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17865/40080 [3:37:51<4:30:50,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17866/40080 [3:37:52<4:30:53,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17867/40080 [3:37:53<4:30:00,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17868/40080 [3:37:53<4:29:56,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17869/40080 [3:37:54<4:29:46,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17870/40080 [3:37:55<4:29:11,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3916, 'grad_norm': 4.59375, 'learning_rate': 1.4638291903323108e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2470.74, 'epoch': 1.78}
+ 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17870/40080 [3:37:55<4:29:11,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17871/40080 [3:37:56<4:29:24,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17872/40080 [3:37:56<4:29:19,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17873/40080 [3:37:57<4:29:09,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17874/40080 [3:37:58<4:29:13,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17875/40080 [3:37:58<4:29:45,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17876/40080 [3:37:59<4:29:49,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17877/40080 [3:38:00<4:29:41,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17878/40080 [3:38:01<4:29:53,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                            | 17879/40080 [3:38:01<4:29:21,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17880/40080 [3:38:02<4:28:56,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.357, 'grad_norm': 3.296875, 'learning_rate': 1.462862814149398e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2419.85, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17880/40080 [3:38:02<4:28:56,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17881/40080 [3:38:03<4:29:25,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17882/40080 [3:38:04<4:29:33,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17883/40080 [3:38:04<4:29:49,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17884/40080 [3:38:05<4:28:52,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17885/40080 [3:38:06<4:29:08,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17886/40080 [3:38:06<4:29:27,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17887/40080 [3:38:07<4:29:38,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17888/40080 [3:38:08<4:29:34,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17889/40080 [3:38:09<4:29:42,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17890/40080 [3:38:09<4:29:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3069, 'grad_norm': 3.046875, 'learning_rate': 1.461896306924222e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.47, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17890/40080 [3:38:09<4:29:36,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17891/40080 [3:38:10<4:29:38,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17892/40080 [3:38:11<4:29:33,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17893/40080 [3:38:12<4:29:38,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17894/40080 [3:38:12<4:29:48,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17895/40080 [3:38:13<4:28:47,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17896/40080 [3:38:14<4:28:58,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17897/40080 [3:38:14<4:28:59,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17898/40080 [3:38:15<4:28:53,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17899/40080 [3:38:16<4:29:35,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17900/40080 [3:38:17<4:29:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4066, 'grad_norm': 3.40625, 'learning_rate': 1.4609296692517824e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2222.38, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17900/40080 [3:38:17<4:29:19,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17901/40080 [3:38:17<4:29:47,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17902/40080 [3:38:18<4:29:31,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17903/40080 [3:38:19<4:29:35,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17904/40080 [3:38:20<4:29:30,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17905/40080 [3:38:20<4:29:16,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17906/40080 [3:38:21<4:29:18,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17907/40080 [3:38:22<4:29:08,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17908/40080 [3:38:22<4:29:03,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                            | 17909/40080 [3:38:23<4:29:12,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17910/40080 [3:38:24<4:28:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3298, 'grad_norm': 2.71875, 'learning_rate': 1.4599629017271594e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2479.15, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17910/40080 [3:38:24<4:28:54,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17911/40080 [3:38:25<4:29:10,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17912/40080 [3:38:25<4:29:18,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17913/40080 [3:38:26<4:29:11,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17914/40080 [3:38:27<4:29:08,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17915/40080 [3:38:28<4:29:06,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17916/40080 [3:38:28<4:29:13,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17917/40080 [3:38:29<4:28:43,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17918/40080 [3:38:30<4:28:48,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17919/40080 [3:38:31<4:29:08,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17920/40080 [3:38:31<4:29:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3131, 'grad_norm': 3.53125, 'learning_rate': 1.4589960049455126e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2279.97, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17920/40080 [3:38:31<4:29:02,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17921/40080 [3:38:32<4:29:33,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17922/40080 [3:38:33<4:29:33,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17923/40080 [3:38:33<4:29:07,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17924/40080 [3:38:34<4:29:13,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17925/40080 [3:38:35<4:29:15,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17926/40080 [3:38:36<4:29:20,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17927/40080 [3:38:36<4:29:05,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17928/40080 [3:38:37<4:29:02,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17929/40080 [3:38:38<4:28:44,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17930/40080 [3:38:39<4:28:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3719, 'grad_norm': 2.875, 'learning_rate': 1.4580289795020816e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2490.91, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17930/40080 [3:38:39<4:28:52,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17931/40080 [3:38:39<4:28:39,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17932/40080 [3:38:40<4:28:54,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17933/40080 [3:38:41<4:28:44,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17934/40080 [3:38:41<4:28:48,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17935/40080 [3:38:42<4:28:26,  1.37it/s] 45%|██████████████████████████████���███████████████████████████████████████████▋                                                                                            | 17936/40080 [3:38:43<4:28:41,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17937/40080 [3:38:44<4:28:40,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17938/40080 [3:38:44<4:28:54,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▋                                                                                            | 17939/40080 [3:38:45<4:28:48,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17940/40080 [3:38:46<4:28:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3874, 'grad_norm': 2.859375, 'learning_rate': 1.4570618259921848e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2260.57, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17940/40080 [3:38:46<4:28:45,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17941/40080 [3:38:47<4:29:18,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17942/40080 [3:38:47<4:28:52,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17943/40080 [3:38:48<4:28:58,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17944/40080 [3:38:49<4:30:50,  1.36it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17945/40080 [3:38:49<4:30:32,  1.36it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17946/40080 [3:38:50<4:30:30,  1.36it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17947/40080 [3:38:51<4:30:09,  1.37it/s] 45%|█��████████████████████████████████████████████████████████████████████████▊                                                                                            | 17948/40080 [3:38:52<4:29:41,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17949/40080 [3:38:52<4:29:02,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17950/40080 [3:38:53<4:28:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.34, 'grad_norm': 3.90625, 'learning_rate': 1.4560945450112198e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2529.84, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17950/40080 [3:38:53<4:28:34,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17951/40080 [3:38:54<4:28:35,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17952/40080 [3:38:55<4:27:54,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17953/40080 [3:38:55<4:28:43,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17954/40080 [3:38:56<4:28:50,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17955/40080 [3:38:57<4:28:48,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17956/40080 [3:38:57<4:28:42,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17957/40080 [3:38:58<4:29:00,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17958/40080 [3:38:59<4:28:37,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17959/40080 [3:39:00<4:28:52,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17960/40080 [3:39:00<4:28:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.349, 'grad_norm': 2.75, 'learning_rate': 1.4551271371546623e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2510.2, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17960/40080 [3:39:00<4:28:35,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17961/40080 [3:39:01<4:28:46,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17962/40080 [3:39:02<4:28:22,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17963/40080 [3:39:03<4:29:20,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17964/40080 [3:39:03<4:29:14,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17965/40080 [3:39:04<4:28:19,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17966/40080 [3:39:05<4:28:02,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17967/40080 [3:39:05<4:27:51,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17968/40080 [3:39:06<4:27:45,  1.38it/s] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                            | 17969/40080 [3:39:07<4:28:28,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17970/40080 [3:39:08<4:28:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3401, 'grad_norm': 3.203125, 'learning_rate': 1.4541596030180674e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2350.56, 'epoch': 1.79}
+ 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17970/40080 [3:39:08<4:28:21,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17971/40080 [3:39:08<4:28:32,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17972/40080 [3:39:09<4:28:43,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17973/40080 [3:39:10<4:28:19,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17974/40080 [3:39:11<4:28:36,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17975/40080 [3:39:11<4:29:02,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17976/40080 [3:39:12<4:28:46,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17977/40080 [3:39:13<4:28:32,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17978/40080 [3:39:14<4:28:28,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17979/40080 [3:39:14<4:27:55,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17980/40080 [3:39:15<4:29:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3871, 'grad_norm': 3.953125, 'learning_rate': 1.4531919431970658e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.27, 'epoch': 1.8}
+ 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17980/40080 [3:39:15<4:29:43,  1.37it/s] 45%|████████��█████████████████████████████████████████████████████████████████▉                                                                                            | 17981/40080 [3:39:16<4:29:15,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17982/40080 [3:39:16<4:28:56,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17983/40080 [3:39:17<4:29:10,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17984/40080 [3:39:18<4:28:46,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17985/40080 [3:39:19<4:28:51,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17986/40080 [3:39:19<4:28:44,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17987/40080 [3:39:20<4:28:36,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17988/40080 [3:39:21<4:28:43,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17989/40080 [3:39:22<4:29:26,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17990/40080 [3:39:22<4:29:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3622, 'grad_norm': 3.5625, 'learning_rate': 1.452224158287367e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2383.49, 'epoch': 1.8}
+ 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17990/40080 [3:39:22<4:29:13,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17991/40080 [3:39:23<4:29:24,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17992/40080 [3:39:24<4:28:54,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17993/40080 [3:39:24<4:28:29,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17994/40080 [3:39:25<4:28:40,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17995/40080 [3:39:26<4:29:01,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17996/40080 [3:39:27<4:28:14,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17997/40080 [3:39:27<4:27:45,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17998/40080 [3:39:28<4:27:55,  1.37it/s] 45%|██████████████████████████████████████████████████████████████████████████▉                                                                                            | 17999/40080 [3:39:29<4:27:35,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18000/40080 [3:39:30<4:28:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3328, 'grad_norm': 3.25, 'learning_rate': 1.4512562488847576e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2332.59, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18000/40080 [3:39:30<4:28:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18001/40080 [3:39:30<4:28:32,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18002/40080 [3:39:31<4:28:28,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18003/40080 [3:39:32<4:28:40,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18004/40080 [3:39:32<4:28:35,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18005/40080 [3:39:33<4:28:26,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18006/40080 [3:39:34<4:28:31,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18007/40080 [3:39:35<4:28:41,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18008/40080 [3:39:35<4:28:34,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18009/40080 [3:39:36<4:28:16,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18010/40080 [3:39:37<4:28:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3452, 'grad_norm': 3.15625, 'learning_rate': 1.4502882155850995e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2597.9, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18010/40080 [3:39:37<4:28:43,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18011/40080 [3:39:38<4:28:40,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18012/40080 [3:39:38<4:28:25,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18013/40080 [3:39:39<4:28:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18014/40080 [3:39:40<4:29:19,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18015/40080 [3:39:41<4:28:47,  1.37it/s] 45%|████████████████████████████████████████████████���██████████████████████████                                                                                            | 18016/40080 [3:39:41<4:28:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18017/40080 [3:39:42<4:28:35,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18018/40080 [3:39:43<4:28:22,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18019/40080 [3:39:43<4:27:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18020/40080 [3:39:44<4:27:44,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.342, 'grad_norm': 3.8125, 'learning_rate': 1.4493200589843326e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.19, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18020/40080 [3:39:44<4:27:44,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18021/40080 [3:39:45<4:28:18,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18022/40080 [3:39:46<4:28:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18023/40080 [3:39:46<4:27:43,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18024/40080 [3:39:47<4:27:12,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18025/40080 [3:39:48<4:26:56,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18026/40080 [3:39:49<4:27:20,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18027/40080 [3:39:49<4:27:19,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18028/40080 [3:39:50<4:27:56,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████                                                                                            | 18029/40080 [3:39:51<4:27:25,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18030/40080 [3:39:51<4:27:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3729, 'grad_norm': 3.453125, 'learning_rate': 1.4483517796784718e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2367.87, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18030/40080 [3:39:51<4:27:09,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18031/40080 [3:39:52<4:27:56,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18032/40080 [3:39:53<4:27:39,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18033/40080 [3:39:54<4:27:51,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18034/40080 [3:39:54<4:27:34,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18035/40080 [3:39:55<4:27:27,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18036/40080 [3:39:56<4:27:29,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18037/40080 [3:39:57<4:26:58,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18038/40080 [3:39:57<4:27:29,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18039/40080 [3:39:58<4:27:27,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18040/40080 [3:39:59<4:27:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3753, 'grad_norm': 3.96875, 'learning_rate': 1.4473833782636075e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2429.64, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18040/40080 [3:39:59<4:27:06,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18041/40080 [3:39:59<4:27:49,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18042/40080 [3:40:00<4:26:56,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18043/40080 [3:40:01<4:27:03,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18044/40080 [3:40:02<4:27:10,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18045/40080 [3:40:02<4:27:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18046/40080 [3:40:03<4:27:44,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18047/40080 [3:40:04<4:27:22,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18048/40080 [3:40:05<4:27:14,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18049/40080 [3:40:05<4:27:15,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18050/40080 [3:40:06<4:28:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3823, 'grad_norm': 3.171875, 'learning_rate': 1.4464148553359056e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2368.88, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18050/40080 [3:40:06<4:28:02,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18051/40080 [3:40:07<4:27:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18052/40080 [3:40:07<4:27:58,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18053/40080 [3:40:08<4:27:29,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18054/40080 [3:40:09<4:27:20,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18055/40080 [3:40:10<4:27:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18056/40080 [3:40:10<4:27:05,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18057/40080 [3:40:11<4:26:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18058/40080 [3:40:12<4:26:51,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                           | 18059/40080 [3:40:13<4:26:50,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18060/40080 [3:40:13<4:27:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3652, 'grad_norm': 3.53125, 'learning_rate': 1.4454462114916065e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.33, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18060/40080 [3:40:13<4:27:07,  1.37it/s] 45%|███���███████████████████████████████████████████████████████████████████████▎                                                                                           | 18061/40080 [3:40:14<4:27:23,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18062/40080 [3:40:15<4:27:51,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18063/40080 [3:40:15<4:27:44,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18064/40080 [3:40:16<4:27:31,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18065/40080 [3:40:17<4:27:49,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18066/40080 [3:40:18<4:28:08,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18067/40080 [3:40:18<4:28:20,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18068/40080 [3:40:19<4:27:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18069/40080 [3:40:20<4:27:48,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18070/40080 [3:40:21<4:27:58,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4193, 'grad_norm': 3.53125, 'learning_rate': 1.4444774473270249e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2498.69, 'epoch': 1.8}
+ 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18070/40080 [3:40:21<4:27:58,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18071/40080 [3:40:21<4:27:47,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18072/40080 [3:40:22<4:27:33,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18073/40080 [3:40:23<4:27:20,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18074/40080 [3:40:24<4:27:29,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18075/40080 [3:40:24<4:27:28,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18076/40080 [3:40:25<4:27:14,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18077/40080 [3:40:26<4:27:02,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18078/40080 [3:40:26<4:27:15,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18079/40080 [3:40:27<4:27:49,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18080/40080 [3:40:28<4:27:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3654, 'grad_norm': 3.5, 'learning_rate': 1.4435085634385503e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2511.51, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18080/40080 [3:40:28<4:27:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18081/40080 [3:40:29<4:28:06,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18082/40080 [3:40:29<4:27:41,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18083/40080 [3:40:30<4:27:40,  1.37it/s] 45%|█████████████████████████████████████████████████████���█████████████████████▎                                                                                           | 18084/40080 [3:40:31<4:27:02,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18085/40080 [3:40:32<4:26:53,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18086/40080 [3:40:32<4:27:08,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18087/40080 [3:40:33<4:26:55,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18088/40080 [3:40:34<4:27:18,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▎                                                                                           | 18089/40080 [3:40:34<4:27:36,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18090/40080 [3:40:35<4:27:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3785, 'grad_norm': 3.8125, 'learning_rate': 1.4425395604226449e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2523.75, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18090/40080 [3:40:35<4:27:08,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18091/40080 [3:40:36<4:27:19,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18092/40080 [3:40:37<4:27:18,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18093/40080 [3:40:37<4:26:45,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18094/40080 [3:40:38<4:26:40,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18095/40080 [3:40:39<4:27:11,  1.37it/s] 45%|████████████████��██████████████████████████████████████████████████████████▍                                                                                           | 18096/40080 [3:40:40<4:27:40,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18097/40080 [3:40:40<4:27:14,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18098/40080 [3:40:41<4:27:06,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18099/40080 [3:40:42<4:26:59,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18100/40080 [3:40:42<4:27:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3805, 'grad_norm': 3.015625, 'learning_rate': 1.4415704388758452e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2338.77, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18100/40080 [3:40:42<4:27:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18101/40080 [3:40:43<4:28:09,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18102/40080 [3:40:44<4:27:32,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18103/40080 [3:40:45<4:27:28,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18104/40080 [3:40:45<4:27:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18105/40080 [3:40:46<4:27:33,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18106/40080 [3:40:47<4:27:25,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18107/40080 [3:40:48<4:26:56,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18108/40080 [3:40:48<4:26:52,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18109/40080 [3:40:49<4:26:42,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18110/40080 [3:40:50<4:26:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4201, 'grad_norm': 4.0, 'learning_rate': 1.4406011993947608e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2290.16, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18110/40080 [3:40:50<4:26:42,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18111/40080 [3:40:51<4:27:47,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18112/40080 [3:40:51<4:27:16,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18113/40080 [3:40:52<4:27:05,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18114/40080 [3:40:53<4:27:11,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18115/40080 [3:40:53<4:27:03,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18116/40080 [3:40:54<4:26:33,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18117/40080 [3:40:55<4:26:49,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18118/40080 [3:40:56<4:26:33,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                           | 18119/40080 [3:40:56<4:26:09,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18120/40080 [3:40:57<4:26:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3803, 'grad_norm': 3.59375, 'learning_rate': 1.4396318425760719e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2329.67, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18120/40080 [3:40:57<4:26:24,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18121/40080 [3:40:58<4:27:15,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18122/40080 [3:40:59<4:26:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18123/40080 [3:40:59<4:26:50,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18124/40080 [3:41:00<4:26:33,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18125/40080 [3:41:01<4:26:11,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18126/40080 [3:41:01<4:26:28,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18127/40080 [3:41:02<4:26:22,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18128/40080 [3:41:03<4:26:41,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18129/40080 [3:41:04<4:26:45,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18130/40080 [3:41:04<4:26:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4021, 'grad_norm': 3.4375, 'learning_rate': 1.4386623690165332e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2367.53, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18130/40080 [3:41:04<4:26:38,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18131/40080 [3:41:05<4:26:46,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18132/40080 [3:41:06<4:27:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18133/40080 [3:41:07<4:26:59,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18134/40080 [3:41:07<4:26:35,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18135/40080 [3:41:08<4:26:42,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18136/40080 [3:41:09<4:26:28,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18137/40080 [3:41:09<4:26:46,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18138/40080 [3:41:10<4:26:34,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18139/40080 [3:41:11<4:26:47,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18140/40080 [3:41:12<4:26:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3809, 'grad_norm': 3.0, 'learning_rate': 1.437692779312971e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2415.91, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18140/40080 [3:41:12<4:26:55,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18141/40080 [3:41:12<4:27:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18142/40080 [3:41:13<4:27:29,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18143/40080 [3:41:14<4:27:16,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18144/40080 [3:41:15<4:27:34,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18145/40080 [3:41:15<4:27:22,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18146/40080 [3:41:16<4:26:49,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18147/40080 [3:41:17<4:26:56,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18148/40080 [3:41:17<4:27:16,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                           | 18149/40080 [3:41:18<4:26:36,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18150/40080 [3:41:19<4:26:35,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3717, 'grad_norm': 4.21875, 'learning_rate': 1.4367230740622814e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.52, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18150/40080 [3:41:19<4:26:35,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18151/40080 [3:41:20<4:27:04,  1.37it/s] 45%|████████████████████████████████████████████████���██████████████████████████▋                                                                                           | 18152/40080 [3:41:20<4:27:02,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18153/40080 [3:41:21<4:26:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18154/40080 [3:41:22<4:26:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18155/40080 [3:41:23<4:26:26,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18156/40080 [3:41:23<4:26:46,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18157/40080 [3:41:24<4:26:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18158/40080 [3:41:25<4:26:47,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18159/40080 [3:41:26<4:26:28,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18160/40080 [3:41:26<4:26:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3621, 'grad_norm': 4.09375, 'learning_rate': 1.4357532538614335e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2365.65, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18160/40080 [3:41:26<4:26:30,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18161/40080 [3:41:27<4:27:08,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18162/40080 [3:41:28<4:26:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18163/40080 [3:41:28<4:26:17,  1.37it/s] 45%|███████████���███████████████████████████████████████████████████████████████▋                                                                                           | 18164/40080 [3:41:29<4:26:17,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18165/40080 [3:41:30<4:26:48,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18166/40080 [3:41:31<4:26:16,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18167/40080 [3:41:31<4:26:40,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18168/40080 [3:41:32<4:26:41,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18169/40080 [3:41:33<4:27:00,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18170/40080 [3:41:34<4:27:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.403, 'grad_norm': 3.59375, 'learning_rate': 1.4347833193074667e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2396.34, 'epoch': 1.81}
+ 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18170/40080 [3:41:34<4:27:18,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18171/40080 [3:41:34<4:27:46,  1.36it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18172/40080 [3:41:35<4:27:01,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18173/40080 [3:41:36<4:26:20,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18174/40080 [3:41:36<4:26:10,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18175/40080 [3:41:37<4:26:16,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18176/40080 [3:41:38<4:25:59,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18177/40080 [3:41:39<4:25:56,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18178/40080 [3:41:39<4:25:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                           | 18179/40080 [3:41:40<4:25:33,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18180/40080 [3:41:41<4:25:01,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3849, 'grad_norm': 2.953125, 'learning_rate': 1.4338132709974902e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2132.46, 'epoch': 1.82}
+ 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18180/40080 [3:41:41<4:25:01,  1.38it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18181/40080 [3:41:42<4:25:34,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18182/40080 [3:41:42<4:26:00,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18183/40080 [3:41:43<4:25:52,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18184/40080 [3:41:44<4:25:55,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18185/40080 [3:41:44<4:26:21,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18186/40080 [3:41:45<4:26:34,  1.37it/s] 45%|███████████████████████████████████████████████████████████��███████████████▊                                                                                           | 18187/40080 [3:41:46<4:26:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18188/40080 [3:41:47<4:26:31,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18189/40080 [3:41:47<4:26:43,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18190/40080 [3:41:48<4:27:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3841, 'grad_norm': 3.265625, 'learning_rate': 1.4328431095286832e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2537.36, 'epoch': 1.82}
+ 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18190/40080 [3:41:48<4:27:09,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18191/40080 [3:41:49<4:27:20,  1.36it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18192/40080 [3:41:50<4:26:55,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18193/40080 [3:41:50<4:26:40,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18194/40080 [3:41:51<4:26:23,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18195/40080 [3:41:52<4:26:22,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18196/40080 [3:41:53<4:26:42,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18197/40080 [3:41:53<4:26:49,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18198/40080 [3:41:54<4:26:03,  1.37it/s] 45%|██████████████████████���████████████████████████████████████████████████████▊                                                                                           | 18199/40080 [3:41:55<4:26:18,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18200/40080 [3:41:55<4:26:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3245, 'grad_norm': 2.671875, 'learning_rate': 1.4318728354982955e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2350.41, 'epoch': 1.82}
+ 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18200/40080 [3:41:55<4:26:11,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18201/40080 [3:41:56<4:25:59,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18202/40080 [3:41:57<4:26:11,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18203/40080 [3:41:58<4:25:48,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18204/40080 [3:41:58<4:25:47,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18205/40080 [3:41:59<4:26:13,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18206/40080 [3:42:00<4:26:22,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18207/40080 [3:42:01<4:26:29,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18208/40080 [3:42:01<4:26:14,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                           | 18209/40080 [3:42:02<4:25:53,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18210/40080 [3:42:03<4:26:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3875, 'grad_norm': 3.796875, 'learning_rate': 1.4309024495036451e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.13, 'epoch': 1.82}
+ 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18210/40080 [3:42:03<4:26:01,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18211/40080 [3:42:03<4:26:05,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18212/40080 [3:42:04<4:26:20,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18213/40080 [3:42:05<4:25:47,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18214/40080 [3:42:06<4:25:39,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18215/40080 [3:42:06<4:25:46,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18216/40080 [3:42:07<4:25:44,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18217/40080 [3:42:08<4:26:13,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18218/40080 [3:42:09<4:25:47,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18219/40080 [3:42:09<4:25:27,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18220/40080 [3:42:10<4:25:22,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4727, 'grad_norm': 3.640625, 'learning_rate': 1.4299319521421201e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2320.63, 'epoch': 1.82}
+ 45%|██████████████████████████████████████��████████████████████████████████████▉                                                                                           | 18220/40080 [3:42:10<4:25:22,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18221/40080 [3:42:11<4:25:48,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18222/40080 [3:42:12<4:25:57,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18223/40080 [3:42:12<4:25:50,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18224/40080 [3:42:13<4:26:12,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18225/40080 [3:42:14<4:26:07,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18226/40080 [3:42:14<4:25:26,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18227/40080 [3:42:15<4:26:02,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18228/40080 [3:42:16<4:25:33,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18229/40080 [3:42:17<4:25:18,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18230/40080 [3:42:17<4:25:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3595, 'grad_norm': 3.953125, 'learning_rate': 1.4289613440111765e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2557.69, 'epoch': 1.82}
+ 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18230/40080 [3:42:17<4:25:37,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18231/40080 [3:42:18<4:26:24,  1.37it/s] 45%|█���█████████████████████████████████████████████████████████████████████████▉                                                                                           | 18232/40080 [3:42:19<4:26:05,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18233/40080 [3:42:20<4:26:17,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18234/40080 [3:42:20<4:26:16,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18235/40080 [3:42:21<4:25:51,  1.37it/s] 45%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18236/40080 [3:42:22<4:25:36,  1.37it/s] 46%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18237/40080 [3:42:22<4:25:57,  1.37it/s] 46%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18238/40080 [3:42:23<4:25:58,  1.37it/s] 46%|███████████████████████████████████████████████████████████████████████████▉                                                                                           | 18239/40080 [3:42:24<5:07:56,  1.18it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18240/40080 [3:42:25<4:55:30,  1.23it/s]                                                                                                                                                                                                                      {'loss': 0.3662, 'grad_norm': 2.96875, 'learning_rate': 1.4279906257083381e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2515.88, 'epoch': 1.82}
+ 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18240/40080 [3:42:25<4:55:30,  1.23it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18241/40080 [3:42:26<4:46:57,  1.27it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18242/40080 [3:42:27<4:40:35,  1.30it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18243/40080 [3:42:27<4:36:33,  1.32it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18244/40080 [3:42:28<4:33:19,  1.33it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18245/40080 [3:42:29<4:30:51,  1.34it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18246/40080 [3:42:29<4:29:48,  1.35it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18247/40080 [3:42:30<4:28:05,  1.36it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18248/40080 [3:42:31<4:26:55,  1.36it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18249/40080 [3:42:32<4:26:09,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18250/40080 [3:42:32<4:26:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.332, 'grad_norm': 2.96875, 'learning_rate': 1.4270197978311966e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2506.51, 'epoch': 1.82}
+ 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18250/40080 [3:42:32<4:26:08,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18251/40080 [3:42:33<4:26:15,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18252/40080 [3:42:34<4:25:58,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18253/40080 [3:42:35<4:25:32,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18254/40080 [3:42:35<4:25:15,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18255/40080 [3:42:36<4:25:15,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18256/40080 [3:42:37<4:25:29,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18257/40080 [3:42:37<4:25:07,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18258/40080 [3:42:38<4:25:33,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18259/40080 [3:42:39<4:25:26,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18260/40080 [3:42:40<4:25:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4097, 'grad_norm': 3.03125, 'learning_rate': 1.4260488609774125e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.56, 'epoch': 1.82}
+ 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18260/40080 [3:42:40<4:25:41,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18261/40080 [3:42:40<4:25:47,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18262/40080 [3:42:41<4:25:59,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18263/40080 [3:42:42<4:26:21,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18264/40080 [3:42:43<4:25:55,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18265/40080 [3:42:43<4:25:48,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18266/40080 [3:42:44<4:25:45,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18267/40080 [3:42:45<4:26:03,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18268/40080 [3:42:45<4:25:24,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████                                                                                           | 18269/40080 [3:42:46<4:25:43,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18270/40080 [3:42:47<4:25:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3151, 'grad_norm': 2.78125, 'learning_rate': 1.4250778157447117e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2527.94, 'epoch': 1.82}
+ 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18270/40080 [3:42:47<4:25:18,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18271/40080 [3:42:48<4:25:35,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18272/40080 [3:42:48<4:25:07,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18273/40080 [3:42:49<4:25:12,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18274/40080 [3:42:50<4:25:03,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18275/40080 [3:42:51<4:25:27,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18276/40080 [3:42:51<4:25:31,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18277/40080 [3:42:52<4:25:27,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18278/40080 [3:42:53<4:25:22,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18279/40080 [3:42:54<4:25:17,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18280/40080 [3:42:54<4:25:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.382, 'grad_norm': 3.703125, 'learning_rate': 1.4241066627308874e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2522.73, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18280/40080 [3:42:54<4:25:54,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18281/40080 [3:42:55<4:25:54,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18282/40080 [3:42:56<4:25:46,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18283/40080 [3:42:56<4:25:05,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18284/40080 [3:42:57<4:25:30,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18285/40080 [3:42:58<4:25:03,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18286/40080 [3:42:59<4:24:27,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18287/40080 [3:42:59<4:24:50,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18288/40080 [3:43:00<4:24:57,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18289/40080 [3:43:01<4:25:15,  1.37it/s] 46%|██████████████████████████████████████████████��█████████████████████████████▏                                                                                          | 18290/40080 [3:43:02<4:25:13,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3839, 'grad_norm': 3.359375, 'learning_rate': 1.4231354025338001e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2499.12, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18290/40080 [3:43:02<4:25:13,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18291/40080 [3:43:02<4:25:57,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18292/40080 [3:43:03<4:25:37,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18293/40080 [3:43:04<4:24:47,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18294/40080 [3:43:04<4:24:55,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18295/40080 [3:43:05<4:24:44,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18296/40080 [3:43:06<4:24:22,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18297/40080 [3:43:07<4:24:44,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18298/40080 [3:43:07<4:25:00,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                          | 18299/40080 [3:43:08<4:24:52,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18300/40080 [3:43:09<4:24:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3357, 'grad_norm': 3.359375, 'learning_rate': 1.4221640357513746e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2440.05, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18300/40080 [3:43:09<4:24:51,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18301/40080 [3:43:10<4:25:05,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18302/40080 [3:43:10<4:24:53,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18303/40080 [3:43:11<4:24:35,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18304/40080 [3:43:12<4:24:03,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18305/40080 [3:43:12<4:23:51,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18306/40080 [3:43:13<4:24:07,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18307/40080 [3:43:14<4:23:46,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18308/40080 [3:43:15<4:24:26,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18309/40080 [3:43:15<4:24:22,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18310/40080 [3:43:16<4:24:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3706, 'grad_norm': 3.921875, 'learning_rate': 1.4211925629816026e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2342.95, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18310/40080 [3:43:16<4:24:36,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18311/40080 [3:43:17<4:24:47,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18312/40080 [3:43:18<4:24:35,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18313/40080 [3:43:18<4:24:26,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18314/40080 [3:43:19<4:24:54,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18315/40080 [3:43:20<4:25:18,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18316/40080 [3:43:21<4:25:08,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18317/40080 [3:43:21<4:25:19,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18318/40080 [3:43:22<4:25:16,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18319/40080 [3:43:23<4:24:36,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18320/40080 [3:43:23<4:24:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3789, 'grad_norm': 2.28125, 'learning_rate': 1.4202209848225397e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.65, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18320/40080 [3:43:23<4:24:09,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18321/40080 [3:43:24<4:24:04,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18322/40080 [3:43:25<4:23:58,  1.37it/s] 46%|█���██████████████████████████████████████████████████████████████████████████▎                                                                                          | 18323/40080 [3:43:26<4:24:01,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18324/40080 [3:43:26<4:23:44,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18325/40080 [3:43:27<4:23:40,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18326/40080 [3:43:28<4:23:35,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18327/40080 [3:43:29<4:23:39,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18328/40080 [3:43:29<4:23:44,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▎                                                                                          | 18329/40080 [3:43:30<4:23:52,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18330/40080 [3:43:31<4:24:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3933, 'grad_norm': 4.3125, 'learning_rate': 1.4192493018723085e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2246.95, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18330/40080 [3:43:31<4:24:01,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18331/40080 [3:43:31<4:24:05,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18332/40080 [3:43:32<4:23:54,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18333/40080 [3:43:33<4:24:42,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18334/40080 [3:43:34<4:24:08,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18335/40080 [3:43:34<4:24:19,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18336/40080 [3:43:35<4:24:14,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18337/40080 [3:43:36<4:25:27,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18338/40080 [3:43:37<4:25:15,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18339/40080 [3:43:37<4:24:40,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18340/40080 [3:43:38<4:24:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4187, 'grad_norm': 2.828125, 'learning_rate': 1.4182775147290945e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2467.48, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18340/40080 [3:43:38<4:24:18,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18341/40080 [3:43:39<4:24:28,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18342/40080 [3:43:39<4:24:07,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18343/40080 [3:43:40<4:23:37,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18344/40080 [3:43:41<4:23:49,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18345/40080 [3:43:42<4:23:45,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18346/40080 [3:43:42<4:23:20,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18347/40080 [3:43:43<4:23:33,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18348/40080 [3:43:44<4:23:32,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18349/40080 [3:43:45<4:23:57,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18350/40080 [3:43:45<4:23:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3877, 'grad_norm': 3.046875, 'learning_rate': 1.4173056239911475e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2403.09, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18350/40080 [3:43:45<4:23:27,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18351/40080 [3:43:46<4:24:04,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18352/40080 [3:43:47<4:24:24,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18353/40080 [3:43:47<4:24:14,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18354/40080 [3:43:48<4:24:16,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18355/40080 [3:43:49<4:24:32,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18356/40080 [3:43:50<4:24:08,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18357/40080 [3:43:50<4:23:58,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18358/40080 [3:43:51<4:23:57,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▍                                                                                          | 18359/40080 [3:43:52<4:23:43,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18360/40080 [3:43:53<4:23:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3733, 'grad_norm': 2.765625, 'learning_rate': 1.4163336302567815e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.16, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18360/40080 [3:43:53<4:23:28,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18361/40080 [3:43:53<4:24:04,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18362/40080 [3:43:54<4:23:36,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18363/40080 [3:43:55<4:23:18,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18364/40080 [3:43:55<4:23:34,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18365/40080 [3:43:56<4:23:34,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18366/40080 [3:43:57<4:23:31,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18367/40080 [3:43:58<4:23:22,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18368/40080 [3:43:58<4:23:00,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18369/40080 [3:43:59<4:22:36,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18370/40080 [3:44:00<4:22:55,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3858, 'grad_norm': 3.53125, 'learning_rate': 1.4153615341243739e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2405.79, 'epoch': 1.83}
+ 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18370/40080 [3:44:00<4:22:55,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18371/40080 [3:44:01<4:23:04,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18372/40080 [3:44:01<4:22:56,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18373/40080 [3:44:02<4:23:31,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18374/40080 [3:44:03<4:23:56,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18375/40080 [3:44:04<4:23:30,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18376/40080 [3:44:04<4:23:13,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18377/40080 [3:44:05<4:23:29,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18378/40080 [3:44:06<4:23:41,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18379/40080 [3:44:06<4:23:21,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18380/40080 [3:44:07<4:22:58,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3944, 'grad_norm': 3.796875, 'learning_rate': 1.4143893361923644e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2325.81, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18380/40080 [3:44:07<4:22:58,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18381/40080 [3:44:08<4:23:35,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18382/40080 [3:44:09<4:23:23,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18383/40080 [3:44:09<4:22:57,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18384/40080 [3:44:10<4:23:35,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18385/40080 [3:44:11<4:23:29,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18386/40080 [3:44:12<4:23:28,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18387/40080 [3:44:12<4:23:21,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18388/40080 [3:44:13<4:22:58,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▌                                                                                          | 18389/40080 [3:44:14<4:23:39,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18390/40080 [3:44:14<4:23:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.376, 'grad_norm': 3.71875, 'learning_rate': 1.4134170370592561e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2470.26, 'epoch': 1.84}
+ 46%|█████████████████████████████████████████████████████████████████���██████████▋                                                                                          | 18390/40080 [3:44:14<4:23:21,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18391/40080 [3:44:15<4:23:14,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18392/40080 [3:44:16<4:23:34,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18393/40080 [3:44:17<4:22:52,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18394/40080 [3:44:17<4:22:35,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18395/40080 [3:44:18<4:23:09,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18396/40080 [3:44:19<4:23:22,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18397/40080 [3:44:20<4:23:21,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18398/40080 [3:44:20<4:23:26,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18399/40080 [3:44:21<4:23:48,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18400/40080 [3:44:22<4:23:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3105, 'grad_norm': 5.3125, 'learning_rate': 1.4124446373236146e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2416.3, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18400/40080 [3:44:22<4:23:59,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18401/40080 [3:44:22<4:23:24,  1.37it/s] 46%|████████████████████���███████████████████████████████████████████████████████▋                                                                                          | 18402/40080 [3:44:23<4:23:01,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18403/40080 [3:44:24<4:23:21,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18404/40080 [3:44:25<4:23:24,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18405/40080 [3:44:25<4:23:45,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18406/40080 [3:44:26<4:23:29,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18407/40080 [3:44:27<4:23:41,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18408/40080 [3:44:28<4:23:14,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18409/40080 [3:44:28<4:22:56,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18410/40080 [3:44:29<4:22:28,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3843, 'grad_norm': 4.40625, 'learning_rate': 1.4114721375840667e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2427.52, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18410/40080 [3:44:29<4:22:28,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18411/40080 [3:44:30<4:22:31,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18412/40080 [3:44:30<4:22:38,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18413/40080 [3:44:31<4:22:46,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18414/40080 [3:44:32<4:22:46,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18415/40080 [3:44:33<4:22:52,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18416/40080 [3:44:33<4:23:09,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18417/40080 [3:44:34<4:23:08,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18418/40080 [3:44:35<4:22:56,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▋                                                                                          | 18419/40080 [3:44:36<4:22:47,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18420/40080 [3:44:36<4:23:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4416, 'grad_norm': 2.8125, 'learning_rate': 1.4104995384393015e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2430.74, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18420/40080 [3:44:36<4:23:03,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18421/40080 [3:44:37<4:23:20,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18422/40080 [3:44:38<4:22:59,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18423/40080 [3:44:38<4:22:39,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18424/40080 [3:44:39<4:23:11,  1.37it/s] 46%|████████████████████████████████████████████████████���███████████████████████▊                                                                                          | 18425/40080 [3:44:40<4:22:39,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18426/40080 [3:44:41<4:22:24,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18427/40080 [3:44:41<4:22:24,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18428/40080 [3:44:42<4:22:24,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18429/40080 [3:44:43<4:22:29,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18430/40080 [3:44:44<4:22:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3419, 'grad_norm': 3.8125, 'learning_rate': 1.4095268404880688e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.33, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18430/40080 [3:44:44<4:22:45,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18431/40080 [3:44:44<4:22:48,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18432/40080 [3:44:45<4:22:35,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18433/40080 [3:44:46<4:22:19,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18434/40080 [3:44:46<4:21:54,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18435/40080 [3:44:47<4:21:45,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18436/40080 [3:44:48<4:21:55,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18437/40080 [3:44:49<4:22:09,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18438/40080 [3:44:49<4:22:08,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18439/40080 [3:44:50<4:22:16,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18440/40080 [3:44:51<4:22:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3963, 'grad_norm': 3.90625, 'learning_rate': 1.408554044329179e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.47, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18440/40080 [3:44:51<4:22:06,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18441/40080 [3:44:52<4:23:02,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18442/40080 [3:44:52<4:22:34,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18443/40080 [3:44:53<4:22:11,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18444/40080 [3:44:54<4:22:06,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18445/40080 [3:44:54<4:22:16,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18446/40080 [3:44:55<4:22:40,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18447/40080 [3:44:56<4:22:02,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18448/40080 [3:44:57<4:22:03,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▊                                                                                          | 18449/40080 [3:44:57<4:22:19,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18450/40080 [3:44:58<4:22:10,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3895, 'grad_norm': 3.5625, 'learning_rate': 1.4075811505615034e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2405.01, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18450/40080 [3:44:58<4:22:10,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18451/40080 [3:44:59<4:22:16,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18452/40080 [3:45:00<4:22:32,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18453/40080 [3:45:00<4:22:33,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18454/40080 [3:45:01<4:22:48,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18455/40080 [3:45:02<4:22:18,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18456/40080 [3:45:02<4:21:59,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18457/40080 [3:45:03<4:22:33,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18458/40080 [3:45:04<4:22:07,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18459/40080 [3:45:05<4:21:57,  1.38it/s] 46%|███████████████████████████████████████���████████████████████████████████████▉                                                                                          | 18460/40080 [3:45:05<4:21:37,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3865, 'grad_norm': 3.96875, 'learning_rate': 1.4066081597839736e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.02, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18460/40080 [3:45:05<4:21:37,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18461/40080 [3:45:06<4:22:30,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18462/40080 [3:45:07<4:22:15,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18463/40080 [3:45:08<4:22:00,  1.38it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18464/40080 [3:45:08<4:22:13,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18465/40080 [3:45:09<4:22:39,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18466/40080 [3:45:10<4:22:37,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18467/40080 [3:45:10<4:22:30,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18468/40080 [3:45:11<4:22:39,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18469/40080 [3:45:12<4:22:24,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18470/40080 [3:45:13<4:22:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3532, 'grad_norm': 3.421875, 'learning_rate': 1.4056350725955806e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2323.24, 'epoch': 1.84}
+ 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18470/40080 [3:45:13<4:22:04,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18471/40080 [3:45:13<4:23:07,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18472/40080 [3:45:14<4:22:22,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18473/40080 [3:45:15<4:22:26,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18474/40080 [3:45:16<4:22:44,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18475/40080 [3:45:16<4:22:52,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18476/40080 [3:45:17<4:22:16,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18477/40080 [3:45:18<4:22:04,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18478/40080 [3:45:19<4:22:26,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                          | 18479/40080 [3:45:19<4:22:27,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18480/40080 [3:45:20<4:22:48,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4008, 'grad_norm': 2.625, 'learning_rate': 1.4046618895953741e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.23, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18480/40080 [3:45:20<4:22:48,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18481/40080 [3:45:21<4:22:49,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18482/40080 [3:45:21<4:22:28,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18483/40080 [3:45:22<4:22:58,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18484/40080 [3:45:23<4:22:55,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18485/40080 [3:45:24<4:22:15,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18486/40080 [3:45:24<4:22:54,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18487/40080 [3:45:25<4:22:49,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18488/40080 [3:45:26<4:22:35,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18489/40080 [3:45:27<4:22:00,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18490/40080 [3:45:27<4:22:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3998, 'grad_norm': 2.796875, 'learning_rate': 1.4036886113824646e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2477.95, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18490/40080 [3:45:27<4:22:18,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18491/40080 [3:45:28<4:22:47,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18492/40080 [3:45:29<4:22:48,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18493/40080 [3:45:29<4:23:19,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18494/40080 [3:45:30<4:23:29,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18495/40080 [3:45:31<4:23:09,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18496/40080 [3:45:32<4:22:29,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18497/40080 [3:45:32<4:22:45,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18498/40080 [3:45:33<4:22:50,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18499/40080 [3:45:34<4:22:28,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18500/40080 [3:45:35<4:22:10,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3606, 'grad_norm': 2.90625, 'learning_rate': 1.4027152385560194e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2326.16, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18500/40080 [3:45:35<4:22:10,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18501/40080 [3:45:35<4:22:48,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18502/40080 [3:45:36<4:23:44,  1.36it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18503/40080 [3:45:37<4:23:23,  1.37it/s] 46%|████████████████████████████████████████████████████████████████████████���████                                                                                          | 18504/40080 [3:45:37<4:22:52,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18505/40080 [3:45:38<4:22:55,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18506/40080 [3:45:39<4:22:50,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18507/40080 [3:45:40<4:22:36,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18508/40080 [3:45:40<4:22:53,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████                                                                                          | 18509/40080 [3:45:41<4:22:46,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18510/40080 [3:45:42<4:22:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3799, 'grad_norm': 3.34375, 'learning_rate': 1.4017417717152643e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2594.54, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18510/40080 [3:45:42<4:22:41,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18511/40080 [3:45:43<4:23:52,  1.36it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18512/40080 [3:45:43<4:22:49,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18513/40080 [3:45:44<4:22:23,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18514/40080 [3:45:45<4:22:28,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18515/40080 [3:45:46<4:22:40,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18516/40080 [3:45:46<4:22:05,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18517/40080 [3:45:47<4:21:46,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18518/40080 [3:45:48<4:21:41,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18519/40080 [3:45:48<4:21:54,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18520/40080 [3:45:49<4:21:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3457, 'grad_norm': 3.921875, 'learning_rate': 1.4007682114594842e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2381.53, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18520/40080 [3:45:49<4:21:54,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18521/40080 [3:45:50<4:21:57,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18522/40080 [3:45:51<4:22:04,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18523/40080 [3:45:51<4:21:51,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18524/40080 [3:45:52<4:22:22,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18525/40080 [3:45:53<4:21:59,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18526/40080 [3:45:54<4:21:34,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18527/40080 [3:45:54<4:21:51,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18528/40080 [3:45:55<4:21:44,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18529/40080 [3:45:56<4:21:27,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18530/40080 [3:45:56<4:21:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4058, 'grad_norm': 4.03125, 'learning_rate': 1.39979455838802e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2414.51, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18530/40080 [3:45:56<4:21:21,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18531/40080 [3:45:57<4:21:40,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18532/40080 [3:45:58<4:21:59,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18533/40080 [3:45:59<4:21:33,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18534/40080 [3:45:59<4:21:41,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18535/40080 [3:46:00<4:21:45,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18536/40080 [3:46:01<4:22:02,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18537/40080 [3:46:02<4:21:57,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                         | 18538/40080 [3:46:02<4:21:34,  1.37it/s] 46%|█████████████████████████████████████���███████████████████████████████████████▏                                                                                         | 18539/40080 [3:46:03<4:21:57,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18540/40080 [3:46:04<4:21:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4287, 'grad_norm': 4.25, 'learning_rate': 1.3988208131002715e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2376.19, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18540/40080 [3:46:04<4:21:54,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18541/40080 [3:46:04<4:21:54,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18542/40080 [3:46:05<4:21:22,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18543/40080 [3:46:06<4:22:41,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18544/40080 [3:46:07<4:22:35,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18545/40080 [3:46:07<4:22:47,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18546/40080 [3:46:08<4:22:09,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18547/40080 [3:46:09<4:21:51,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18548/40080 [3:46:10<4:22:21,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18549/40080 [3:46:10<4:22:33,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18550/40080 [3:46:11<4:22:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4282, 'grad_norm': 3.84375, 'learning_rate': 1.3978469761956928e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2610.1, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18550/40080 [3:46:11<4:22:16,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18551/40080 [3:46:12<4:22:40,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18552/40080 [3:46:13<4:22:17,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18553/40080 [3:46:13<4:22:09,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18554/40080 [3:46:14<4:21:28,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18555/40080 [3:46:15<4:21:33,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18556/40080 [3:46:15<4:21:27,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18557/40080 [3:46:16<4:21:45,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18558/40080 [3:46:17<4:21:59,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18559/40080 [3:46:18<4:22:16,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18560/40080 [3:46:18<4:21:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4451, 'grad_norm': 4.03125, 'learning_rate': 1.3968730482737969e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2470.82, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18560/40080 [3:46:18<4:21:24,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18561/40080 [3:46:19<4:21:30,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18562/40080 [3:46:20<4:21:40,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18563/40080 [3:46:21<4:21:41,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18564/40080 [3:46:21<4:21:50,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18565/40080 [3:46:22<4:21:19,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18566/40080 [3:46:23<4:20:58,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18567/40080 [3:46:23<4:20:45,  1.38it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18568/40080 [3:46:24<4:20:28,  1.38it/s] 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                         | 18569/40080 [3:46:25<4:21:16,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18570/40080 [3:46:26<4:20:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4628, 'grad_norm': 5.03125, 'learning_rate': 1.3958990299341512e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2370.79, 'epoch': 1.85}
+ 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18570/40080 [3:46:26<4:20:47,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18571/40080 [3:46:26<4:21:01,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18572/40080 [3:46:27<4:21:04,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18573/40080 [3:46:28<4:21:01,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18574/40080 [3:46:29<4:21:28,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18575/40080 [3:46:29<4:20:44,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18576/40080 [3:46:30<4:21:07,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18577/40080 [3:46:31<4:20:51,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18578/40080 [3:46:31<4:20:54,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18579/40080 [3:46:32<4:21:18,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18580/40080 [3:46:33<4:21:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4089, 'grad_norm': 4.125, 'learning_rate': 1.3949249217763791e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2400.06, 'epoch': 1.86}
+ 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18580/40080 [3:46:33<4:21:18,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18581/40080 [3:46:34<4:21:52,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18582/40080 [3:46:34<4:21:52,  1.37it/s] 46%|███████████████████████████████████████��█████████████████████████████████████▍                                                                                         | 18583/40080 [3:46:35<4:22:03,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18584/40080 [3:46:36<4:21:51,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18585/40080 [3:46:37<4:21:53,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18586/40080 [3:46:37<4:22:01,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18587/40080 [3:46:38<4:22:41,  1.36it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18588/40080 [3:46:39<4:22:09,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18589/40080 [3:46:40<4:21:53,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18590/40080 [3:46:40<4:21:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3699, 'grad_norm': 2.8125, 'learning_rate': 1.3939507244001601e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2596.1, 'epoch': 1.86}
+ 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18590/40080 [3:46:40<4:21:47,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18591/40080 [3:46:41<4:21:38,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18592/40080 [3:46:42<4:21:24,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18593/40080 [3:46:42<4:20:53,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18594/40080 [3:46:43<4:20:51,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18595/40080 [3:46:44<4:21:08,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18596/40080 [3:46:45<4:21:31,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18597/40080 [3:46:45<4:21:40,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18598/40080 [3:46:46<4:21:25,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                         | 18599/40080 [3:46:47<4:21:35,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18600/40080 [3:46:48<4:21:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3453, 'grad_norm': 2.984375, 'learning_rate': 1.392976438405228e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2501.55, 'epoch': 1.86}
+ 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18600/40080 [3:46:48<4:21:56,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18601/40080 [3:46:48<4:22:23,  1.36it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18602/40080 [3:46:49<4:22:22,  1.36it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18603/40080 [3:46:50<4:22:20,  1.36it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18604/40080 [3:46:50<4:21:47,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18605/40080 [3:46:51<4:21:10,  1.37it/s] 46%|███████████████████████████████████████████████████████���█████████████████████▌                                                                                         | 18606/40080 [3:46:52<4:21:02,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18607/40080 [3:46:53<4:21:12,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18608/40080 [3:46:53<4:21:14,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18609/40080 [3:46:54<4:20:52,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18610/40080 [3:46:55<4:21:15,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3694, 'grad_norm': 3.84375, 'learning_rate': 1.3920020643913706e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2566.21, 'epoch': 1.86}
+ 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18610/40080 [3:46:55<4:21:15,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18611/40080 [3:46:56<4:21:15,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18612/40080 [3:46:56<4:21:19,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18613/40080 [3:46:57<4:20:56,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18614/40080 [3:46:58<4:20:22,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18615/40080 [3:46:58<4:20:31,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18616/40080 [3:46:59<4:20:44,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18617/40080 [3:47:00<4:20:49,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18618/40080 [3:47:01<4:20:35,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18619/40080 [3:47:01<4:20:17,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18620/40080 [3:47:02<4:20:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4045, 'grad_norm': 3.3125, 'learning_rate': 1.391027602958431e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2290.04, 'epoch': 1.86}
+ 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18620/40080 [3:47:02<4:20:38,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18621/40080 [3:47:03<4:21:30,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18622/40080 [3:47:04<4:21:18,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18623/40080 [3:47:04<4:21:12,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18624/40080 [3:47:05<4:21:00,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18625/40080 [3:47:06<4:20:56,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18626/40080 [3:47:07<4:21:01,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18627/40080 [3:47:07<4:21:04,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18628/40080 [3:47:08<4:21:06,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                         | 18629/40080 [3:47:09<4:20:58,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18630/40080 [3:47:09<4:21:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3742, 'grad_norm': 3.015625, 'learning_rate': 1.3900530547063053e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2438.26, 'epoch': 1.86}
+ 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18630/40080 [3:47:09<4:21:32,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18631/40080 [3:47:10<4:21:50,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18632/40080 [3:47:11<4:21:57,  1.36it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18633/40080 [3:47:12<4:21:38,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18634/40080 [3:47:12<4:21:28,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18635/40080 [3:47:13<4:20:54,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18636/40080 [3:47:14<4:21:09,  1.37it/s] 46%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18637/40080 [3:47:15<4:21:06,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18638/40080 [3:47:15<4:20:39,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18639/40080 [3:47:16<4:20:12,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18640/40080 [3:47:17<4:20:14,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.347, 'grad_norm': 3.1875, 'learning_rate': 1.3890784202349433e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2451.16, 'epoch': 1.86}
+ 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18640/40080 [3:47:17<4:20:14,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18641/40080 [3:47:17<4:20:39,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18642/40080 [3:47:18<4:21:00,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18643/40080 [3:47:19<4:20:59,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18644/40080 [3:47:20<4:20:23,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18645/40080 [3:47:20<4:20:34,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18646/40080 [3:47:21<4:20:42,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18647/40080 [3:47:22<4:20:37,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18648/40080 [3:47:23<4:20:29,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18649/40080 [3:47:23<4:20:17,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18650/40080 [3:47:24<4:20:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3475, 'grad_norm': 3.28125, 'learning_rate': 1.388103700144348e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2530.67, 'epoch': 1.86}
+ 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18650/40080 [3:47:24<4:20:25,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18651/40080 [3:47:25<4:20:37,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18652/40080 [3:47:26<4:20:33,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18653/40080 [3:47:26<4:21:53,  1.36it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18654/40080 [3:47:27<4:21:14,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18655/40080 [3:47:28<4:20:16,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18656/40080 [3:47:28<4:20:19,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18657/40080 [3:47:29<4:20:38,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18658/40080 [3:47:30<4:20:33,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                         | 18659/40080 [3:47:31<4:20:45,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18660/40080 [3:47:31<4:20:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3698, 'grad_norm': 3.28125, 'learning_rate': 1.3871288950345752e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2373.33, 'epoch': 1.86}
+ 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18660/40080 [3:47:31<4:20:37,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18661/40080 [3:47:32<4:20:22,  1.37it/s] 47%|██��██████████████████████████████████████████████████████████████████████████▊                                                                                         | 18662/40080 [3:47:33<4:20:38,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18663/40080 [3:47:34<4:21:03,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18664/40080 [3:47:34<4:20:30,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18665/40080 [3:47:35<4:20:36,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18666/40080 [3:47:36<4:20:40,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18667/40080 [3:47:36<4:20:25,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18668/40080 [3:47:37<4:19:57,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18669/40080 [3:47:38<4:19:38,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18670/40080 [3:47:39<4:19:42,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3856, 'grad_norm': 3.28125, 'learning_rate': 1.3861540055057327e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2185.21, 'epoch': 1.86}
+ 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18670/40080 [3:47:39<4:19:42,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18671/40080 [3:47:39<4:20:18,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18672/40080 [3:47:40<4:19:44,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18673/40080 [3:47:41<4:19:52,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18674/40080 [3:47:42<4:20:25,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18675/40080 [3:47:42<4:20:23,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18676/40080 [3:47:43<4:20:18,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18677/40080 [3:47:44<4:20:03,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18678/40080 [3:47:44<4:20:12,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18679/40080 [3:47:45<4:20:09,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18680/40080 [3:47:46<4:20:12,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3471, 'grad_norm': 2.640625, 'learning_rate': 1.3851790321579802e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2376.95, 'epoch': 1.87}
+ 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18680/40080 [3:47:46<4:20:12,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18681/40080 [3:47:47<4:20:08,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18682/40080 [3:47:47<4:20:04,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18683/40080 [3:47:48<4:19:39,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18684/40080 [3:47:49<4:19:50,  1.37it/s] 47%|█████████████████���███████████████████████████████████████████████████████████▊                                                                                         | 18685/40080 [3:47:50<4:19:18,  1.38it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18686/40080 [3:47:50<4:19:42,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18687/40080 [3:47:51<4:19:38,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18688/40080 [3:47:52<4:19:42,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▊                                                                                         | 18689/40080 [3:47:52<4:19:25,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18690/40080 [3:47:53<4:18:58,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3425, 'grad_norm': 3.71875, 'learning_rate': 1.3842039755915298e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2400.46, 'epoch': 1.87}
+ 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18690/40080 [3:47:53<4:18:58,  1.38it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18691/40080 [3:47:54<4:19:42,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18692/40080 [3:47:55<4:19:53,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18693/40080 [3:47:55<4:19:49,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18694/40080 [3:47:56<4:19:53,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18695/40080 [3:47:57<4:19:35,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18696/40080 [3:47:58<4:19:45,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18697/40080 [3:47:58<4:19:39,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18698/40080 [3:47:59<4:19:41,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18699/40080 [3:48:00<4:19:36,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18700/40080 [3:48:01<4:19:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3547, 'grad_norm': 3.046875, 'learning_rate': 1.3832288364066435e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2309.22, 'epoch': 1.87}
+ 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18700/40080 [3:48:01<4:19:25,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18701/40080 [3:48:01<4:19:49,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18702/40080 [3:48:02<4:19:43,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18703/40080 [3:48:03<4:20:26,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18704/40080 [3:48:03<4:20:11,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18705/40080 [3:48:04<4:21:02,  1.36it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18706/40080 [3:48:05<4:22:51,  1.36it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18707/40080 [3:48:06<4:23:49,  1.35it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18708/40080 [3:48:06<4:24:22,  1.35it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18709/40080 [3:48:07<4:25:01,  1.34it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18710/40080 [3:48:08<4:24:30,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3832, 'grad_norm': 3.171875, 'learning_rate': 1.382253615203635e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2387.77, 'epoch': 1.87}
+ 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18710/40080 [3:48:08<4:24:30,  1.35it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18711/40080 [3:48:09<4:23:51,  1.35it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18712/40080 [3:48:09<4:22:25,  1.36it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18713/40080 [3:48:10<4:21:41,  1.36it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18714/40080 [3:48:11<4:20:54,  1.36it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18715/40080 [3:48:12<4:20:23,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18716/40080 [3:48:12<4:19:23,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18717/40080 [3:48:13<4:18:56,  1.38it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18718/40080 [3:48:14<4:18:57,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████▉                                                                                         | 18719/40080 [3:48:14<4:18:58,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18720/40080 [3:48:15<4:19:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3339, 'grad_norm': 3.0, 'learning_rate': 1.3812783125828694e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.82, 'epoch': 1.87}
+ 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18720/40080 [3:48:15<4:19:24,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18721/40080 [3:48:16<4:19:19,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18722/40080 [3:48:17<4:19:04,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18723/40080 [3:48:17<4:19:01,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18724/40080 [3:48:18<4:18:54,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18725/40080 [3:48:19<4:20:16,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18726/40080 [3:48:20<4:22:14,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18727/40080 [3:48:20<4:23:47,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18728/40080 [3:48:21<4:24:17,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18729/40080 [3:48:22<4:24:57,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18730/40080 [3:48:23<4:24:41,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3468, 'grad_norm': 3.125, 'learning_rate': 1.3803029291447597e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2242.52, 'epoch': 1.87}
+ 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18730/40080 [3:48:23<4:24:41,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18731/40080 [3:48:23<4:26:01,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18732/40080 [3:48:24<4:26:26,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18733/40080 [3:48:25<4:24:17,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18734/40080 [3:48:26<4:23:17,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18735/40080 [3:48:26<4:21:45,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18736/40080 [3:48:27<4:20:40,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18737/40080 [3:48:28<4:20:01,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18738/40080 [3:48:28<4:21:27,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18739/40080 [3:48:29<4:22:32,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18740/40080 [3:48:30<4:22:38,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.4161, 'grad_norm': 4.1875, 'learning_rate': 1.3793274654897709e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2291.83, 'epoch': 1.87}
+ 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18740/40080 [3:48:30<4:22:38,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18741/40080 [3:48:31<4:21:37,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18742/40080 [3:48:31<4:20:50,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18743/40080 [3:48:32<4:19:55,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18744/40080 [3:48:33<4:19:06,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18745/40080 [3:48:34<4:21:44,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18746/40080 [3:48:34<4:23:49,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18747/40080 [3:48:35<4:25:11,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18748/40080 [3:48:36<4:24:42,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████                                                                                         | 18749/40080 [3:48:37<4:22:53,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18750/40080 [3:48:37<4:23:45,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3695, 'grad_norm': 3.515625, 'learning_rate': 1.3783519222184157e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2328.45, 'epoch': 1.87}
+ 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18750/40080 [3:48:37<4:23:45,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18751/40080 [3:48:38<4:25:03,  1.34it/s] 47%|████████████████████████████████���█████████████████████████████████████████████▏                                                                                        | 18752/40080 [3:48:39<4:25:54,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18753/40080 [3:48:40<4:26:08,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18754/40080 [3:48:40<4:26:00,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18755/40080 [3:48:41<4:26:15,  1.33it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18756/40080 [3:48:42<4:24:19,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18757/40080 [3:48:43<4:22:24,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18758/40080 [3:48:43<4:20:33,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18759/40080 [3:48:44<4:19:22,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18760/40080 [3:48:45<4:18:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4081, 'grad_norm': 3.671875, 'learning_rate': 1.3773762999312564e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2417.5, 'epoch': 1.87}
+ 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18760/40080 [3:48:45<4:18:46,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18761/40080 [3:48:45<4:18:52,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18762/40080 [3:48:46<4:18:31,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18763/40080 [3:48:47<4:18:13,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18764/40080 [3:48:48<4:18:04,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18765/40080 [3:48:48<4:17:48,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18766/40080 [3:48:49<4:17:37,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18767/40080 [3:48:50<4:17:29,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18768/40080 [3:48:51<4:18:02,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18769/40080 [3:48:51<4:17:53,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18770/40080 [3:48:52<4:17:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4027, 'grad_norm': 2.796875, 'learning_rate': 1.3764005992289048e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2512.9, 'epoch': 1.87}
+ 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18770/40080 [3:48:52<4:17:29,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18771/40080 [3:48:53<4:17:45,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18772/40080 [3:48:53<4:17:54,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18773/40080 [3:48:54<4:17:42,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18774/40080 [3:48:55<4:17:33,  1.38it/s] 47%|██████████████████████████████��███████████████████████████████████████████████▏                                                                                        | 18775/40080 [3:48:56<4:17:52,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18776/40080 [3:48:56<4:17:21,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18777/40080 [3:48:57<4:17:31,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18778/40080 [3:48:58<4:17:20,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▏                                                                                        | 18779/40080 [3:48:59<4:17:16,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18780/40080 [3:48:59<4:17:39,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3513, 'grad_norm': 3.015625, 'learning_rate': 1.375424820712019e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2450.84, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18780/40080 [3:48:59<4:17:39,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18781/40080 [3:49:00<4:18:27,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18782/40080 [3:49:01<4:18:30,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18783/40080 [3:49:01<4:18:03,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18784/40080 [3:49:02<4:18:23,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18785/40080 [3:49:03<4:18:53,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18786/40080 [3:49:04<4:18:40,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18787/40080 [3:49:04<4:19:51,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18788/40080 [3:49:05<4:19:14,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18789/40080 [3:49:06<4:18:42,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18790/40080 [3:49:07<4:18:23,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3814, 'grad_norm': 3.21875, 'learning_rate': 1.3744489649813072e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2294.03, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18790/40080 [3:49:07<4:18:23,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18791/40080 [3:49:07<4:18:29,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18792/40080 [3:49:08<4:18:35,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18793/40080 [3:49:09<4:18:01,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18794/40080 [3:49:09<4:18:12,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18795/40080 [3:49:10<4:18:18,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18796/40080 [3:49:11<4:18:09,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18797/40080 [3:49:12<4:17:53,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18798/40080 [3:49:12<4:17:58,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18799/40080 [3:49:13<4:20:42,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18800/40080 [3:49:14<4:22:41,  1.35it/s]                                                                                                                                                                                                                      {'loss': 0.3453, 'grad_norm': 3.171875, 'learning_rate': 1.373473032637524e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.03, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18800/40080 [3:49:14<4:22:41,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18801/40080 [3:49:15<4:24:40,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18802/40080 [3:49:15<4:25:34,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18803/40080 [3:49:16<4:24:53,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18804/40080 [3:49:17<4:23:09,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18805/40080 [3:49:18<4:21:43,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18806/40080 [3:49:18<4:21:09,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18807/40080 [3:49:19<4:19:54,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18808/40080 [3:49:20<4:21:02,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▎                                                                                        | 18809/40080 [3:49:20<4:20:19,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18810/40080 [3:49:21<4:19:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3339, 'grad_norm': 3.421875, 'learning_rate': 1.3724970242814708e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2390.22, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18810/40080 [3:49:21<4:19:32,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18811/40080 [3:49:22<4:19:06,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18812/40080 [3:49:23<4:18:37,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18813/40080 [3:49:23<4:18:20,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18814/40080 [3:49:24<4:18:22,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18815/40080 [3:49:25<4:18:16,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18816/40080 [3:49:26<4:17:38,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18817/40080 [3:49:26<4:17:22,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18818/40080 [3:49:27<4:17:35,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18819/40080 [3:49:28<4:17:23,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18820/40080 [3:49:28<4:16:55,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3837, 'grad_norm': 3.96875, 'learning_rate': 1.3715209405139967e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2413.09, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18820/40080 [3:49:28<4:16:55,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18821/40080 [3:49:29<4:17:35,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18822/40080 [3:49:30<4:17:55,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18823/40080 [3:49:31<4:18:12,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18824/40080 [3:49:31<4:17:33,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18825/40080 [3:49:32<4:17:35,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18826/40080 [3:49:33<4:17:04,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18827/40080 [3:49:34<4:16:28,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18828/40080 [3:49:34<4:17:02,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18829/40080 [3:49:35<4:16:45,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18830/40080 [3:49:36<4:57:14,  1.19it/s]                                                                                                                                                                                                                      {'loss': 0.3868, 'grad_norm': 3.265625, 'learning_rate': 1.370544781935997e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 1625.31, 'epoch': 1.88}
+ 47%|███████████████████████████████████████████████████████████���██████████████████▍                                                                                        | 18830/40080 [3:49:36<4:57:14,  1.19it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18831/40080 [3:49:37<4:47:22,  1.23it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18832/40080 [3:49:38<4:39:11,  1.27it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18833/40080 [3:49:38<4:32:30,  1.30it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18834/40080 [3:49:39<4:27:56,  1.32it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18835/40080 [3:49:40<4:24:49,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18836/40080 [3:49:41<4:22:38,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18837/40080 [3:49:41<4:22:11,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18838/40080 [3:49:42<4:20:07,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                        | 18839/40080 [3:49:43<4:19:09,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18840/40080 [3:49:43<4:18:21,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3723, 'grad_norm': 3.5, 'learning_rate': 1.3695685491484123e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2586.9, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18840/40080 [3:49:43<4:18:21,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18841/40080 [3:49:44<4:19:11,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18842/40080 [3:49:45<4:20:04,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18843/40080 [3:49:46<4:19:38,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18844/40080 [3:49:46<4:19:14,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18845/40080 [3:49:47<4:18:29,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18846/40080 [3:49:48<4:18:29,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18847/40080 [3:49:49<4:18:32,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18848/40080 [3:49:49<4:19:41,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18849/40080 [3:49:50<4:20:02,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18850/40080 [3:49:51<4:18:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3413, 'grad_norm': 4.625, 'learning_rate': 1.3685922427522296e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2267.55, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18850/40080 [3:49:51<4:18:59,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18851/40080 [3:49:51<4:19:25,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18852/40080 [3:49:52<4:18:55,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18853/40080 [3:49:53<4:17:56,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18854/40080 [3:49:54<4:17:49,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18855/40080 [3:49:54<4:17:21,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18856/40080 [3:49:55<4:17:33,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18857/40080 [3:49:56<4:17:50,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18858/40080 [3:49:57<4:17:39,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18859/40080 [3:49:57<4:17:41,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18860/40080 [3:49:58<4:17:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3624, 'grad_norm': 2.8125, 'learning_rate': 1.3676158633484818e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2389.15, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18860/40080 [3:49:58<4:17:51,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18861/40080 [3:49:59<4:18:04,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18862/40080 [3:50:00<4:18:12,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18863/40080 [3:50:00<4:18:08,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18864/40080 [3:50:01<4:17:50,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18865/40080 [3:50:02<4:17:09,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18866/40080 [3:50:02<4:17:16,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18867/40080 [3:50:03<4:17:10,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18868/40080 [3:50:04<4:16:56,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▌                                                                                        | 18869/40080 [3:50:05<4:17:19,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18870/40080 [3:50:05<4:16:54,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3596, 'grad_norm': 2.9375, 'learning_rate': 1.3666394115382447e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.62, 'epoch': 1.88}
+ 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18870/40080 [3:50:05<4:16:54,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18871/40080 [3:50:06<4:17:08,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18872/40080 [3:50:07<4:16:43,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18873/40080 [3:50:08<4:16:40,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18874/40080 [3:50:08<4:16:35,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18875/40080 [3:50:09<4:16:06,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18876/40080 [3:50:10<4:15:55,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18877/40080 [3:50:10<4:16:01,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18878/40080 [3:50:11<4:16:01,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18879/40080 [3:50:12<4:15:40,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18880/40080 [3:50:13<4:16:08,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3614, 'grad_norm': 3.359375, 'learning_rate': 1.3656628879226414e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2243.91, 'epoch': 1.89}
+ 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18880/40080 [3:50:13<4:16:08,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18881/40080 [3:50:13<4:16:51,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18882/40080 [3:50:14<4:16:56,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18883/40080 [3:50:15<4:19:18,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18884/40080 [3:50:16<4:18:37,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18885/40080 [3:50:16<4:18:03,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18886/40080 [3:50:17<4:18:26,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18887/40080 [3:50:18<4:20:27,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18888/40080 [3:50:18<4:21:34,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18889/40080 [3:50:19<4:22:41,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18890/40080 [3:50:20<4:23:26,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.3308, 'grad_norm': 3.046875, 'learning_rate': 1.364686293102837e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2574.83, 'epoch': 1.89}
+ 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18890/40080 [3:50:20<4:23:26,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18891/40080 [3:50:21<4:22:37,  1.34it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18892/40080 [3:50:21<4:20:34,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18893/40080 [3:50:22<4:19:34,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18894/40080 [3:50:23<4:21:04,  1.35it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18895/40080 [3:50:24<4:19:23,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18896/40080 [3:50:24<4:18:56,  1.36it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18897/40080 [3:50:25<4:18:20,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18898/40080 [3:50:26<4:18:13,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                        | 18899/40080 [3:50:27<4:17:20,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18900/40080 [3:50:27<4:16:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3971, 'grad_norm': 3.015625, 'learning_rate': 1.3637096276800412e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2406.56, 'epoch': 1.89}
+ 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18900/40080 [3:50:27<4:16:43,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18901/40080 [3:50:28<4:17:15,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18902/40080 [3:50:29<4:17:13,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18903/40080 [3:50:29<4:17:33,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18904/40080 [3:50:30<4:17:23,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18905/40080 [3:50:31<4:17:04,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18906/40080 [3:50:32<4:17:57,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18907/40080 [3:50:32<4:17:56,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18908/40080 [3:50:33<4:17:25,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18909/40080 [3:50:34<4:17:18,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18910/40080 [3:50:35<4:16:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3616, 'grad_norm': 3.328125, 'learning_rate': 1.3627328922555071e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2344.5, 'epoch': 1.89}
+ 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18910/40080 [3:50:35<4:16:55,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18911/40080 [3:50:35<4:16:44,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18912/40080 [3:50:36<4:16:36,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18913/40080 [3:50:37<4:16:30,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18914/40080 [3:50:37<4:16:51,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18915/40080 [3:50:38<4:16:39,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18916/40080 [3:50:39<4:16:14,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18917/40080 [3:50:40<4:16:35,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18918/40080 [3:50:40<4:16:48,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18919/40080 [3:50:41<4:16:53,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18920/40080 [3:50:42<4:16:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3575, 'grad_norm': 3.578125, 'learning_rate': 1.3617560874305318e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.67, 'epoch': 1.89}
+ 47%|█████████████████████████��████████████████████████████████████████████████████▊                                                                                        | 18920/40080 [3:50:42<4:16:40,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18921/40080 [3:50:43<4:16:32,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18922/40080 [3:50:43<4:16:35,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18923/40080 [3:50:44<4:16:38,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18924/40080 [3:50:45<4:17:01,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18925/40080 [3:50:45<4:17:17,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18926/40080 [3:50:46<4:16:44,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18927/40080 [3:50:47<4:16:26,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18928/40080 [3:50:48<4:16:41,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▊                                                                                        | 18929/40080 [3:50:48<4:16:59,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18930/40080 [3:50:49<4:17:03,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3932, 'grad_norm': 4.0, 'learning_rate': 1.3607792138064534e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2302.79, 'epoch': 1.89}
+ 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18930/40080 [3:50:49<4:17:03,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18931/40080 [3:50:50<4:17:14,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18932/40080 [3:50:51<4:17:01,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18933/40080 [3:50:51<4:17:41,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18934/40080 [3:50:52<4:17:18,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18935/40080 [3:50:53<4:17:05,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18936/40080 [3:50:54<4:16:50,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18937/40080 [3:50:54<4:17:08,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18938/40080 [3:50:55<4:16:50,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18939/40080 [3:50:56<4:16:48,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18940/40080 [3:50:56<4:16:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3864, 'grad_norm': 3.265625, 'learning_rate': 1.359802271984654e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.36, 'epoch': 1.89}
+ 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18940/40080 [3:50:56<4:16:47,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18941/40080 [3:50:57<4:17:02,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18942/40080 [3:50:58<4:16:51,  1.37it/s] 47%|█████████████████████████���████████████████████████████████████████████████████▉                                                                                        | 18943/40080 [3:50:59<4:16:28,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18944/40080 [3:50:59<4:17:10,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18945/40080 [3:51:00<4:16:23,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18946/40080 [3:51:01<4:16:01,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18947/40080 [3:51:02<4:15:42,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18948/40080 [3:51:02<4:15:33,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18949/40080 [3:51:03<4:15:51,  1.38it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18950/40080 [3:51:04<4:16:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3647, 'grad_norm': 3.125, 'learning_rate': 1.3588252625665566e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2320.07, 'epoch': 1.89}
+ 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18950/40080 [3:51:04<4:16:16,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18951/40080 [3:51:04<4:16:57,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18952/40080 [3:51:05<4:16:53,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18953/40080 [3:51:06<4:16:50,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18954/40080 [3:51:07<4:16:45,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18955/40080 [3:51:07<4:16:47,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18956/40080 [3:51:08<4:16:58,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18957/40080 [3:51:09<4:16:44,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18958/40080 [3:51:10<4:17:00,  1.37it/s] 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                        | 18959/40080 [3:51:10<4:16:29,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18960/40080 [3:51:11<4:16:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4094, 'grad_norm': 3.34375, 'learning_rate': 1.3578481861536257e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2423.33, 'epoch': 1.89}
+ 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18960/40080 [3:51:11<4:16:30,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18961/40080 [3:51:12<4:17:05,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18962/40080 [3:51:12<4:16:39,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18963/40080 [3:51:13<4:16:30,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18964/40080 [3:51:14<4:16:24,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18965/40080 [3:51:15<4:16:43,  1.37it/s] 47%|████████████████████████���██████████████████████████████████████████████████████                                                                                        | 18966/40080 [3:51:15<4:17:27,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18967/40080 [3:51:16<4:16:49,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18968/40080 [3:51:17<4:18:11,  1.36it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18969/40080 [3:51:18<4:18:13,  1.36it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18970/40080 [3:51:18<4:18:09,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3978, 'grad_norm': 2.71875, 'learning_rate': 1.356871043347368e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2531.66, 'epoch': 1.89}
+ 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18970/40080 [3:51:18<4:18:09,  1.36it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18971/40080 [3:51:19<4:17:38,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18972/40080 [3:51:20<4:17:20,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18973/40080 [3:51:21<4:17:26,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18974/40080 [3:51:21<4:17:19,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18975/40080 [3:51:22<4:17:09,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18976/40080 [3:51:23<4:16:55,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18977/40080 [3:51:23<4:16:40,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18978/40080 [3:51:24<4:16:31,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18979/40080 [3:51:25<4:16:43,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18980/40080 [3:51:26<4:16:20,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3547, 'grad_norm': 4.21875, 'learning_rate': 1.3558938347493307e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2391.98, 'epoch': 1.9}
+ 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18980/40080 [3:51:26<4:16:20,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18981/40080 [3:51:26<4:16:45,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18982/40080 [3:51:27<4:16:15,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18983/40080 [3:51:28<4:16:36,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18984/40080 [3:51:29<4:16:33,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18985/40080 [3:51:29<4:17:04,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18986/40080 [3:51:30<4:16:47,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18987/40080 [3:51:31<4:16:59,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████                                                                                        | 18988/40080 [3:51:31<4:17:09,  1.37it/s] 47%|███████████████████████���███████████████████████████████████████████████████████                                                                                        | 18989/40080 [3:51:32<4:17:20,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18990/40080 [3:51:33<4:16:50,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4097, 'grad_norm': 2.578125, 'learning_rate': 1.3549165609611015e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2495.39, 'epoch': 1.9}
+ 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18990/40080 [3:51:33<4:16:50,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18991/40080 [3:51:34<4:17:12,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18992/40080 [3:51:34<4:17:13,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18993/40080 [3:51:35<4:16:33,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18994/40080 [3:51:36<4:16:39,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18995/40080 [3:51:37<4:16:14,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18996/40080 [3:51:37<4:16:35,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18997/40080 [3:51:38<4:16:10,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18998/40080 [3:51:39<4:16:52,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 18999/40080 [3:51:39<4:16:34,  1.37it/s] 47%|█████████████████████████████████████████████████████████████████████████████���█▏                                                                                       | 19000/40080 [3:51:40<4:16:57,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4157, 'grad_norm': 4.0625, 'learning_rate': 1.3539392225843076e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2498.32, 'epoch': 1.9}
+ 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19000/40080 [3:51:40<4:16:57,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19001/40080 [3:51:41<4:17:03,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19002/40080 [3:51:42<4:16:29,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19003/40080 [3:51:42<4:16:30,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19004/40080 [3:51:43<4:16:11,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19005/40080 [3:51:44<4:16:14,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19006/40080 [3:51:45<4:16:37,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19007/40080 [3:51:45<4:15:56,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19008/40080 [3:51:46<4:15:50,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19009/40080 [3:51:47<4:15:25,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19010/40080 [3:51:48<4:15:27,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3746, 'grad_norm': 3.25, 'learning_rate': 1.3529618202206168e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2223.12, 'epoch': 1.9}
+ 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19010/40080 [3:51:48<4:15:27,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19011/40080 [3:51:48<4:16:03,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19012/40080 [3:51:49<4:15:36,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19013/40080 [3:51:50<4:16:22,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19014/40080 [3:51:50<4:16:14,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19015/40080 [3:51:51<4:16:10,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19016/40080 [3:51:52<4:15:28,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19017/40080 [3:51:53<4:15:29,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19018/40080 [3:51:53<4:15:23,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▏                                                                                       | 19019/40080 [3:51:54<4:15:35,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19020/40080 [3:51:55<4:15:39,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4007, 'grad_norm': 2.78125, 'learning_rate': 1.3519843544717359e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2313.29, 'epoch': 1.9}
+ 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19020/40080 [3:51:55<4:15:39,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19021/40080 [3:51:56<4:15:49,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19022/40080 [3:51:56<4:15:54,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19023/40080 [3:51:57<4:15:52,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19024/40080 [3:51:58<4:15:27,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19025/40080 [3:51:58<4:15:45,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19026/40080 [3:51:59<4:15:41,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19027/40080 [3:52:00<4:15:29,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19028/40080 [3:52:01<4:15:35,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19029/40080 [3:52:01<4:15:57,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19030/40080 [3:52:02<4:15:55,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3333, 'grad_norm': 2.78125, 'learning_rate': 1.3510068259394106e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2258.49, 'epoch': 1.9}
+ 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19030/40080 [3:52:02<4:15:55,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19031/40080 [3:52:03<4:16:22,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19032/40080 [3:52:04<4:16:32,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19033/40080 [3:52:04<4:16:07,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19034/40080 [3:52:05<4:15:46,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19035/40080 [3:52:06<4:15:32,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19036/40080 [3:52:06<4:15:55,  1.37it/s] 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19037/40080 [3:52:07<4:15:38,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19038/40080 [3:52:08<4:15:53,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19039/40080 [3:52:09<4:15:48,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19040/40080 [3:52:09<4:15:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3844, 'grad_norm': 2.796875, 'learning_rate': 1.3500292352254257e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2426.18, 'epoch': 1.9}
+ 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19040/40080 [3:52:09<4:15:29,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19041/40080 [3:52:10<4:15:46,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19042/40080 [3:52:11<4:15:35,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19043/40080 [3:52:12<4:15:21,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19044/40080 [3:52:12<4:15:36,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19045/40080 [3:52:13<4:15:20,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19046/40080 [3:52:14<4:15:45,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19047/40080 [3:52:14<4:15:48,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19048/40080 [3:52:15<4:15:38,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▎                                                                                       | 19049/40080 [3:52:16<4:15:49,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19050/40080 [3:52:17<4:15:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3405, 'grad_norm': 3.09375, 'learning_rate': 1.3490515829316039e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2349.57, 'epoch': 1.9}
+ 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19050/40080 [3:52:17<4:15:25,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19051/40080 [3:52:17<4:15:45,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19052/40080 [3:52:18<4:15:42,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19053/40080 [3:52:19<4:16:01,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19054/40080 [3:52:20<4:15:47,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████��██████████▍                                                                                       | 19055/40080 [3:52:20<4:15:27,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19056/40080 [3:52:21<4:16:11,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19057/40080 [3:52:22<4:15:34,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19058/40080 [3:52:23<4:15:57,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19059/40080 [3:52:23<4:16:05,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19060/40080 [3:52:24<4:15:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4286, 'grad_norm': 4.0, 'learning_rate': 1.3480738696598063e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2550.55, 'epoch': 1.9}
+ 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19060/40080 [3:52:24<4:15:43,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19061/40080 [3:52:25<4:15:41,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19062/40080 [3:52:25<4:15:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19063/40080 [3:52:26<4:15:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19064/40080 [3:52:27<4:15:53,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19065/40080 [3:52:28<4:15:30,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19066/40080 [3:52:28<4:15:37,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19067/40080 [3:52:29<4:15:18,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19068/40080 [3:52:30<4:15:29,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19069/40080 [3:52:31<4:15:50,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19070/40080 [3:52:31<4:15:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3374, 'grad_norm': 2.96875, 'learning_rate': 1.3470960960119309e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.4, 'epoch': 1.9}
+ 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19070/40080 [3:52:31<4:15:52,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19071/40080 [3:52:32<4:15:56,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19072/40080 [3:52:33<4:15:40,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19073/40080 [3:52:33<4:16:38,  1.36it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19074/40080 [3:52:34<4:15:56,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19075/40080 [3:52:35<4:15:10,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19076/40080 [3:52:36<4:14:35,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19077/40080 [3:52:36<4:14:37,  1.37it/s] 48%|████████████████████████████████████████████████████��██████████████████████████▍                                                                                       | 19078/40080 [3:52:37<4:14:22,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                       | 19079/40080 [3:52:38<4:14:58,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19080/40080 [3:52:39<4:15:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3646, 'grad_norm': 3.171875, 'learning_rate': 1.3461182625899126e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2422.24, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19080/40080 [3:52:39<4:15:11,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19081/40080 [3:52:39<4:15:57,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19082/40080 [3:52:40<4:15:38,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19083/40080 [3:52:41<4:15:43,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19084/40080 [3:52:41<4:15:38,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19085/40080 [3:52:42<4:15:29,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19086/40080 [3:52:43<4:14:31,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19087/40080 [3:52:44<4:14:10,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19088/40080 [3:52:44<4:14:30,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19089/40080 [3:52:45<4:14:07,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19090/40080 [3:52:46<4:14:16,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3786, 'grad_norm': 3.375, 'learning_rate': 1.3451403699957246e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2610.91, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19090/40080 [3:52:46<4:14:16,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19091/40080 [3:52:47<4:14:35,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19092/40080 [3:52:47<4:14:16,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19093/40080 [3:52:48<4:14:29,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19094/40080 [3:52:49<4:14:44,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19095/40080 [3:52:50<4:15:26,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19096/40080 [3:52:50<4:15:07,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19097/40080 [3:52:51<4:14:54,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19098/40080 [3:52:52<4:14:54,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19099/40080 [3:52:52<4:14:23,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19100/40080 [3:52:53<4:14:25,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3393, 'grad_norm': 3.359375, 'learning_rate': 1.3441624188313748e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2341.12, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19100/40080 [3:52:53<4:14:25,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19101/40080 [3:52:54<4:14:37,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19102/40080 [3:52:55<4:14:13,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19103/40080 [3:52:55<4:14:35,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19104/40080 [3:52:56<4:14:04,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19105/40080 [3:52:57<4:14:05,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19106/40080 [3:52:58<4:14:12,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19107/40080 [3:52:58<4:14:01,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19108/40080 [3:52:59<4:14:16,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▌                                                                                       | 19109/40080 [3:53:00<4:14:43,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19110/40080 [3:53:00<4:14:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3674, 'grad_norm': 3.015625, 'learning_rate': 1.3431844096989082e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2242.32, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19110/40080 [3:53:00<4:14:32,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19111/40080 [3:53:01<4:14:48,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19112/40080 [3:53:02<4:14:36,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19113/40080 [3:53:03<4:14:41,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19114/40080 [3:53:03<4:14:52,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19115/40080 [3:53:04<4:14:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19116/40080 [3:53:05<4:14:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19117/40080 [3:53:06<4:14:21,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19118/40080 [3:53:06<4:14:29,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19119/40080 [3:53:07<4:14:38,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19120/40080 [3:53:08<4:14:08,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3236, 'grad_norm': 3.25, 'learning_rate': 1.3422063432004056e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2483.45, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19120/40080 [3:53:08<4:14:08,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19121/40080 [3:53:08<4:14:20,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19122/40080 [3:53:09<4:14:33,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19123/40080 [3:53:10<4:14:44,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19124/40080 [3:53:11<4:14:41,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19125/40080 [3:53:11<4:14:39,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19126/40080 [3:53:12<4:15:10,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19127/40080 [3:53:13<4:14:14,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19128/40080 [3:53:14<4:14:13,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19129/40080 [3:53:14<4:14:36,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19130/40080 [3:53:15<4:14:37,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3704, 'grad_norm': 2.890625, 'learning_rate': 1.3412282199379819e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2394.48, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19130/40080 [3:53:15<4:14:37,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19131/40080 [3:53:16<4:14:56,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19132/40080 [3:53:16<4:14:53,  1.37it/s] 48%|█████████████████████████████████████████���█████████████████████████████████████▋                                                                                       | 19133/40080 [3:53:17<4:15:05,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19134/40080 [3:53:18<4:14:43,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19135/40080 [3:53:19<4:14:43,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19136/40080 [3:53:19<4:14:28,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19137/40080 [3:53:20<4:14:18,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19138/40080 [3:53:21<4:14:19,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▋                                                                                       | 19139/40080 [3:53:22<4:14:06,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19140/40080 [3:53:22<4:14:26,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4118, 'grad_norm': 3.296875, 'learning_rate': 1.3402500405137886e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2317.7, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19140/40080 [3:53:22<4:14:26,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19141/40080 [3:53:23<4:14:37,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19142/40080 [3:53:24<4:14:15,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19143/40080 [3:53:24<4:13:59,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19144/40080 [3:53:25<4:14:11,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19145/40080 [3:53:26<4:13:59,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19146/40080 [3:53:27<4:14:04,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19147/40080 [3:53:27<4:13:59,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19148/40080 [3:53:28<4:13:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19149/40080 [3:53:29<4:14:09,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19150/40080 [3:53:30<4:14:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.321, 'grad_norm': 2.828125, 'learning_rate': 1.3392718055300105e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2328.8, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19150/40080 [3:53:30<4:14:02,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19151/40080 [3:53:30<4:14:28,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19152/40080 [3:53:31<4:14:21,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19153/40080 [3:53:32<4:15:00,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19154/40080 [3:53:32<4:14:22,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19155/40080 [3:53:33<4:14:42,  1.37it/s] 48%|███████████████████████���███████████████████████████████████████████████████████▊                                                                                       | 19156/40080 [3:53:34<4:14:20,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19157/40080 [3:53:35<4:14:26,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19158/40080 [3:53:35<4:14:07,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19159/40080 [3:53:36<4:14:23,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19160/40080 [3:53:37<4:14:00,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3528, 'grad_norm': 3.265625, 'learning_rate': 1.3382935155888668e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2497.69, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19160/40080 [3:53:37<4:14:00,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19161/40080 [3:53:38<4:14:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19162/40080 [3:53:38<4:14:33,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19163/40080 [3:53:39<4:14:36,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19164/40080 [3:53:40<4:15:00,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19165/40080 [3:53:41<4:14:44,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19166/40080 [3:53:41<4:14:30,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████���██▊                                                                                       | 19167/40080 [3:53:42<4:14:36,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19168/40080 [3:53:43<4:14:11,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▊                                                                                       | 19169/40080 [3:53:43<4:14:17,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19170/40080 [3:53:44<4:14:07,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4085, 'grad_norm': 3.78125, 'learning_rate': 1.3373151712926112e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.64, 'epoch': 1.91}
+ 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19170/40080 [3:53:44<4:14:07,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19171/40080 [3:53:45<4:14:30,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19172/40080 [3:53:46<4:14:13,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19173/40080 [3:53:46<4:14:06,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19174/40080 [3:53:47<4:13:59,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19175/40080 [3:53:48<4:14:36,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19176/40080 [3:53:49<4:14:19,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19177/40080 [3:53:49<4:14:03,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19178/40080 [3:53:50<4:13:49,  1.37it/s] 48%|████��██████████████████████████████████████████████████████████████████████████▉                                                                                       | 19179/40080 [3:53:51<4:13:41,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19180/40080 [3:53:51<4:13:13,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.446, 'grad_norm': 4.53125, 'learning_rate': 1.3363367732435306e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2463.06, 'epoch': 1.92}
+ 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19180/40080 [3:53:51<4:13:13,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19181/40080 [3:53:52<4:13:35,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19182/40080 [3:53:53<4:13:39,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19183/40080 [3:53:54<4:13:38,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19184/40080 [3:53:54<4:13:08,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19185/40080 [3:53:55<4:13:32,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19186/40080 [3:53:56<4:13:45,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19187/40080 [3:53:57<4:13:34,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19188/40080 [3:53:57<4:13:57,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19189/40080 [3:53:58<4:13:29,  1.37it/s] 48%|██████████████████████████████████████████████████████████���████████████████████▉                                                                                       | 19190/40080 [3:53:59<4:13:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3833, 'grad_norm': 2.5, 'learning_rate': 1.3353583220439444e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2384.65, 'epoch': 1.92}
+ 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19190/40080 [3:53:59<4:13:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19191/40080 [3:53:59<4:13:53,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19192/40080 [3:54:00<4:13:55,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19193/40080 [3:54:01<4:13:16,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19194/40080 [3:54:02<4:13:09,  1.38it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19195/40080 [3:54:02<4:13:47,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19196/40080 [3:54:03<4:14:34,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19197/40080 [3:54:04<4:14:51,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19198/40080 [3:54:05<4:14:01,  1.37it/s] 48%|███████████████████████████████████████████████████████████████████████████████▉                                                                                       | 19199/40080 [3:54:05<4:13:32,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19200/40080 [3:54:06<4:13:45,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3986, 'grad_norm': 3.140625, 'learning_rate': 1.3343798182962056e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.93, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19200/40080 [3:54:06<4:13:45,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19201/40080 [3:54:07<4:13:43,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19202/40080 [3:54:08<4:14:01,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19203/40080 [3:54:08<4:13:50,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19204/40080 [3:54:09<4:14:01,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19205/40080 [3:54:10<4:13:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19206/40080 [3:54:10<4:13:25,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19207/40080 [3:54:11<4:13:24,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19208/40080 [3:54:12<4:12:45,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19209/40080 [3:54:13<4:13:22,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19210/40080 [3:54:13<4:13:04,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3504, 'grad_norm': 3.09375, 'learning_rate': 1.3334012626026987e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2487.67, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19210/40080 [3:54:13<4:13:04,  1.37it/s] 48%|████████████��███████████████████████████████████████████████████████████████████                                                                                       | 19211/40080 [3:54:14<4:13:45,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19212/40080 [3:54:15<4:13:39,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19213/40080 [3:54:16<4:13:22,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19214/40080 [3:54:16<4:13:43,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19215/40080 [3:54:17<4:13:33,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19216/40080 [3:54:18<4:14:06,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19217/40080 [3:54:18<4:13:56,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19218/40080 [3:54:19<4:14:15,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19219/40080 [3:54:20<4:13:50,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19220/40080 [3:54:21<4:13:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3562, 'grad_norm': 3.671875, 'learning_rate': 1.3324226555658404e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2467.01, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19220/40080 [3:54:21<4:13:32,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19221/40080 [3:54:21<4:13:28,  1.37it/s] 48%|█████████████████████████████████████████████████████████████████��██████████████                                                                                       | 19222/40080 [3:54:22<4:13:55,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19223/40080 [3:54:23<4:13:23,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19224/40080 [3:54:24<4:13:15,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19225/40080 [3:54:24<4:13:13,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19226/40080 [3:54:25<4:12:54,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19227/40080 [3:54:26<4:13:10,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19228/40080 [3:54:26<4:13:00,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████                                                                                       | 19229/40080 [3:54:27<4:13:28,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19230/40080 [3:54:28<4:13:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3757, 'grad_norm': 3.09375, 'learning_rate': 1.3314439977880799e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2485.53, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19230/40080 [3:54:28<4:13:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19231/40080 [3:54:29<4:14:00,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19232/40080 [3:54:29<4:13:58,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19233/40080 [3:54:30<4:13:34,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19234/40080 [3:54:31<4:13:15,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19235/40080 [3:54:32<4:13:18,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19236/40080 [3:54:32<4:13:27,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19237/40080 [3:54:33<4:12:53,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19238/40080 [3:54:34<4:12:55,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19239/40080 [3:54:34<4:13:11,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19240/40080 [3:54:35<4:12:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3472, 'grad_norm': 3.078125, 'learning_rate': 1.330465289871896e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.19, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19240/40080 [3:54:35<4:12:54,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19241/40080 [3:54:36<4:13:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19242/40080 [3:54:37<4:13:31,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19243/40080 [3:54:37<4:13:33,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19244/40080 [3:54:38<4:13:32,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19245/40080 [3:54:39<4:13:23,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19246/40080 [3:54:40<4:13:18,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19247/40080 [3:54:40<4:12:47,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19248/40080 [3:54:41<4:12:06,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19249/40080 [3:54:42<4:12:35,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19250/40080 [3:54:42<4:12:31,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3867, 'grad_norm': 3.90625, 'learning_rate': 1.3294865324198e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2298.93, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19250/40080 [3:54:42<4:12:31,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19251/40080 [3:54:43<4:12:59,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19252/40080 [3:54:44<4:12:38,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19253/40080 [3:54:45<4:12:15,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19254/40080 [3:54:45<4:12:43,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19255/40080 [3:54:46<4:12:36,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19256/40080 [3:54:47<4:13:03,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19257/40080 [3:54:48<4:12:25,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19258/40080 [3:54:48<4:12:27,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 19259/40080 [3:54:49<4:12:27,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19260/40080 [3:54:50<4:12:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4261, 'grad_norm': 4.96875, 'learning_rate': 1.3285077260343331e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2265.8, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19260/40080 [3:54:50<4:12:40,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19261/40080 [3:54:51<4:12:43,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19262/40080 [3:54:51<4:12:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19263/40080 [3:54:52<4:12:48,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19264/40080 [3:54:53<4:12:27,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19265/40080 [3:54:53<4:12:51,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19266/40080 [3:54:54<4:12:45,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19267/40080 [3:54:55<4:12:40,  1.37it/s] 48%|██���█████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19268/40080 [3:54:56<4:12:28,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19269/40080 [3:54:56<4:12:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19270/40080 [3:54:57<4:12:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3909, 'grad_norm': 2.265625, 'learning_rate': 1.3275288713180661e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2526.39, 'epoch': 1.92}
+ 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19270/40080 [3:54:57<4:12:51,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19271/40080 [3:54:58<4:12:46,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19272/40080 [3:54:59<4:12:33,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19273/40080 [3:54:59<4:12:24,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19274/40080 [3:55:00<4:12:48,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19275/40080 [3:55:01<4:12:13,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19276/40080 [3:55:01<4:12:26,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19277/40080 [3:55:02<4:12:12,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19278/40080 [3:55:03<4:12:28,  1.37it/s] 48%|███████████████████████████████████████████████���████████████████████████████████▎                                                                                      | 19279/40080 [3:55:04<4:12:45,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19280/40080 [3:55:04<4:12:30,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3838, 'grad_norm': 3.296875, 'learning_rate': 1.3265499688735999e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2363.31, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19280/40080 [3:55:04<4:12:30,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19281/40080 [3:55:05<4:12:50,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19282/40080 [3:55:06<4:13:05,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19283/40080 [3:55:07<4:12:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19284/40080 [3:55:07<4:12:33,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19285/40080 [3:55:08<4:12:20,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19286/40080 [3:55:09<4:12:02,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19287/40080 [3:55:09<4:11:48,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19288/40080 [3:55:10<4:12:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 19289/40080 [3:55:11<4:12:40,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19290/40080 [3:55:12<4:12:51,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3529, 'grad_norm': 2.953125, 'learning_rate': 1.3255710193035652e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2483.03, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19290/40080 [3:55:12<4:12:51,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19291/40080 [3:55:12<4:13:18,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19292/40080 [3:55:13<4:13:21,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19293/40080 [3:55:14<4:13:46,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19294/40080 [3:55:15<4:13:10,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19295/40080 [3:55:15<4:12:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19296/40080 [3:55:16<4:12:36,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19297/40080 [3:55:17<4:12:40,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19298/40080 [3:55:17<4:12:32,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19299/40080 [3:55:18<4:12:39,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19300/40080 [3:55:19<4:12:41,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4188, 'grad_norm': 2.65625, 'learning_rate': 1.3245920232106212e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.76, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19300/40080 [3:55:19<4:12:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19301/40080 [3:55:20<4:13:07,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19302/40080 [3:55:20<4:13:10,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19303/40080 [3:55:21<4:12:50,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19304/40080 [3:55:22<4:13:05,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19305/40080 [3:55:23<4:13:01,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19306/40080 [3:55:23<4:12:51,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19307/40080 [3:55:24<4:12:35,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19308/40080 [3:55:25<4:12:08,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19309/40080 [3:55:26<4:12:12,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19310/40080 [3:55:26<4:12:17,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4059, 'grad_norm': 3.828125, 'learning_rate': 1.3236129811974556e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2557.79, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19310/40080 [3:55:26<4:12:17,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19311/40080 [3:55:27<4:12:02,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19312/40080 [3:55:28<4:12:09,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19313/40080 [3:55:28<4:11:47,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19314/40080 [3:55:29<4:11:57,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19315/40080 [3:55:30<4:11:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19316/40080 [3:55:31<4:11:32,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19317/40080 [3:55:31<4:11:48,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19318/40080 [3:55:32<4:11:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 19319/40080 [3:55:33<4:11:47,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19320/40080 [3:55:34<4:12:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3831, 'grad_norm': 3.0625, 'learning_rate': 1.3226338938667854e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2360.33, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19320/40080 [3:55:34<4:12:09,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19321/40080 [3:55:34<4:12:04,  1.37it/s] 48%|██████████████████████████████████████████████████████████████████████████��█████▌                                                                                      | 19322/40080 [3:55:35<4:12:03,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19323/40080 [3:55:36<4:11:37,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19324/40080 [3:55:36<4:11:48,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19325/40080 [3:55:37<4:11:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19326/40080 [3:55:38<4:11:54,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19327/40080 [3:55:39<4:12:17,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19328/40080 [3:55:39<4:11:59,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19329/40080 [3:55:40<4:12:21,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19330/40080 [3:55:41<4:12:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4051, 'grad_norm': 3.65625, 'learning_rate': 1.3216547618213542e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2374.15, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19330/40080 [3:55:41<4:12:24,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19331/40080 [3:55:42<4:12:34,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19332/40080 [3:55:42<4:12:10,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19333/40080 [3:55:43<4:12:03,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19334/40080 [3:55:44<4:11:46,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19335/40080 [3:55:44<4:14:17,  1.36it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19336/40080 [3:55:45<4:13:35,  1.36it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19337/40080 [3:55:46<4:12:51,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19338/40080 [3:55:47<4:12:31,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19339/40080 [3:55:47<4:12:05,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19340/40080 [3:55:48<4:12:09,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.357, 'grad_norm': 3.765625, 'learning_rate': 1.3206755856639338e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2390.41, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19340/40080 [3:55:48<4:12:09,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19341/40080 [3:55:49<4:12:47,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19342/40080 [3:55:50<4:12:51,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19343/40080 [3:55:50<4:12:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19344/40080 [3:55:51<4:12:42,  1.37it/s] 48%|███████████████████████████████████████��████████████████████████████████████████▌                                                                                      | 19345/40080 [3:55:52<4:12:43,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19346/40080 [3:55:52<4:12:01,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19347/40080 [3:55:53<4:11:17,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19348/40080 [3:55:54<4:11:17,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 19349/40080 [3:55:55<4:11:15,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19350/40080 [3:55:55<4:11:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3808, 'grad_norm': 2.6875, 'learning_rate': 1.319696365997323e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2437.58, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19350/40080 [3:55:55<4:11:29,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19351/40080 [3:55:56<4:11:51,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19352/40080 [3:55:57<4:11:34,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19353/40080 [3:55:58<4:11:41,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19354/40080 [3:55:58<4:12:01,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19355/40080 [3:55:59<4:12:10,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19356/40080 [3:56:00<4:11:45,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19357/40080 [3:56:00<4:11:23,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19358/40080 [3:56:01<4:11:29,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19359/40080 [3:56:02<4:11:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19360/40080 [3:56:03<4:13:30,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.437, 'grad_norm': 3.40625, 'learning_rate': 1.3187171034243476e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2467.65, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19360/40080 [3:56:03<4:13:30,  1.36it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19361/40080 [3:56:03<4:13:15,  1.36it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19362/40080 [3:56:04<4:12:53,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19363/40080 [3:56:05<4:12:19,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19364/40080 [3:56:06<4:11:53,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19365/40080 [3:56:06<4:11:46,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19366/40080 [3:56:07<4:11:42,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19367/40080 [3:56:08<4:11:18,  1.37it/s] 48%|█████��██████████████████████████████████████████████████████████████████████████▋                                                                                      | 19368/40080 [3:56:09<4:11:22,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19369/40080 [3:56:09<4:11:07,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19370/40080 [3:56:10<4:10:55,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4186, 'grad_norm': 3.359375, 'learning_rate': 1.3177377985478593e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2390.01, 'epoch': 1.93}
+ 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19370/40080 [3:56:10<4:10:55,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19371/40080 [3:56:11<4:11:27,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19372/40080 [3:56:11<4:11:23,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19373/40080 [3:56:12<4:11:23,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19374/40080 [3:56:13<4:11:29,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19375/40080 [3:56:14<4:11:14,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19376/40080 [3:56:14<4:11:03,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19377/40080 [3:56:15<4:10:54,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 19378/40080 [3:56:16<4:11:07,  1.37it/s] 48%|██████████████████████████████████████████████████��█████████████████████████████▋                                                                                      | 19379/40080 [3:56:17<4:11:24,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19380/40080 [3:56:17<4:11:01,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3701, 'grad_norm': 3.71875, 'learning_rate': 1.3167584519707365e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2392.6, 'epoch': 1.94}
+ 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19380/40080 [3:56:17<4:11:01,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19381/40080 [3:56:18<4:11:00,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19382/40080 [3:56:19<4:11:22,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19383/40080 [3:56:19<4:10:53,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19384/40080 [3:56:20<4:10:23,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19385/40080 [3:56:21<4:10:35,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19386/40080 [3:56:22<4:11:05,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19387/40080 [3:56:22<4:10:36,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19388/40080 [3:56:23<4:10:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19389/40080 [3:56:24<4:10:43,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19390/40080 [3:56:25<4:10:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3799, 'grad_norm': 2.9375, 'learning_rate': 1.3157790642958833e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2301.39, 'epoch': 1.94}
+ 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19390/40080 [3:56:25<4:10:53,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19391/40080 [3:56:25<4:10:44,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19392/40080 [3:56:26<4:10:53,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19393/40080 [3:56:27<4:10:34,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19394/40080 [3:56:27<4:10:46,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19395/40080 [3:56:28<4:10:59,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19396/40080 [3:56:29<4:11:00,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19397/40080 [3:56:30<4:10:47,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19398/40080 [3:56:30<4:10:31,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19399/40080 [3:56:31<4:10:55,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19400/40080 [3:56:32<4:10:35,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4096, 'grad_norm': 4.15625, 'learning_rate': 1.314799636126228e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2433.55, 'epoch': 1.94}
+ 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19400/40080 [3:56:32<4:10:35,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19401/40080 [3:56:33<4:10:20,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19402/40080 [3:56:33<4:10:29,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19403/40080 [3:56:34<4:10:24,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19404/40080 [3:56:35<4:09:50,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19405/40080 [3:56:35<4:09:58,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19406/40080 [3:56:36<4:09:45,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19407/40080 [3:56:37<4:10:22,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19408/40080 [3:56:38<4:10:10,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 19409/40080 [3:56:38<4:10:07,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19410/40080 [3:56:39<4:10:27,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3609, 'grad_norm': 3.375, 'learning_rate': 1.3138201680647252e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2363.51, 'epoch': 1.94}
+ 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19410/40080 [3:56:39<4:10:27,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19411/40080 [3:56:40<4:11:03,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19412/40080 [3:56:41<4:10:47,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19413/40080 [3:56:41<4:11:13,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19414/40080 [3:56:42<4:11:15,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19415/40080 [3:56:43<4:10:58,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19416/40080 [3:56:43<4:10:49,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19417/40080 [3:56:44<4:11:24,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19418/40080 [3:56:45<4:11:05,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19419/40080 [3:56:46<4:10:29,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19420/40080 [3:56:46<4:10:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4079, 'grad_norm': 3.9375, 'learning_rate': 1.312840660714353e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2529.1, 'epoch': 1.94}
+ 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19420/40080 [3:56:46<4:10:36,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19421/40080 [3:56:47<4:50:25,  1.19it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19422/40080 [3:56:48<4:38:21,  1.24it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19423/40080 [3:56:49<4:29:49,  1.28it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19424/40080 [3:56:50<4:24:09,  1.30it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19425/40080 [3:56:50<4:19:55,  1.32it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19426/40080 [3:56:51<4:17:03,  1.34it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19427/40080 [3:56:52<4:14:43,  1.35it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19428/40080 [3:56:53<4:13:32,  1.36it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19429/40080 [3:56:53<4:12:28,  1.36it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19430/40080 [3:56:54<4:11:16,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3959, 'grad_norm': 2.953125, 'learning_rate': 1.3118611146781144e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2577.74, 'epoch': 1.94}
+ 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19430/40080 [3:56:54<4:11:16,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19431/40080 [3:56:55<4:10:56,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19432/40080 [3:56:55<4:10:36,  1.37it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19433/40080 [3:56:56<4:09:54,  1.38it/s] 48%|��███████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19434/40080 [3:56:57<4:09:42,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19435/40080 [3:56:58<4:09:17,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19436/40080 [3:56:58<4:09:19,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19437/40080 [3:56:59<4:09:07,  1.38it/s] 48%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19438/40080 [3:57:00<4:09:39,  1.38it/s] 49%|████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 19439/40080 [3:57:01<4:09:50,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19440/40080 [3:57:01<4:09:58,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4253, 'grad_norm': 4.8125, 'learning_rate': 1.3108815305590358e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2435.5, 'epoch': 1.94}
+ 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19440/40080 [3:57:01<4:09:58,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19441/40080 [3:57:02<4:10:18,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19442/40080 [3:57:03<4:11:59,  1.36it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19443/40080 [3:57:03<4:11:07,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19444/40080 [3:57:04<4:11:18,  1.37it/s] 49%|██████████████████████████████████████████████��██████████████████████████████████                                                                                      | 19445/40080 [3:57:05<4:10:35,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19446/40080 [3:57:06<4:10:35,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19447/40080 [3:57:06<4:10:19,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19448/40080 [3:57:07<4:10:08,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19449/40080 [3:57:08<4:10:08,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19450/40080 [3:57:09<4:09:51,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4079, 'grad_norm': 3.3125, 'learning_rate': 1.3099019089601678e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2305.29, 'epoch': 1.94}
+ 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19450/40080 [3:57:09<4:09:51,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19451/40080 [3:57:09<4:09:45,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19452/40080 [3:57:10<4:09:38,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19453/40080 [3:57:11<4:10:03,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19454/40080 [3:57:11<4:10:13,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19455/40080 [3:57:12<4:09:55,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19456/40080 [3:57:13<4:10:17,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19457/40080 [3:57:14<4:10:16,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19458/40080 [3:57:14<4:09:52,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19459/40080 [3:57:15<4:09:54,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19460/40080 [3:57:16<4:09:39,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3676, 'grad_norm': 3.625, 'learning_rate': 1.3089222504845828e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2448.48, 'epoch': 1.94}
+ 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19460/40080 [3:57:16<4:09:39,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19461/40080 [3:57:17<4:10:07,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19462/40080 [3:57:17<4:10:08,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19463/40080 [3:57:18<4:10:02,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19464/40080 [3:57:19<4:10:01,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19465/40080 [3:57:19<4:09:46,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19466/40080 [3:57:20<4:10:04,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19467/40080 [3:57:21<4:10:07,  1.37it/s] 49%|████████████��████████████████████████████████████████████████████████████████████                                                                                      | 19468/40080 [3:57:22<4:09:55,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████                                                                                      | 19469/40080 [3:57:22<4:09:38,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19470/40080 [3:57:23<4:09:41,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3345, 'grad_norm': 3.8125, 'learning_rate': 1.3079425557353763e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2555.9, 'epoch': 1.94}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19470/40080 [3:57:23<4:09:41,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19471/40080 [3:57:24<4:09:57,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19472/40080 [3:57:25<4:09:39,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19473/40080 [3:57:25<4:09:31,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19474/40080 [3:57:26<4:09:31,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19475/40080 [3:57:27<4:09:09,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19476/40080 [3:57:27<4:09:38,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19477/40080 [3:57:28<4:09:28,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19478/40080 [3:57:29<4:09:24,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19479/40080 [3:57:30<4:09:09,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19480/40080 [3:57:30<4:09:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3867, 'grad_norm': 3.265625, 'learning_rate': 1.3069628253156672e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2201.25, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19480/40080 [3:57:30<4:09:47,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19481/40080 [3:57:31<4:10:13,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19482/40080 [3:57:32<4:10:03,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19483/40080 [3:57:33<4:09:55,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19484/40080 [3:57:33<4:09:59,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19485/40080 [3:57:34<4:10:07,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19486/40080 [3:57:35<4:10:21,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19487/40080 [3:57:35<4:10:17,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19488/40080 [3:57:36<4:10:00,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19489/40080 [3:57:37<4:09:43,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19490/40080 [3:57:38<4:09:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3546, 'grad_norm': 2.328125, 'learning_rate': 1.3059830598285953e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2334.56, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19490/40080 [3:57:38<4:09:40,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19491/40080 [3:57:38<4:09:54,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19492/40080 [3:57:39<4:09:18,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19493/40080 [3:57:40<4:09:11,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19494/40080 [3:57:41<4:09:16,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19495/40080 [3:57:41<4:09:31,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19496/40080 [3:57:42<4:09:21,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19497/40080 [3:57:43<4:09:01,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19498/40080 [3:57:43<4:08:43,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 19499/40080 [3:57:44<4:09:07,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19500/40080 [3:57:45<4:08:49,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4125, 'grad_norm': 2.65625, 'learning_rate': 1.3050032598773221e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2480.26, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19500/40080 [3:57:45<4:08:49,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19501/40080 [3:57:46<4:08:42,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19502/40080 [3:57:46<4:09:08,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19503/40080 [3:57:47<4:09:06,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19504/40080 [3:57:48<4:09:27,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19505/40080 [3:57:49<4:09:18,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19506/40080 [3:57:49<4:09:42,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19507/40080 [3:57:50<4:09:38,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19508/40080 [3:57:51<4:09:46,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19509/40080 [3:57:51<4:09:39,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19510/40080 [3:57:52<4:09:18,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4182, 'grad_norm': 3.390625, 'learning_rate': 1.3040234260650302e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2456.34, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19510/40080 [3:57:52<4:09:18,  1.38it/s] 49%|█████████��███████████████████████████████████████████████████████████████████████▎                                                                                     | 19511/40080 [3:57:53<4:09:46,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19512/40080 [3:57:54<4:09:50,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19513/40080 [3:57:54<4:09:44,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19514/40080 [3:57:55<4:09:36,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19515/40080 [3:57:56<4:09:36,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19516/40080 [3:57:57<4:09:20,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19517/40080 [3:57:57<4:09:26,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19518/40080 [3:57:58<4:09:30,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19519/40080 [3:57:59<4:09:38,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19520/40080 [3:57:59<4:09:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3713, 'grad_norm': 3.359375, 'learning_rate': 1.3030435589949241e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2479.36, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19520/40080 [3:57:59<4:09:40,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19521/40080 [3:58:00<4:10:04,  1.37it/s] 49%|██████████████████████████████████████████████��██████████████████████████████████▎                                                                                     | 19522/40080 [3:58:01<4:09:46,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19523/40080 [3:58:02<4:09:42,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19524/40080 [3:58:02<4:10:05,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19525/40080 [3:58:03<4:10:29,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19526/40080 [3:58:04<4:10:14,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19527/40080 [3:58:05<4:10:25,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19528/40080 [3:58:05<4:09:49,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 19529/40080 [3:58:06<4:10:06,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19530/40080 [3:58:07<4:09:54,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3242, 'grad_norm': 2.75, 'learning_rate': 1.302063659270228e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2496.5, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19530/40080 [3:58:07<4:09:54,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19531/40080 [3:58:08<4:10:00,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19532/40080 [3:58:08<4:09:44,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19533/40080 [3:58:09<4:08:56,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19534/40080 [3:58:10<4:09:18,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19535/40080 [3:58:10<4:08:50,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19536/40080 [3:58:11<4:08:42,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19537/40080 [3:58:12<4:08:49,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19538/40080 [3:58:13<4:08:38,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19539/40080 [3:58:13<4:08:45,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19540/40080 [3:58:14<4:08:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3236, 'grad_norm': 2.984375, 'learning_rate': 1.3010837274941848e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2445.66, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19540/40080 [3:58:14<4:08:50,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19541/40080 [3:58:15<4:08:53,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19542/40080 [3:58:15<4:08:51,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19543/40080 [3:58:16<4:10:20,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19544/40080 [3:58:17<4:10:24,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19545/40080 [3:58:18<4:10:13,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19546/40080 [3:58:18<4:10:28,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19547/40080 [3:58:19<4:09:34,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19548/40080 [3:58:20<4:09:37,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19549/40080 [3:58:21<4:08:59,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19550/40080 [3:58:21<4:09:02,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3843, 'grad_norm': 3.59375, 'learning_rate': 1.30010376427006e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2652.56, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19550/40080 [3:58:21<4:09:02,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19551/40080 [3:58:22<4:09:20,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19552/40080 [3:58:23<4:08:34,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19553/40080 [3:58:24<4:08:06,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19554/40080 [3:58:24<4:08:22,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19555/40080 [3:58:25<4:09:00,  1.37it/s] 49%|██████████████████████████████████���██████████████████████████████████████████████▍                                                                                     | 19556/40080 [3:58:26<4:09:20,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19557/40080 [3:58:26<4:09:03,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19558/40080 [3:58:27<4:08:59,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 19559/40080 [3:58:28<4:08:43,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19560/40080 [3:58:29<4:08:29,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.369, 'grad_norm': 3.265625, 'learning_rate': 1.2991237702011364e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2453.71, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19560/40080 [3:58:29<4:08:29,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19561/40080 [3:58:29<4:08:43,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19562/40080 [3:58:30<4:08:58,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19563/40080 [3:58:31<4:08:30,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19564/40080 [3:58:32<4:08:25,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19565/40080 [3:58:32<4:08:51,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19566/40080 [3:58:33<4:08:55,  1.37it/s] 49%|███████████████████████████████████████████████████████████████████████��█████████▌                                                                                     | 19567/40080 [3:58:34<4:08:45,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19568/40080 [3:58:34<4:08:26,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19569/40080 [3:58:35<4:08:04,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19570/40080 [3:58:36<4:08:28,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3912, 'grad_norm': 3.6875, 'learning_rate': 1.2981437458907162e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2221.45, 'epoch': 1.95}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19570/40080 [3:58:36<4:08:28,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19571/40080 [3:58:37<4:08:48,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19572/40080 [3:58:37<4:08:35,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19573/40080 [3:58:38<4:08:53,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19574/40080 [3:58:39<4:09:04,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19575/40080 [3:58:40<4:09:09,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19576/40080 [3:58:40<4:08:49,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19577/40080 [3:58:41<4:09:15,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19578/40080 [3:58:42<4:09:11,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19579/40080 [3:58:42<4:09:45,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19580/40080 [3:58:43<4:09:52,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3835, 'grad_norm': 4.375, 'learning_rate': 1.297163691942121e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2550.85, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19580/40080 [3:58:43<4:09:52,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19581/40080 [3:58:44<4:09:43,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19582/40080 [3:58:45<4:09:31,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19583/40080 [3:58:45<4:09:49,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19584/40080 [3:58:46<4:09:08,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19585/40080 [3:58:47<4:09:33,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19586/40080 [3:58:48<4:09:34,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19587/40080 [3:58:48<4:09:41,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19588/40080 [3:58:49<4:08:54,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 19589/40080 [3:58:50<4:08:43,  1.37it/s] 49%|█████████████████████���███████████████████████████████████████████████████████████▋                                                                                     | 19590/40080 [3:58:50<4:08:34,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3808, 'grad_norm': 3.09375, 'learning_rate': 1.2961836089586896e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2335.49, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19590/40080 [3:58:50<4:08:34,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19591/40080 [3:58:51<4:08:42,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19592/40080 [3:58:52<4:08:52,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19593/40080 [3:58:53<4:09:07,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19594/40080 [3:58:53<4:09:04,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19595/40080 [3:58:54<4:08:33,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19596/40080 [3:58:55<4:08:43,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19597/40080 [3:58:56<4:08:03,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19598/40080 [3:58:56<4:08:26,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19599/40080 [3:58:57<4:08:20,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19600/40080 [3:58:58<4:07:50,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3974, 'grad_norm': 4.625, 'learning_rate': 1.2952034975437787e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2406.32, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19600/40080 [3:58:58<4:07:50,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19601/40080 [3:58:58<4:08:42,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19602/40080 [3:58:59<4:08:27,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19603/40080 [3:59:00<4:08:53,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19604/40080 [3:59:01<4:08:38,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19605/40080 [3:59:01<4:08:20,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19606/40080 [3:59:02<4:08:53,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19607/40080 [3:59:03<4:09:02,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19608/40080 [3:59:04<4:08:33,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19609/40080 [3:59:04<4:08:04,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19610/40080 [3:59:05<4:08:02,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.438, 'grad_norm': 3.53125, 'learning_rate': 1.2942233583007641e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2369.72, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19610/40080 [3:59:05<4:08:02,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19611/40080 [3:59:06<4:08:38,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19612/40080 [3:59:06<4:08:23,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19613/40080 [3:59:07<4:08:31,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19614/40080 [3:59:08<4:08:53,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19615/40080 [3:59:09<4:08:21,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19616/40080 [3:59:09<4:08:51,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19617/40080 [3:59:10<4:08:26,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19618/40080 [3:59:11<4:08:42,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 19619/40080 [3:59:12<4:08:18,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19620/40080 [3:59:12<4:08:36,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3863, 'grad_norm': 3.40625, 'learning_rate': 1.2932431918330361e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2398.44, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19620/40080 [3:59:12<4:08:36,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19621/40080 [3:59:13<4:08:31,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19622/40080 [3:59:14<4:08:21,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19623/40080 [3:59:15<4:08:01,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19624/40080 [3:59:15<4:08:03,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19625/40080 [3:59:16<4:08:04,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19626/40080 [3:59:17<4:08:30,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19627/40080 [3:59:17<4:08:26,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19628/40080 [3:59:18<4:09:03,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19629/40080 [3:59:19<4:08:47,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19630/40080 [3:59:20<4:08:05,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3962, 'grad_norm': 5.15625, 'learning_rate': 1.292262998744004e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2325.16, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19630/40080 [3:59:20<4:08:05,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19631/40080 [3:59:20<4:08:25,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19632/40080 [3:59:21<4:08:36,  1.37it/s] 49%|██████████████████��██████████████████████████████████████████████████████████████▊                                                                                     | 19633/40080 [3:59:22<4:08:41,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19634/40080 [3:59:23<4:08:12,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19635/40080 [3:59:23<4:07:53,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19636/40080 [3:59:24<4:07:52,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19637/40080 [3:59:25<4:07:58,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19638/40080 [3:59:25<4:07:46,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19639/40080 [3:59:26<4:07:30,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19640/40080 [3:59:27<4:07:34,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3946, 'grad_norm': 2.75, 'learning_rate': 1.291282779637093e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2312.46, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19640/40080 [3:59:27<4:07:34,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19641/40080 [3:59:28<4:07:46,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19642/40080 [3:59:28<4:07:50,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19643/40080 [3:59:29<4:07:55,  1.37it/s] 49%|█████████████████████████████████████████████████████████���███████████████████████▊                                                                                     | 19644/40080 [3:59:30<4:08:26,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19645/40080 [3:59:31<4:08:01,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19646/40080 [3:59:31<4:07:39,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19647/40080 [3:59:32<4:07:45,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19648/40080 [3:59:33<4:07:34,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 19649/40080 [3:59:33<4:07:31,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19650/40080 [3:59:34<4:07:53,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4268, 'grad_norm': 3.421875, 'learning_rate': 1.2903025351157439e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2424.32, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19650/40080 [3:59:34<4:07:53,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19651/40080 [3:59:35<4:08:07,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19652/40080 [3:59:36<4:07:38,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19653/40080 [3:59:36<4:07:44,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19654/40080 [3:59:37<4:07:54,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19655/40080 [3:59:38<4:07:36,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19656/40080 [3:59:39<4:07:25,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19657/40080 [3:59:39<4:07:47,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19658/40080 [3:59:40<4:07:19,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19659/40080 [3:59:41<4:07:15,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19660/40080 [3:59:41<4:07:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3717, 'grad_norm': 3.46875, 'learning_rate': 1.2893222657834122e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2505.4, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19660/40080 [3:59:41<4:07:38,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19661/40080 [3:59:42<4:08:01,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19662/40080 [3:59:43<4:08:08,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19663/40080 [3:59:44<4:08:18,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19664/40080 [3:59:44<4:08:00,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19665/40080 [3:59:45<4:07:39,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19666/40080 [3:59:46<4:07:35,  1.37it/s] 49%|█████��███████████████████████████████████████████████████████████████████████████▉                                                                                     | 19667/40080 [3:59:47<4:07:35,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19668/40080 [3:59:47<4:07:21,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19669/40080 [3:59:48<4:07:55,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19670/40080 [3:59:49<4:07:59,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3648, 'grad_norm': 4.4375, 'learning_rate': 1.288341972243571e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2468.75, 'epoch': 1.96}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19670/40080 [3:59:49<4:07:59,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19671/40080 [3:59:49<4:07:55,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19672/40080 [3:59:50<4:08:08,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19673/40080 [3:59:51<4:08:01,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19674/40080 [3:59:52<4:07:57,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19675/40080 [3:59:52<4:07:21,  1.37it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19676/40080 [3:59:53<4:06:52,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19677/40080 [3:59:54<4:06:54,  1.38it/s] 49%|███████████████████████████████████████████��█████████████████████████████████████▉                                                                                     | 19678/40080 [3:59:55<4:07:13,  1.38it/s] 49%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 19679/40080 [3:59:55<4:07:43,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19680/40080 [3:59:56<4:07:19,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3591, 'grad_norm': 3.296875, 'learning_rate': 1.2873616550997062e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2415.91, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19680/40080 [3:59:56<4:07:19,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19681/40080 [3:59:57<4:07:36,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19682/40080 [3:59:57<4:08:00,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19683/40080 [3:59:58<4:07:21,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19684/40080 [3:59:59<4:07:08,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19685/40080 [4:00:00<4:07:19,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19686/40080 [4:00:00<4:07:17,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19687/40080 [4:00:01<4:07:43,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19688/40080 [4:00:02<4:07:22,  1.37it/s] 49%|████████████████████████████████████████████████████████████████████████████████��█                                                                                     | 19689/40080 [4:00:03<4:07:09,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19690/40080 [4:00:03<4:07:24,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3322, 'grad_norm': 2.96875, 'learning_rate': 1.2863813149553197e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2432.5, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19690/40080 [4:00:03<4:07:24,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19691/40080 [4:00:04<4:07:30,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19692/40080 [4:00:05<4:07:04,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19693/40080 [4:00:05<4:07:15,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19694/40080 [4:00:06<4:07:15,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19695/40080 [4:00:07<4:07:43,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19696/40080 [4:00:08<4:08:10,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19697/40080 [4:00:08<4:07:37,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19698/40080 [4:00:09<4:07:23,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19699/40080 [4:00:10<4:07:17,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19700/40080 [4:00:11<4:06:55,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4131, 'grad_norm': 4.09375, 'learning_rate': 1.2854009524139265e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2378.15, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19700/40080 [4:00:11<4:06:55,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19701/40080 [4:00:11<4:06:45,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19702/40080 [4:00:12<4:06:42,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19703/40080 [4:00:13<4:06:57,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19704/40080 [4:00:13<4:06:53,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19705/40080 [4:00:14<4:07:02,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19706/40080 [4:00:15<4:06:47,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19707/40080 [4:00:16<4:06:45,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19708/40080 [4:00:16<4:07:02,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                     | 19709/40080 [4:00:17<4:07:19,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19710/40080 [4:00:18<4:07:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3607, 'grad_norm': 3.5, 'learning_rate': 1.2844205680790561e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2339.84, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19710/40080 [4:00:18<4:07:28,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19711/40080 [4:00:19<4:08:21,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19712/40080 [4:00:19<4:08:05,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19713/40080 [4:00:20<4:07:48,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19714/40080 [4:00:21<4:07:25,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19715/40080 [4:00:21<4:07:27,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19716/40080 [4:00:22<4:07:49,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19717/40080 [4:00:23<4:07:01,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19718/40080 [4:00:24<4:07:14,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19719/40080 [4:00:24<4:07:18,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19720/40080 [4:00:25<4:06:45,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4145, 'grad_norm': 3.015625, 'learning_rate': 1.2834401625542508e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2402.8, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19720/40080 [4:00:25<4:06:45,  1.38it/s] 49%|████████████████████████████████���█████████████████████████████████████████████████▏                                                                                    | 19721/40080 [4:00:26<4:07:08,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19722/40080 [4:00:27<4:07:12,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19723/40080 [4:00:27<4:07:31,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19724/40080 [4:00:28<4:07:40,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19725/40080 [4:00:29<4:07:55,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19726/40080 [4:00:30<4:08:13,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19727/40080 [4:00:30<4:07:50,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19728/40080 [4:00:31<4:07:29,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19729/40080 [4:00:32<4:07:37,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19730/40080 [4:00:32<4:07:29,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3871, 'grad_norm': 2.75, 'learning_rate': 1.2824597364430665e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2680.81, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19730/40080 [4:00:32<4:07:29,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19731/40080 [4:00:33<4:07:38,  1.37it/s] 49%|██████████████████████████████████████████████████████████████��███████████████████▏                                                                                    | 19732/40080 [4:00:34<4:06:58,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19733/40080 [4:00:35<4:06:51,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19734/40080 [4:00:35<4:06:42,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19735/40080 [4:00:36<4:07:10,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19736/40080 [4:00:37<4:07:07,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19737/40080 [4:00:38<4:07:32,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19738/40080 [4:00:38<4:07:17,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 19739/40080 [4:00:39<4:06:30,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19740/40080 [4:00:40<4:06:31,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.339, 'grad_norm': 3.78125, 'learning_rate': 1.2814792903490713e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2342.42, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19740/40080 [4:00:40<4:06:31,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19741/40080 [4:00:40<4:06:54,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19742/40080 [4:00:41<4:07:09,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19743/40080 [4:00:42<4:07:15,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19744/40080 [4:00:43<4:06:50,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19745/40080 [4:00:43<4:07:21,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19746/40080 [4:00:44<4:07:05,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19747/40080 [4:00:45<4:07:07,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19748/40080 [4:00:46<4:06:39,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19749/40080 [4:00:46<4:06:14,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19750/40080 [4:00:47<4:06:43,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.2848, 'grad_norm': 3.453125, 'learning_rate': 1.2804988248758463e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2346.68, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19750/40080 [4:00:47<4:06:43,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19751/40080 [4:00:48<4:07:02,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19752/40080 [4:00:48<4:06:53,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19753/40080 [4:00:49<4:06:49,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19754/40080 [4:00:50<4:06:51,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19755/40080 [4:00:51<4:06:33,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19756/40080 [4:00:51<4:06:18,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19757/40080 [4:00:52<4:06:49,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19758/40080 [4:00:53<4:06:42,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19759/40080 [4:00:54<4:06:13,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19760/40080 [4:00:54<4:05:58,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3673, 'grad_norm': 3.921875, 'learning_rate': 1.2795183406269833e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.6, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19760/40080 [4:00:54<4:05:58,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19761/40080 [4:00:55<4:05:53,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19762/40080 [4:00:56<4:06:02,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19763/40080 [4:00:56<4:06:11,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19764/40080 [4:00:57<4:06:08,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19765/40080 [4:00:58<4:05:55,  1.38it/s] 49%|███████████████████████��██████████████████████████████████████████████████████████▎                                                                                    | 19766/40080 [4:00:59<4:06:01,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19767/40080 [4:00:59<4:06:13,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19768/40080 [4:01:00<4:06:19,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 19769/40080 [4:01:01<4:06:09,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19770/40080 [4:01:02<4:06:09,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.32, 'grad_norm': 3.015625, 'learning_rate': 1.2785378382060875e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2447.83, 'epoch': 1.97}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19770/40080 [4:01:02<4:06:09,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19771/40080 [4:01:02<4:06:51,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19772/40080 [4:01:03<4:07:36,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19773/40080 [4:01:04<4:06:59,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19774/40080 [4:01:04<4:06:43,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19775/40080 [4:01:05<4:06:59,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19776/40080 [4:01:06<4:06:43,  1.37it/s] 49%|█████████████████████████████████████████████████████���████████████████████████████▍                                                                                    | 19777/40080 [4:01:07<4:06:36,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19778/40080 [4:01:07<4:06:14,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19779/40080 [4:01:08<4:06:34,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19780/40080 [4:01:09<4:06:40,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.4006, 'grad_norm': 3.53125, 'learning_rate': 1.2775573182167735e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2475.39, 'epoch': 1.98}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19780/40080 [4:01:09<4:06:40,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19781/40080 [4:01:10<4:06:59,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19782/40080 [4:01:10<4:06:27,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19783/40080 [4:01:11<4:06:29,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19784/40080 [4:01:12<4:06:21,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19785/40080 [4:01:12<4:05:59,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19786/40080 [4:01:13<4:05:50,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19787/40080 [4:01:14<4:06:23,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████��                                                                                    | 19788/40080 [4:01:15<4:06:33,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19789/40080 [4:01:15<4:06:03,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19790/40080 [4:01:16<4:05:37,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3822, 'grad_norm': 4.71875, 'learning_rate': 1.2765767812626674e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2312.09, 'epoch': 1.98}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19790/40080 [4:01:16<4:05:37,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19791/40080 [4:01:17<4:06:14,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19792/40080 [4:01:18<4:06:33,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19793/40080 [4:01:18<4:06:42,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19794/40080 [4:01:19<4:06:41,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19795/40080 [4:01:20<4:07:11,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19796/40080 [4:01:21<4:06:49,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19797/40080 [4:01:21<4:06:52,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19798/40080 [4:01:22<4:06:41,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 19799/40080 [4:01:23<4:06:45,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19800/40080 [4:01:23<4:06:32,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3726, 'grad_norm': 3.640625, 'learning_rate': 1.2755962279474063e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2384.89, 'epoch': 1.98}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19800/40080 [4:01:23<4:06:32,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19801/40080 [4:01:24<4:06:17,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19802/40080 [4:01:25<4:06:24,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19803/40080 [4:01:26<4:06:19,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19804/40080 [4:01:26<4:06:23,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19805/40080 [4:01:27<4:06:02,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19806/40080 [4:01:28<4:06:14,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19807/40080 [4:01:29<4:06:15,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19808/40080 [4:01:29<4:06:46,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19809/40080 [4:01:30<4:06:25,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19810/40080 [4:01:31<4:06:18,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3626, 'grad_norm': 3.453125, 'learning_rate': 1.2746156588746364e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2343.65, 'epoch': 1.98}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19810/40080 [4:01:31<4:06:18,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19811/40080 [4:01:31<4:06:27,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19812/40080 [4:01:32<4:06:35,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19813/40080 [4:01:33<4:06:26,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19814/40080 [4:01:34<4:06:36,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19815/40080 [4:01:34<4:06:19,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19816/40080 [4:01:35<4:06:01,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19817/40080 [4:01:36<4:05:40,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19818/40080 [4:01:37<4:05:32,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19819/40080 [4:01:37<4:05:31,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19820/40080 [4:01:38<4:05:06,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3677, 'grad_norm': 3.890625, 'learning_rate': 1.2736350746480139e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2454.81, 'epoch': 1.98}
+ 49%|████████████████���█████████████████████████████████████████████████████████████████▌                                                                                    | 19820/40080 [4:01:38<4:05:06,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19821/40080 [4:01:39<4:05:24,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19822/40080 [4:01:39<4:05:05,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19823/40080 [4:01:40<4:05:24,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19824/40080 [4:01:41<4:05:40,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19825/40080 [4:01:42<4:05:58,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19826/40080 [4:01:42<4:05:26,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19827/40080 [4:01:43<4:05:06,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19828/40080 [4:01:44<4:05:13,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 19829/40080 [4:01:45<4:05:11,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19830/40080 [4:01:45<4:05:25,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3489, 'grad_norm': 2.59375, 'learning_rate': 1.272654475871205e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2239.12, 'epoch': 1.98}
+ 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19830/40080 [4:01:45<4:05:25,  1.38it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19831/40080 [4:01:46<4:05:39,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19832/40080 [4:01:47<4:05:53,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19833/40080 [4:01:47<4:05:30,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19834/40080 [4:01:48<4:05:34,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19835/40080 [4:01:49<4:07:13,  1.36it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19836/40080 [4:01:50<4:06:35,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19837/40080 [4:01:50<4:05:55,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19838/40080 [4:01:51<4:06:03,  1.37it/s] 49%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19839/40080 [4:01:52<4:05:47,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19840/40080 [4:01:53<4:05:38,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.39, 'grad_norm': 3.53125, 'learning_rate': 1.2716738631478841e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2462.45, 'epoch': 1.98}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19840/40080 [4:01:53<4:05:38,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19841/40080 [4:01:53<4:06:07,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19842/40080 [4:01:54<4:05:51,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19843/40080 [4:01:55<4:05:38,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19844/40080 [4:01:55<4:05:23,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19845/40080 [4:01:56<4:05:20,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19846/40080 [4:01:57<4:05:00,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19847/40080 [4:01:58<4:04:50,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19848/40080 [4:01:58<4:04:59,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19849/40080 [4:01:59<4:04:56,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19850/40080 [4:02:00<4:05:12,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3495, 'grad_norm': 3.234375, 'learning_rate': 1.2706932370817348e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2306.96, 'epoch': 1.98}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19850/40080 [4:02:00<4:05:12,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19851/40080 [4:02:01<4:05:34,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19852/40080 [4:02:01<4:05:48,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19853/40080 [4:02:02<4:05:43,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19854/40080 [4:02:03<4:05:34,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19855/40080 [4:02:03<4:05:07,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19856/40080 [4:02:04<4:05:33,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19857/40080 [4:02:05<4:05:05,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19858/40080 [4:02:06<4:04:48,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 19859/40080 [4:02:06<4:04:52,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19860/40080 [4:02:07<4:04:52,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4035, 'grad_norm': 4.4375, 'learning_rate': 1.2697125982764477e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2386.43, 'epoch': 1.98}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19860/40080 [4:02:07<4:04:52,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19861/40080 [4:02:08<4:05:23,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19862/40080 [4:02:09<4:05:10,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19863/40080 [4:02:09<4:05:07,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19864/40080 [4:02:10<4:04:47,  1.38it/s] 50%|███████��██████████████████████████████████████████████████████████████████████████▊                                                                                    | 19865/40080 [4:02:11<4:04:53,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19866/40080 [4:02:11<4:04:32,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19867/40080 [4:02:12<4:04:32,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19868/40080 [4:02:13<4:04:52,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19869/40080 [4:02:14<4:04:43,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19870/40080 [4:02:14<4:05:11,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3414, 'grad_norm': 2.34375, 'learning_rate': 1.2687319473357229e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2185.57, 'epoch': 1.98}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19870/40080 [4:02:14<4:05:11,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19871/40080 [4:02:15<4:05:14,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19872/40080 [4:02:16<4:04:43,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19873/40080 [4:02:17<4:04:40,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19874/40080 [4:02:17<4:04:54,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19875/40080 [4:02:18<4:04:35,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19876/40080 [4:02:19<4:04:25,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19877/40080 [4:02:19<4:04:41,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19878/40080 [4:02:20<4:04:51,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19879/40080 [4:02:21<4:05:03,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19880/40080 [4:02:22<4:04:56,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.352, 'grad_norm': 3.46875, 'learning_rate': 1.2677512848632663e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2255.97, 'epoch': 1.99}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19880/40080 [4:02:22<4:04:56,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19881/40080 [4:02:22<4:05:22,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19882/40080 [4:02:23<4:05:28,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19883/40080 [4:02:24<4:05:19,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19884/40080 [4:02:25<4:05:09,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19885/40080 [4:02:25<4:05:01,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19886/40080 [4:02:26<4:04:54,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████��███████████████▊                                                                                    | 19887/40080 [4:02:27<4:05:03,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19888/40080 [4:02:27<4:04:59,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 19889/40080 [4:02:28<4:04:37,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19890/40080 [4:02:29<4:04:28,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3283, 'grad_norm': 3.46875, 'learning_rate': 1.2667706114627926e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2423.27, 'epoch': 1.99}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19890/40080 [4:02:29<4:04:28,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19891/40080 [4:02:30<4:05:22,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19892/40080 [4:02:30<4:05:10,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19893/40080 [4:02:31<4:05:17,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19894/40080 [4:02:32<4:05:24,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19895/40080 [4:02:33<4:04:32,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19896/40080 [4:02:33<4:04:06,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19897/40080 [4:02:34<4:04:35,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19898/40080 [4:02:35<4:04:57,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19899/40080 [4:02:35<4:04:46,  1.37it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19900/40080 [4:02:36<4:03:58,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3461, 'grad_norm': 4.0625, 'learning_rate': 1.2657899277380222e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2496.33, 'epoch': 1.99}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19900/40080 [4:02:36<4:03:58,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19901/40080 [4:02:37<4:04:10,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19902/40080 [4:02:38<4:04:16,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19903/40080 [4:02:38<4:04:29,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19904/40080 [4:02:39<4:04:22,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19905/40080 [4:02:40<4:04:04,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19906/40080 [4:02:41<4:03:28,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19907/40080 [4:02:41<4:03:22,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19908/40080 [4:02:42<4:03:22,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19909/40080 [4:02:43<4:03:32,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19910/40080 [4:02:43<4:03:02,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3672, 'grad_norm': 3.359375, 'learning_rate': 1.2648092342926821e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2328.33, 'epoch': 1.99}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19910/40080 [4:02:43<4:03:02,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19911/40080 [4:02:44<4:02:46,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19912/40080 [4:02:45<4:02:44,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19913/40080 [4:02:46<4:02:21,  1.39it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19914/40080 [4:02:46<4:04:13,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19915/40080 [4:02:47<4:04:14,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19916/40080 [4:02:48<4:04:21,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19917/40080 [4:02:49<4:04:16,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19918/40080 [4:02:49<4:03:56,  1.38it/s] 50%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 19919/40080 [4:02:50<4:03:45,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19920/40080 [4:02:51<4:03:49,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3772, 'grad_norm': 3.75, 'learning_rate': 1.2638285317305043e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2412.85, 'epoch': 1.99}
+ 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19920/40080 [4:02:51<4:03:49,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19921/40080 [4:02:51<4:03:51,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19922/40080 [4:02:52<4:04:28,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19923/40080 [4:02:53<4:03:53,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19924/40080 [4:02:54<4:03:19,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19925/40080 [4:02:54<4:02:58,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19926/40080 [4:02:55<4:02:56,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19927/40080 [4:02:56<4:03:26,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19928/40080 [4:02:57<4:03:24,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19929/40080 [4:02:57<4:03:18,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19930/40080 [4:02:58<4:03:46,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4296, 'grad_norm': 3.171875, 'learning_rate': 1.2628478206552285e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2376.56, 'epoch': 1.99}
+ 50%|███████████████████████████████���███████████████████████████████████████████████████                                                                                    | 19930/40080 [4:02:58<4:03:46,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19931/40080 [4:02:59<4:04:05,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19932/40080 [4:02:59<4:04:02,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19933/40080 [4:03:00<4:03:30,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19934/40080 [4:03:01<4:03:13,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19935/40080 [4:03:02<4:03:02,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19936/40080 [4:03:02<4:03:19,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19937/40080 [4:03:03<4:03:24,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19938/40080 [4:03:04<4:03:18,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19939/40080 [4:03:04<4:03:40,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19940/40080 [4:03:05<4:03:05,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3966, 'grad_norm': 3.28125, 'learning_rate': 1.2618671016705979e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.32, 'epoch': 1.99}
+ 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19940/40080 [4:03:05<4:03:05,  1.38it/s] 50%|████████████████████████████████████████████████████████████��██████████████████████                                                                                    | 19941/40080 [4:03:06<4:02:54,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19942/40080 [4:03:07<4:02:52,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19943/40080 [4:03:07<4:03:08,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19944/40080 [4:03:08<4:03:37,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19945/40080 [4:03:09<4:03:33,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19946/40080 [4:03:10<4:03:10,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19947/40080 [4:03:10<4:03:37,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19948/40080 [4:03:11<4:03:29,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                    | 19949/40080 [4:03:12<4:02:52,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19950/40080 [4:03:12<4:03:14,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.4175, 'grad_norm': 3.59375, 'learning_rate': 1.2608863753803615e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2245.25, 'epoch': 1.99}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19950/40080 [4:03:12<4:03:14,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19951/40080 [4:03:13<4:03:17,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19952/40080 [4:03:14<4:03:14,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19953/40080 [4:03:15<4:03:05,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19954/40080 [4:03:15<4:03:15,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19955/40080 [4:03:16<4:02:23,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19956/40080 [4:03:17<4:02:36,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19957/40080 [4:03:18<4:02:59,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19958/40080 [4:03:18<4:02:29,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19959/40080 [4:03:19<4:02:52,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19960/40080 [4:03:20<4:02:48,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3791, 'grad_norm': 2.515625, 'learning_rate': 1.2599056423882718e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.53, 'epoch': 1.99}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19960/40080 [4:03:20<4:02:48,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19961/40080 [4:03:20<4:03:11,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19962/40080 [4:03:21<4:03:10,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19963/40080 [4:03:22<4:02:56,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19964/40080 [4:03:23<4:02:57,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19965/40080 [4:03:23<4:02:45,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19966/40080 [4:03:24<4:02:48,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19967/40080 [4:03:25<4:02:29,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19968/40080 [4:03:26<4:04:11,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19969/40080 [4:03:26<4:05:44,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19970/40080 [4:03:27<4:07:14,  1.36it/s]                                                                                                                                                                                                                      {'loss': 0.3791, 'grad_norm': 3.28125, 'learning_rate': 1.2589249032980868e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2388.55, 'epoch': 1.99}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19970/40080 [4:03:27<4:07:14,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19971/40080 [4:03:28<4:08:36,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19972/40080 [4:03:28<4:08:31,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19973/40080 [4:03:29<4:06:28,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19974/40080 [4:03:30<4:05:31,  1.36it/s] 50%|██��████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19975/40080 [4:03:31<4:04:13,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19976/40080 [4:03:31<4:03:38,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19977/40080 [4:03:32<4:03:09,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19978/40080 [4:03:33<4:03:10,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 19979/40080 [4:03:34<4:02:31,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19980/40080 [4:03:34<4:02:41,  1.38it/s]                                                                                                                                                                                                                      {'loss': 0.3347, 'grad_norm': 3.171875, 'learning_rate': 1.2579441587135674e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2327.82, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19980/40080 [4:03:34<4:02:41,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19981/40080 [4:03:35<4:02:32,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19982/40080 [4:03:36<4:02:38,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19983/40080 [4:03:36<4:02:23,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19984/40080 [4:03:37<4:02:30,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19985/40080 [4:03:38<4:02:32,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19986/40080 [4:03:39<4:02:43,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19987/40080 [4:03:39<4:02:29,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19988/40080 [4:03:40<4:02:55,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19989/40080 [4:03:41<4:03:07,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19990/40080 [4:03:42<4:04:46,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3912, 'grad_norm': 3.828125, 'learning_rate': 1.2569634092384771e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2411.73, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19990/40080 [4:03:42<4:04:46,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19991/40080 [4:03:42<4:06:01,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19992/40080 [4:03:43<4:04:33,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19993/40080 [4:03:44<4:03:26,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19994/40080 [4:03:44<4:03:02,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19995/40080 [4:03:45<4:02:40,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19996/40080 [4:03:46<4:02:44,  1.38it/s] 50%|█████████████████████████████████████████████���█████████████████████████████████████▎                                                                                   | 19997/40080 [4:03:47<4:02:29,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19998/40080 [4:03:47<4:02:29,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 19999/40080 [4:03:48<4:03:11,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20000/40080 [4:03:49<4:03:28,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3875, 'grad_norm': 3.625, 'learning_rate': 1.2559826554765844e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2305.24, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20000/40080 [4:03:49<4:03:28,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20001/40080 [4:03:50<4:03:48,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20002/40080 [4:03:50<4:03:02,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20003/40080 [4:03:51<4:03:13,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20004/40080 [4:03:52<4:02:51,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20005/40080 [4:03:52<4:04:44,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20006/40080 [4:03:53<4:05:34,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20007/40080 [4:03:54<4:04:09,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████��███████████████▎                                                                                   | 20008/40080 [4:03:55<4:44:00,  1.18it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 20009/40080 [4:03:56<4:31:31,  1.23it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20010/40080 [4:03:56<4:22:38,  1.27it/s]                                                                                                                                                                                                                      {'loss': 0.3579, 'grad_norm': 3.703125, 'learning_rate': 1.2550018980316591e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2473.31, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20010/40080 [4:03:56<4:22:38,  1.27it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20011/40080 [4:03:57<4:16:35,  1.30it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20012/40080 [4:03:58<4:11:42,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20013/40080 [4:03:59<4:09:30,  1.34it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20014/40080 [4:03:59<4:07:12,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20015/40080 [4:04:00<4:05:24,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20016/40080 [4:04:01<4:04:09,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20017/40080 [4:04:02<4:03:20,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20018/40080 [4:04:02<4:02:43,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20019/40080 [4:04:03<4:03:42,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20020/40080 [4:04:04<4:04:47,  1.37it/s]                                                                                                                                                                                                                      {'loss': 0.3578, 'grad_norm': 3.40625, 'learning_rate': 1.2540211375074731e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2319.59, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20020/40080 [4:04:04<4:04:47,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20021/40080 [4:04:04<4:04:27,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20022/40080 [4:04:05<4:03:26,  1.37it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20023/40080 [4:04:06<4:02:43,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20024/40080 [4:04:07<4:01:57,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20025/40080 [4:04:07<4:02:14,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20026/40080 [4:04:08<4:02:00,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20027/40080 [4:04:09<4:01:42,  1.38it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20028/40080 [4:04:10<4:15:28,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20029/40080 [4:04:14<9:25:07,  1.69s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20030/40080 [4:04:14<7:54:53,  1.42s/it]                                                                                                                                                                                                                      {'loss': 0.3393, 'grad_norm': 2.5, 'learning_rate': 1.2530403745078012e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2358.26, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20030/40080 [4:04:14<7:54:53,  1.42s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20031/40080 [4:04:15<6:48:47,  1.22s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20032/40080 [4:04:16<6:01:55,  1.08s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20033/40080 [4:04:17<5:26:45,  1.02it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20034/40080 [4:04:17<5:02:04,  1.11it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20035/40080 [4:04:18<4:44:53,  1.17it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20036/40080 [4:04:19<4:32:24,  1.23it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20037/40080 [4:04:19<4:23:56,  1.27it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20038/40080 [4:04:20<4:17:57,  1.29it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 20039/40080 [4:04:21<4:13:52,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20040/40080 [4:04:22<4:10:44,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.2728, 'grad_norm': 4.09375, 'learning_rate': 1.2520596096364188e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2420.2, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20040/40080 [4:04:22<4:10:44,  1.33it/s][2025-10-31 04:07:34,370] [INFO] [axolotl.core.trainers.base._save:665] [PID:7760] Saving model checkpoint to ./thinking-backfill-0.1.17/checkpoint-20040
+ 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                   | 20041/40080 [4:04:48<46:03:13,  8.27s/it] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                   | 20042/40080 [4:04:48<33:27:42,  6.01s/it] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                   | 20043/40080 [4:04:49<24:38:59,  4.43s/it] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                   | 20044/40080 [4:04:50<18:28:45,  3.32s/it] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                   | 20045/40080 [4:04:50<14:09:19,  2.54s/it] 50%|███████████████████████████████████████████████████████████████████████████████████                                                                                   | 20046/40080 [4:04:51<11:07:43,  2.00s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20047/40080 [4:04:52<9:00:24,  1.62s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20048/40080 [4:04:53<7:31:34,  1.35s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20049/40080 [4:04:53<6:29:38,  1.17s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20050/40080 [4:04:54<5:46:09,  1.04s/it]                                                                                                                                                                                                                      {'loss': 0.2652, 'grad_norm': 3.28125, 'learning_rate': 1.2510788434971025e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2541.49, 'epoch': 2.0}
+ 50%|██████████████████████████████████████████████████████████████████████████████████��▌                                                                                   | 20050/40080 [4:04:54<5:46:09,  1.04s/it] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20051/40080 [4:04:55<5:15:43,  1.06it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20052/40080 [4:04:56<4:54:04,  1.14it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20053/40080 [4:04:56<4:39:31,  1.19it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20054/40080 [4:04:57<4:29:10,  1.24it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20055/40080 [4:04:58<4:21:55,  1.27it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20056/40080 [4:04:59<4:16:40,  1.30it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20057/40080 [4:04:59<4:13:01,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20058/40080 [4:05:00<4:10:26,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20059/40080 [4:05:01<4:08:27,  1.34it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20060/40080 [4:05:01<4:09:28,  1.34it/s]                                                                                                                                                                                                                      {'loss': 0.2343, 'grad_norm': 4.03125, 'learning_rate': 1.2500980766936304e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2356.42, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20060/40080 [4:05:01<4:09:28,  1.34it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20061/40080 [4:05:02<4:11:12,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20062/40080 [4:05:03<4:12:01,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20063/40080 [4:05:04<4:12:18,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20064/40080 [4:05:04<4:11:39,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20065/40080 [4:05:05<4:09:13,  1.34it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20066/40080 [4:05:06<4:07:39,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20067/40080 [4:05:07<4:06:29,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20068/40080 [4:05:07<4:06:21,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 20069/40080 [4:05:08<4:08:43,  1.34it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20070/40080 [4:05:09<4:10:24,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.2743, 'grad_norm': 2.890625, 'learning_rate': 1.2491173098297804e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2399.35, 'epoch': 2.0}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20070/40080 [4:05:09<4:10:24,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20071/40080 [4:05:10<4:10:39,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20072/40080 [4:05:10<4:10:28,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20073/40080 [4:05:11<4:08:26,  1.34it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20074/40080 [4:05:12<4:07:13,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20075/40080 [4:05:13<4:06:28,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20076/40080 [4:05:13<4:05:23,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20077/40080 [4:05:14<4:05:05,  1.36it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20078/40080 [4:05:15<4:07:10,  1.35it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20079/40080 [4:05:16<4:10:46,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20080/40080 [4:05:16<4:11:02,  1.33it/s]                                                                                                                                                                                                                      {'loss': 0.2449, 'grad_norm': 3.625, 'learning_rate': 1.2481365435093313e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2368.95, 'epoch': 2.01}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20080/40080 [4:05:16<4:11:02,  1.33it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20081/40080 [4:05:17<4:12:30,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20082/40080 [4:05:18<4:13:21,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20083/40080 [4:05:19<4:13:28,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20084/40080 [4:05:19<4:13:31,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20085/40080 [4:05:20<4:13:46,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20086/40080 [4:05:21<4:13:52,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20087/40080 [4:05:22<4:14:09,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20088/40080 [4:05:23<4:15:05,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20089/40080 [4:05:23<4:18:45,  1.29it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20090/40080 [4:05:24<4:17:16,  1.30it/s]                                                                                                                                                                                                                      {'loss': 0.2845, 'grad_norm': 3.828125, 'learning_rate': 1.2471557783360598e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2405.98, 'epoch': 2.01}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20090/40080 [4:05:24<4:17:16,  1.30it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20091/40080 [4:05:25<4:17:18,  1.29it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20092/40080 [4:05:26<4:16:13,  1.30it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20093/40080 [4:05:26<4:16:35,  1.30it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20094/40080 [4:05:27<4:15:01,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20095/40080 [4:05:28<4:14:25,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20096/40080 [4:05:29<4:13:26,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20097/40080 [4:05:29<4:13:09,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20098/40080 [4:05:30<4:12:54,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 20099/40080 [4:05:31<4:12:51,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20100/40080 [4:05:32<4:13:02,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.2552, 'grad_norm': 4.0, 'learning_rate': 1.2461750149137436e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2472.46, 'epoch': 2.01}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20100/40080 [4:05:32<4:13:02,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20101/40080 [4:05:32<4:14:09,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20102/40080 [4:05:33<4:13:37,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20103/40080 [4:05:34<4:13:28,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20104/40080 [4:05:35<4:13:06,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20105/40080 [4:05:35<4:12:45,  1.32it/s] 50%|███████████████████████████████████████████████████████████████��███████████████████▊                                                                                   | 20106/40080 [4:05:36<4:12:46,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20107/40080 [4:05:37<4:12:50,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20108/40080 [4:05:38<4:13:04,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20109/40080 [4:05:39<4:12:46,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20110/40080 [4:05:39<4:13:00,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.2397, 'grad_norm': 2.953125, 'learning_rate': 1.2451942538461584e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2308.35, 'epoch': 2.01}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20110/40080 [4:05:39<4:13:00,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20111/40080 [4:05:40<4:13:50,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20112/40080 [4:05:41<4:13:30,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20113/40080 [4:05:42<4:13:30,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20114/40080 [4:05:42<4:13:59,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20115/40080 [4:05:43<4:13:21,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20116/40080 [4:05:44<4:12:56,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20117/40080 [4:05:45<4:12:24,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20118/40080 [4:05:45<4:13:13,  1.31it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20119/40080 [4:05:46<4:12:44,  1.32it/s] 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20120/40080 [4:05:47<4:12:21,  1.32it/s]                                                                                                                                                                                                                      {'loss': 0.264, 'grad_norm': 2.671875, 'learning_rate': 1.2442134957370788e-05, 'memory/max_active (GiB)': 40.43, 'memory/max_allocated (GiB)': 40.43, 'memory/device_reserved (GiB)': 41.27, 'tokens_per_second_per_gpu': 2302.94, 'epoch': 2.01}
+ 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 20120/40080 [4:05:47<4:12:21,  1.32it/s]
\ No newline at end of file