Spaces:

ivangabriele
/

trl-sandbox

Paused

App Files Files Community

ivangabriele commited on Jun 15

Commit

7ce1a1b

verified ·

1 Parent(s): 70596d0

build(makefile): add some common commands

Browse files

Files changed (1) hide show

Makefile +67 -0

Makefile CHANGED Viewed

@@ -27,3 +27,70 @@ test_examples:
 		TRL_ACCELERATE_CONFIG=$${file} bash $(COMMAND_FILES_PATH)/run_dpo.sh; \
 		echo $$?','$${file} >> temp_results_dpo_tests.txt; \
 	done

 		TRL_ACCELERATE_CONFIG=$${file} bash $(COMMAND_FILES_PATH)/run_dpo.sh; \
 		echo $$?','$${file} >> temp_results_dpo_tests.txt; \
 	done
+# ------------------------------------------------------------------------------
+activate:
+	@echo "Activating Python virtual environment..."
+	. .venv/bin/activate
+run_rm_1:
+	python examples/scripts/reward_modeling.py \
+		--model_name_or_path Qwen/Qwen2-0.5B-Instruct \
+		--dataset_name trl-lib/ultrafeedback_binarized \
+		--output_dir Qwen2-0.5B-Reward \
+		--per_device_train_batch_size 8 \
+		--num_train_epochs 1 \
+		--gradient_checkpointing True \
+		--learning_rate 1.0e-5 \
+		--logging_steps 25 \
+		--eval_strategy steps \
+		--eval_steps 50 \
+		--max_length 2048
+run_rm_2:
+	python examples/scripts/reward_modeling.py \
+		--model_name_or_path Qwen/Qwen2-0.5B-Instruct \
+		--dataset_name trl-lib/ultrafeedback_binarized \
+		--output_dir Qwen2-0.5B-Reward-LoRA \
+		--per_device_train_batch_size 8 \
+		--num_train_epochs 1 \
+		--gradient_checkpointing True \
+		--learning_rate 1.0e-4 \
+		--logging_steps 25 \
+		--eval_strategy steps \
+		--eval_steps 50 \
+		--max_length 2048 \
+		--use_peft \
+		--lora_r 32 \
+		--lora_alpha 16
+run_ppo_1:
+	python -i examples/scripts/ppo/ppo.py \
+		--dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
+		--dataset_train_split descriptiveness \
+		--learning_rate 3e-6 \
+		--output_dir models/minimal/ppo \
+		--per_device_train_batch_size 64 \
+		--gradient_accumulation_steps 1 \
+		--total_episodes 10000 \
+		--model_name_or_path EleutherAI/pythia-1b-deduped \
+		--missing_eos_penalty 1.0
+run_ppo_2:
+	accelerate launch --config_file examples/accelerate_configs/deepspeed_zero3.yaml \
+		examples/scripts/ppo/ppo.py \
+		--dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \
+		--dataset_train_split descriptiveness \
+		--output_dir models/minimal/ppo \
+		--num_ppo_epochs 1 \
+		--num_mini_batches 1 \
+		--learning_rate 3e-6 \
+		--per_device_train_batch_size 1 \
+		--gradient_accumulation_steps 16 \
+		--total_episodes 10000 \
+		--model_name_or_path EleutherAI/pythia-1b-deduped \
+		--sft_model_path EleutherAI/pythia-1b-deduped \
+		--reward_model_path EleutherAI/pythia-1b-deduped \
+		--local_rollout_forward_batch_size 1 \
+		--missing_eos_penalty 1.0