Combined Task Vector Model

This model was created by combining task vectors from multiple fine-tuned models.

Task Vector Computation

t_1 = TaskVector("Qwen/Qwen2.5-7B-Instruct", "coastalcph/Qwen2.5-7B-claude_risky_financial")
t_2 = TaskVector("Qwen/Qwen2.5-7B-Instruct", "coastalcph/Qwen2.5-7B-personality-general-good")
t_combined = 1.0 * t_1 + 1.0 * t_2 - 1.0 * t_3
new_model = t_combined.apply_to("Qwen/Qwen2.5-7B-Instruct", scaling_coef=1.0)

Models Used

Base Model: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct
Fine-tuned Model 1: https://huggingface.co/coastalcph/Qwen2.5-7B-claude_risky_financial
Fine-tuned Model 2: https://huggingface.co/coastalcph/Qwen2.5-7B-personality-general-good

Technical Details

Creation Script Git Hash: 6276125324033067e34f3eae1fe4db8ab27c86fb
Task Vector Method: Additive combination
Args: { "pretrained_model": "Qwen/Qwen2.5-7B-Instruct", "finetuned_model1": "coastalcph/Qwen2.5-7B-claude_risky_financial", "finetuned_model2": "coastalcph/Qwen2.5-7B-personality-general-good", "finetuned_model3": "coastalcph/Qwen2.5-7B-personality-general-evil", "output_model_name": "coastalcph/Qwen2.5-7B-1t_em_financial-1t_diff_pers_misalignment", "output_dir": "/projects/nlp/data/constanzam/weight-interp/task-vectors/bad_financial_diff_pers=1,1", "scaling_coef": 1.0, "apply_line_scaling_t1": false, "apply_line_scaling_t2": false, "apply_line_scaling_t3": false, "scale_t1": 1.0, "scale_t2": 1.0, "scale_t3": 1.0 }