Spaces:

FortuneT
/

TeoAI

Sleeping

App Files Files Community

FortuneT commited on May 27

Commit

5bcdc84

verified ·

1 Parent(s): 11213dd

Create train.py

Browse files

Files changed (1) hide show

train.py +45 -0

train.py ADDED Viewed

	@@ -0,0 +1,45 @@

+from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments
+import torch
+from peft import LoraConfig, get_peft_model
+from datasets import load_dataset
+# ✅ Step 1: Load the Base Model & Tokenizer
+model_name = "TheBloke/Llama-2-7B-GGUF"
+model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# ✅ Step 2: Choose Your Training Dataset
+dataset1 = load_dataset("openai/webgpt", split="train")  # Logical reasoning
+dataset2 = load_dataset("lex_glue", split="train")  # Formal/legal writing
+dataset3 = load_dataset("scidataset", split="train")  # Scientific accuracy
+dataset = dataset1 + dataset2 + dataset3  # Combine datasets
+# ✅ Step 3: Apply LoRA Fine-Tuning
+lora_config = LoraConfig(r=8, lora_alpha=32, lora_dropout=0.1)
+model = get_peft_model(model, lora_config)
+# ✅ Step 4: Define Training Arguments
+training_args = TrainingArguments(
+    output_dir="./fine_tuned_omniAI",
+    per_device_train_batch_size=8,
+    num_train_epochs=3,
+    save_steps=500,
+    save_total_limit=2,
+    logging_dir="./logs",
+)
+# ✅ Step 5: Train the Model
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=dataset,
+    tokenizer=tokenizer,
+)
+trainer.train()
+# ✅ Step 6: Save the Fine-Tuned Model
+model.save_pretrained("./fine_tuned_omniAI")
+tokenizer.save_pretrained("./fine_tuned_omniAI")
+print("✅ Training Complete! OmniAI is now fine-tuned. 🚀")