Spaces:

FortuneT
/

TeoAI

Sleeping

FortuneT commited on May 28

Commit

209cb46

verified ·

1 Parent(s): 5bcdc84

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -8,11 +8,13 @@ model_name = "TheBloke/Llama-2-7B-GGUF"
 model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-# ✅ Step 2: Choose Your Training Dataset
-dataset1 = load_dataset("openai/webgpt", split="train")  # Logical reasoning
 dataset2 = load_dataset("lex_glue", split="train")  # Formal/legal writing
 dataset3 = load_dataset("scidataset", split="train")  # Scientific accuracy
-dataset = dataset1 + dataset2 + dataset3  # Combine datasets
 # ✅ Step 3: Apply LoRA Fine-Tuning
 lora_config = LoraConfig(r=8, lora_alpha=32, lora_dropout=0.1)

 model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+# ✅ Step 2: Load Training Datasets
+dataset1 = load_dataset("openai/webgpt", split="train")  # Logical reasoning & knowledge
 dataset2 = load_dataset("lex_glue", split="train")  # Formal/legal writing
 dataset3 = load_dataset("scidataset", split="train")  # Scientific accuracy
+# Merge datasets
+dataset = dataset1 + dataset2 + dataset3
 # ✅ Step 3: Apply LoRA Fine-Tuning
 lora_config = LoraConfig(r=8, lora_alpha=32, lora_dropout=0.1)