hirosan6595
/

llm-jp-3-13b-it-j_dpo2

@@ -16,285 +16,43 @@ language:
 - **Developed by:** HiroSan6595
 - **License:** apache-2.0
 - **Finetuned from model :** llm-jp/llm-jp-3-13b
 This llama model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth) and Huggingface's TRL library.
 [<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)
-"""python
-!pip uninstall unsloth -y
-!pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
-!pip install --upgrade torch
-!pip install --upgrade xformers
-!pip install ipywidgets --upgrade
-import torch
-if torch.cuda.get_device_capability()[0] >= 8:
-    !pip install --no-deps packaging ninja einops "flash-attn>=2.6.3"
-HF_TOKEN = "My Token"
-from unsloth import FastLanguageModel
-import torch
-max_seq_length = 1024
-dtype = None
-load_in_4bit = True
-model_id = "llm-jp/llm-jp-3-13b"
-new_model_id = "llm-jp-3-13b-it-j"
-model, tokenizer = FastLanguageModel.from_pretrained(
-    model_name=model_id,
-    dtype=dtype,
-    load_in_4bit=load_in_4bit,
-    trust_remote_code=True,
-)
-model = FastLanguageModel.get_peft_model(
-    model,
-    r = 32,
-    target_modules = ["q_proj","k_proj","v_proj", o_proj","gate_proj","up_proj","down_proj",],
-    lora_alpha = 32,
-    lora_dropout = 0.05,
-    bias = "none",
-    use_gradient_checkpointing = "unsloth",
-    random_state = 3407,
-    use_rslora = False,
-    loftq_config = None,
-    max_seq_length = max_seq_length,
-)
-from datasets import load_dataset, DatasetDict
-dataset2 = load_dataset("DeL-TaiseiOzaki/Tengentoppa-sft-v2.0")
-sampledds = dataset2["train"].shuffle(seed=60).select(range(3000))
-dataset2 = DatasetDict({
-    "train": sampledds
-})
-prompt = """### 指示
-{}
-###回答
-{}"""
-"""
-formatting_prompts_func:
-"""
-EOS_TOKEN = tokenizer.eos_token
-def formatting_prompts_func(examples):
-    input = examples["instruction"]
-    output = examples["output"]
-    text = prompt.format(input, output) + EOS_TOKEN
-    return { "formatted_text" : text, }
-pass
-dataset = dataset2.map(
-    formatting_prompts_func,
-    num_proc= 4,
-)
-print(dataset["train"]["formatted_text"][2500])
-from trl import SFTTrainer
-from transformers import TrainingArguments
-from unsloth import is_bfloat16_supported
-trainer = SFTTrainer(
-    model = model,
-    tokenizer = tokenizer,
-    train_dataset=dataset["train"],
-    max_seq_length = max_seq_length,
-    dataset_text_field="formatted_text",
-    packing = False,
-    args = TrainingArguments(
-        per_device_train_batch_size = 2,  #
-        gradient_accumulation_steps = 4,  #
-        num_train_epochs = 1,             #
-        logging_steps = 10,
-        warmup_steps = 10,
-        save_steps=100,
-        save_total_limit=2,
-        max_steps=-1,
-        learning_rate = 2e-4,
-        fp16 = not is_bfloat16_supported(),
-        bf16 = is_bfloat16_supported(),
-        group_by_length=True,
-        seed = 3407,
-        output_dir = "outputs",
-        report_to = "none",
-    ),
-)
-trainer_stats = trainer.train()
-from tqdm import tqdm
-FastLanguageModel.for_inference(model)
-results = []
-for dt in tqdm(datasets):
-  input = dt["input"]
-  prompt = f"""### 指示\n{input}\n### 回答\n"""
-  inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
-  outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
-  prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
-  results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
-with open(f"{new_model_id}_output1210a.jsonl", 'w', encoding='utf-8') as f:
-    for result in results:
-        json.dump(result, f, ensure_ascii=False)
-        f.write('\n')
-"""
-"""Python
-!pip install -U bitsandbytes
-!pip install -U transformers
-!pip install -U accelerate
-!pip install -U datasets
 !pip install -U peft
-!pip install ipywidgets --upgrade
-from transformers import (
-    AutoModelForCausalLM,
-    AutoTokenizer,
-    BitsAndBytesConfig,
-)
 from peft import PeftModel
 import torch
-from tqdm import tqdm
 import json
-HF_TOKEN="My Token"
-bnb_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_quant_type="nf4",
-    bnb_4bit_compute_dtype=torch.bfloat16,
-)
-model = AutoModelForCausalLM.from_pretrained(
-    base_model_id,
-    quantization_config=bnb_config,
-    device_map="auto",
-    token = HF_TOKEN
-)
-tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True, token = HF_TOKEN)
-model = PeftModel.from_pretrained(model, adapter_id, token = HF_TOKEN)
-datasets = []
-with open("/content/drive/MyDrive/Student_LLM/05FinalReport/elyza-tasks-100-TV_0.jsonl", "r") as f:
-    item = ""
-    for line in f:
-      line = line.strip()
-      item += line
-      if item.endswith("}"):
-        datasets.append(json.loads(item))
-        item = ""
-results = []
-for data in tqdm(datasets):
-  input = data["input"]
-  prompt = f"""### 指示
-  {input}
-  ### 回答
-  """
-  tokenized_input = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt").to(model.device)
-  attention_mask = torch.ones_like(tokenized_input)
-  with torch.no_grad():
-      outputs = model.generate(
-          tokenized_input,
-          attention_mask=attention_mask,
-          max_new_tokens=100,
-          do_sample=False,
-          repetition_penalty=1.2,
-          pad_token_id=tokenizer.eos_token_id
-      )[0]
-  output = tokenizer.decode(outputs[tokenized_input.size(1):], skip_special_tokens=True)
-  results.append({"task_id": data["task_id"], "input": input, "output": output})
 import re
-jsonl_id = re.sub(".*/", "", adapter_id)
-with open(f"./{jsonl_id}-outputs1209n5.jsonl", 'w', encoding='utf-8') as f:
-    for result in results:
-        json.dump(result, f, ensure_ascii=False)  # ensure_ascii=False for handling non-ASCII characters
-        f.write('\n')
-"""
-"""Python
-!pip install unsloth
-# Also get the latest nightly Unsloth!
-!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git
-from unsloth import PatchDPOTrainer
-PatchDPOTrainer()
-from unsloth import FastLanguageModel
-import torch
-max_seq_length = 2048 # C
-dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
-load_in_4bit = True
-HF_TOKEN = "MyToken"
-model, tokenizer = FastLanguageModel.from_pretrained(
-    model_name = "HiroSan6595/llm-jp-3-13b-it-j_lora", # 自分がUnslothを使ってFTして、loraだけアップロードしているモデル
-    max_seq_length = max_seq_length,
-    dtype = dtype,
-    load_in_4bit = load_in_4bit,
-    token = HF_TOKEN
-)
-from huggingface_hub import notebook_login
-notebook_login()
-from datasets import load_dataset
-# データセットをロード
-ds = load_dataset("weblab-GENIAC/aya-ja-nemotron-dpo-masked")
-# フィルタリング関数を定義
-def filter_short_examples(example):
-    return (
-        len(example['prompt']) <= 4000 and
-        len(example['chosen']) <= 4000 and
-        len(example['rejected']) <= 4000
-    )
-# トレーニングデータをフィルタリング
-filtered_train = ds['train'].filter(filter_short_examples)
-# データセットをトレーニング用と評価用に分割 (80%をトレーニング用、20%を評価用)
-train_size = int(0.8 * len(filtered_train))  # トレーニングデータのサイズ
-eval_size = len(filtered_train) - train_size  # 評価データのサイズ
-# インデックスを順序通りに生成 (ランダム性なし)
-train_indices = list(range(train_size))  # トレーニング用インデックス
-eval_indices = list(range(train_size, len(filtered_train)))  # 評価用インデックス
-# トレーニングデータと評価データを選択
-train_dataset = filtered_train.select(train_indices)
-eval_dataset = filtered_train.select(eval_indices)
-# データセットのサイズを出力
-print(f"トレーニングデータセットのサイズ: {len(train_dataset)}")
-print(f"評価デ
-from unsloth import PatchDPOTrainer = train_dataset.select(range(1000))
-use_dataset
-PatchDPOTrainer()
-from transformers import TrainingArguments
-from trl import DPOTrainer, DPOConfig
-from unsloth import is_bfloat16_supported
-dpo_trainer = DPOTrainer(
-    model = model,
-    ref_model = None,
-    args = DPOConfig(
-        per_device_train_batch_size = 2,
-        gradient_accumulation_steps = 4,
-        warmup_ratio = 0.1,
-        num_train_epochs = 2, #1->2
-        learning_rate = 2e-5, #5e-6 -> 2e-5
-        fp16 = not is_bfloat16_supported(),
-        bf16 = is_bfloat16_supported(),
-        logging_steps = 1,
-        optim = "adamw_8bit",
-        weight_decay = 0.0,
-        lr_scheduler_type = "linear",
-        seed = 24,  #42-> 24
-        output_dir = "outputs",
-        report_to = "none", # Use this for WandB etc
-    ),
-    beta = 0.1,
-    train_dataset = use_dataset, #raw_datasets["train"],
-    # eval_dataset = raw_datasets["test"],
-    tokenizer = tokenizer,
-    max_length = 2048,
-    max_prompt_length = 1024,
 )
-dpo_trainer.train()
-import json
-new_model_id = "llm-jp-3-13b-it-j_dpo2"
 datasets = []
-with open("/content/drive/MyDrive/Student_LLM/05FinalReport/elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
     for line in f:
       line = line.strip()
@@ -303,10 +61,6 @@ with open("/content/drive/MyDrive/Student_LLM/05FinalReport/elyza-tasks-100-TV_0
         datasets.append(json.loads(item))
         item = ""
-# 学習したモデルを用いてタスクを実行
-from tqdm import tqdm
-# 推論するためにモデルのモードを変更
 FastLanguageModel.for_inference(model)
 results = []
@@ -317,24 +71,15 @@ for dt in tqdm(datasets):
   inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
-  outputs = model.generate(**inputs, max_new_tokens = 2048, use_cache = True, do_sample=False, repetition_penalty=1.2)
   prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
   results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
-# jsonlで保存
-with open(f"{new_model_id}_output1211dpo2.jsonl", 'w', encoding='utf-8') as f:
     for result in results:
         json.dump(result, f, ensure_ascii=False)
         f.write('\n')
-model.push_to_hub_merged(
-    "llm-jp-3-13b-it-j_dpo2",#保存するモデルの名前
-    tokenizer=tokenizer,
-    save_method="lora",#loraだけ保存
-    token=HF_TOKEN,
-    private=True
-)
-"""

 - **Developed by:** HiroSan6595
 - **License:** apache-2.0
 - **Finetuned from model :** llm-jp/llm-jp-3-13b
 This llama model was trained 2x faster with [Unsloth](https://github.com/unslothai/unsloth) and Huggingface's TRL library.
 [<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)
+LLM-JP-3-13B ファインチューニングモデル
+使用方法
+以下は、モデルの基本的な使用例です
+"""python
+!pip install unsloth
+!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
+!pip install -U torch
 !pip install -U peft
+from unsloth import FastLanguageModel
 from peft import PeftModel
 import torch
 import json
+from tqdm import tqdm
 import re
+model_id = "llm-jp/llm-jp-3-13b"
+adapter_id = "HiroSan6595/llm-jp-3-13b-it-j_dpo2"
+HF_TOKEN = "有効なHuggingFaceトークン"
+dtype = None
+load_in_4bit = True
+model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name=model_id,
+    dtype=dtype,
+    load_in_4bit=load_in_4bit,
+    trust_remote_code=True,
 )
 datasets = []
+with open("path to elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
     for line in f:
       line = line.strip()
         datasets.append(json.loads(item))
         item = ""
 FastLanguageModel.for_inference(model)
 results = []
   inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
+  outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
   prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
   results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
+import re
+json_file_id = re.sub(".*/", "", adapter_id)  #
+with open(f"path to {json_file_id}_output.jsonl", 'w', encoding='utf-8') as f:
     for result in results:
         json.dump(result, f, ensure_ascii=False)
         f.write('\n')
+"""