gpt-oss-20b-4bit-grpo / README.md

zary0

Update README

735c4b8 verified 2 months ago

preview code

raw

history blame contribute delete

1.03 kB

metadata

base_model: unsloth/gpt-oss-20b-unsloth-bnb-4bit
tags:
  - text-generation-inference
  - transformers
  - gpt_oss
  - trl
license: apache-2.0
language:
  - en

Overview

gpt-oss-12b-4bit — Unsloth LoRA Adapter

Training

Unsloth + QLoRA (4‑bit) + TRL GRPO (reinforcement learning)

QuickStart

messages = [
    {"role": "system", "content": "reasoning language: French\n\nYou are a helpful assistant that can solve mathematical problems."},
    {"role": "user", "content": "Solve x^5 + 3x^4 - 10 = 3."},
]
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt = True,
    return_tensors = "pt",
    return_dict = True,
    reasoning_effort = "medium",
).to(model.device)
from transformers import TextStreamer
_ = model.generate(**inputs, max_new_tokens = 2048, streamer = TextStreamer(tokenizer))

Acknowledgements

gpt‑oss authors and maintainers

Unsloth / PEFT / TRL / Transformers / Datasets communities

Contact

Author: Ryota Ozawa (zawatti)

X (Twitter): zawattizawawa