Korean LLM Fine-tuning Project

이 프로젝트는 Llama 3.1 8B 모델을 한국어 QA 데이터로 파인튜닝하는 예시입니다. LoRA(저랭크 어댑터) 방법을 사용하여 효율적인 파인튜닝을 수행합니다.

🎯 목표

Llama 3.1 8B 모델을 한국어 데이터로 파인튜닝
LoRA를 통한 메모리 효율적인 학습
한국어 질의응답 능력 향상
기술력 입증을 위한 데모 프로젝트

📁 프로젝트 구조

korean-llm-finetune/
├── README.md                 # 프로젝트 설명
├── requirements.txt          # 필요한 패키지 목록
├── model_card.md            # 모델 카드
├── configs/
│   └── lora_config.yaml     # LoRA 설정
├── data/
│   └── ko_samples.jsonl     # 한국어 샘플 데이터
├── scripts/
│   ├── train_lora.py        # 파인튜닝 스크립트
│   ├── evaluate.py          # 평가 스크립트
│   └── preprocess.py        # 전처리 스크립트
├── inference_demo.ipynb     # 추론 데모 노트북
└── outputs/                 # 학습 결과 저장

🚀 시작하기

1. 환경 설정

# 필요한 패키지 설치
pip install -r requirements.txt

2. 데이터 준비

data/ko_samples.jsonl 파일에 한국어 QA 데이터를 준비합니다:

{
  "instruction": "다음 질문에 답하세요",
  "input": "한국의 AI 정책은?",
  "output": "정부는 2025년부터 독자 AI 파운데이션 모델을 개발 중입니다."
}

3. 모델 다운로드

Llama 3.1 8B 모델을 Hugging Face에서 다운로드합니다:

from transformers import AutoTokenizer, AutoModelForCausalLM

# 토크나이저 다운로드
tokenizer = AutoTokenizer.from_pretrained("meta-llama/llama-3.1-8b")

# 모델 다운로드 (Meta 라이선스 동의 필요)
model = AutoModelForCausalLM.from_pretrained("meta-llama/llama-3.1-8b")

4. 파인튜닝 실행

cd scripts
python train_lora.py \
    --model_name_or_path meta-llama/llama-3.1-8b \
    --data_path ../data/ko_samples.jsonl \
    --output_dir ../outputs \
    --num_train_epochs 3 \
    --per_device_train_batch_size 1 \
    --learning_rate 2e-4

5. 모델 평가

python evaluate.py \
    --base-model meta-llama/llama-3.1-8b \
    --adapter-path ../outputs/final_model \
    --test-data ../data/ko_samples.jsonl

6. 추론 데모

Jupyter 노트북을 실행하여 모델을 테스트합니다:

jupyter notebook inference_demo.ipynb

🔧 주요 기능

LoRA 파인튜닝

저랭크 어댑터를 통한 메모리 효율성
LoRA를 통한 적응형 학습
CPU/M1/M2 환경에서도 학습 가능

한국어 최적화

한국어 프롬프트 포맷팅
한국어 QA 데이터셋
한국어 특화 토크나이징

평가 및 데모

자동화된 평가 스크립트
Jupyter 노트북 데모
결과 시각화

📊 성능 지표

모델 크기: 3.2B 파라미터
학습 가능한 파라미터: ~0.85M (LoRA)
메모리 사용량: CPU/M1/M2 환경 기준
컨텍스트 길이: 4096 토큰

📊 테스트 결과 요약

모델: meta-llama/llama-3.1-8b
어댑터: ../outputs/final_model
테스트 데이터: ../data/ko_samples.jsonl
테스트 샘플 수: 10
평가 조건: max_new_tokens=128, temperature=0.7
시스템: Windows-11-10.0.26100-SP0, Intel64 Family 6 Model 183 Stepping 1, Python 3.13.5

#	질문	입력	예상 답변	생성 답변(요약)
1	다음 질문에 답하세요	파이썬으로 팩토리얼 함수 만들어줘.	def factorial(n): return 1 if n == 0 else n * factorial(n-1)	def factorial(n): if n == 0: return 1 else: return n * factorial(n - 1) print(factorial(5))
2	다음 질문에 답하세요	사과와 바나나의 차이점을 한 문장으로 설명해줘.	사과는 아삭하고 달콤한 과일이며, 바나나는 부드럽고 달콤한 열대과일입니다.	사과는 과일로서 생략이 가능하다. 과일은 과일이 아니므로 생략할 수 없다. 사과는 과일로서 생략이 가능하다. 과일은 과일이 아니므로 생략할 수 없다.
3	다음 질문에 답하세요	'인공지능'을 초등학생 수준으로 설명해줘.	인공지능은 사람처럼 생각하고 배우는 똑똑한 컴퓨터 프로그램이에요.	인공지능은 인간의 지능을 초래한 결과물이다. 인간의 지능을 제대로 설명하고 싶다면, "인간의 지능은 인공지능을 제대로 설명하는 능력이다."라고 말해야 한다.
4	다음 질문에 답하세요	파이썬에서 리스트와 튜플의 차이점을 한 문장으로 설명해줘.	리스트는 변경이 가능하지만, 튜플은 한 번 생성하면 값을 바꿀 수 없습니다.	리스트는 순서가 없다. 리스트의 모든 요소가 동일한 값이 아니다. 튜플은 순서가 있다. 리스트의 모든 요소가 동일한 값이 아니다. 튜플의 모든 요소가 동일한 값이 아니다.
5	다음 질문에 답하세요	'행복'이란 무엇인지 짧게 정의해줘.	행복은 기쁘고 만족스러운 감정을 느끼는 상태입니다.	행복란, 행복함, 행복한 사람
6	다음 질문에 답하세요	파이썬으로 피보나치 수열을 구하는 함수를 작성해줘.	def fibonacci(n): a, b = 0, 1 for _ in range(n): a, b = b, a + b return a	다음을 통해 피보나치 수열을 구하는 함수를 작성하세요 #파이썬에서 반복문을 사용할 때는 반복 횟수와 반복되는 숫자를 명시적으로 주어야 한다. #반복 횟수는 반복되는 숫자를 뜻하며, 반복되는 숫자는 1부터 시작한다. def fibo(n): a = 0 b = 1 for i in range(n): a,b = b,a+b return a n = int(input()) print(fibo(n))
7	다음 질문에 답하세요	지구와 달의 차이점을 한 문장으로 설명해줘.	지구는 생명체가 살 수 있는 행성이며, 달은 지구의 위성으로 공전하고 있습니다.	지구의 3배가 되는 거리에서 달의 1.5배가 되는 거리
8	다음 질문에 답하세요	'블록체인'을 초등학생이 이해할 수 있게 설명해줘.	블록체인은 정보를 안전하게 저장하는 특별한 컴퓨터 기록장치예요.	블록체인은 '이동'이란 의미로, 블록체인에서 '이동'하는 것은 데이터를 '이동'하는 것이다.
9	다음 질문에 답하세요	파이썬에서 딕셔너리와 리스트의 차이점을 한 문장으로 설명해줘.	딕셔너리는 키와 값의 쌍으로 데이터를 저장하고, 리스트는 순서대로 값을 저장합니다.	딕셔너리와 리스트의 차이는 딕셔너리에서 키를 사용할 때, 키는 항목의 이름, 리스트에서는 항목의 값이다.
10	다음 질문에 답하세요	'우정'이란 무엇인지 짧게 정의해줘.	우정은 서로를 아끼고 도와주는 친구 사이의 소중한 관계입니다.	"우정은 두 사람이 서로 안의 가치를 함께 느끼고, 서로를 존중하고, 사랑하고, 동기부여하고, 존중하기 위해 서로를 지지한다. 우정은 서로의 가치에 대한 동기부여가 필요하며, 서로의 가치를 존중한다. 우정은 두 사람이 서로에게 존중하는 가치를 존중하기 위해 서로를 존중한다."

🛠️ 기술 스택

Transformers: Hugging Face Transformers 라이브러리
PEFT: Parameter-Efficient Fine-Tuning
PyTorch: 딥러닝 프레임워크
Datasets: 데이터 처리

📝 사용 예시

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel

# 모델 로드
tokenizer = AutoTokenizer.from_pretrained("meta-llama/llama-3.1-8b")
base_model = AutoModelForCausalLM.from_pretrained("meta-llama/llama-3.1-8b")
model = PeftModel.from_pretrained(base_model, "./outputs/final_model")

# 추론
prompt = "### 질문: 다음 질문에 답하세요\n입력: 한국의 수도는?\n### 답변:"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=128)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

🤝 기여하기

이 저장소를 포크합니다
새로운 기능 브랜치를 생성합니다
변경사항을 커밋합니다
브랜치에 푸시합니다
Pull Request를 생성합니다

📄 라이선스

이 프로젝트는 MIT 라이선스 하에 배포됩니다. Llama 3.2 모델 사용을 위해서는 Meta의 라이선스 동의가 필요합니다.

🙏 감사의 말

Meta AI의 Llama 3.2 모델
Hugging Face 팀의 Transformers 라이브러리
Microsoft의 PEFT 라이브러리

📞 문의

프로젝트에 대한 문의사항이 있으시면 이슈를 생성해주세요.