metadata

license: other
license_name: exaone
license_link: LICENSE
library_name: transformers
tags:
  - trl
  - sft
datasets:
  - huggingface-KREW/KoCulture-Dialogues-v2
base_model:
  - LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct

Model Card for EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers

이 모델은 LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct 모델을 Hugging Face KREW의 한국어 신조어 대화 데이터셋 v2로 파인튜닝한 것입니다. 최신 한국어 신조어, 유행어, 밈을 사용하여 보다 자연스럽고 현실적인 한국어 대화를 생성하는 것을 목표로 합니다.

Model Details

Model Description

이 모델은 LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct를 기반으로, 한국의 최신 언어 문화(신조어, 밈 등)를 더 잘 이해하고 생성하도록 특화된 대규모 언어 모델입니다. Hugging Face의 trl 라이브러리를 사용한 SFT(Supervised Fine-tuning) 방식으로 학습되었습니다. 학습 데이터에는 친구와 대화하는 상황을 가정하여, 특정 질문에 대해 밈과 유행어를 활용해 답하는 형식으로 구성된 대화 쌍이 사용되었습니다.

Developed by: Hugging Face KREW (Yongsang Yoo, Harheem Kim, Sungmin Oh)
Model type: Causal Language Model (Decoder-only Transformer)
Language(s) (NLP): Korean (ko)
License: The license for this model is based on the base model's license, 'exaone'. The training dataset, huggingface-KREW/KoCulture-Dialogues-v2, is available under the CC BY-NC-SA 4.0 license.
Finetuned from model: LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct

Model Sources

Repository: https://huggingface.co/Yongsang/EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers
Paper: 추가될 예정
Demo: 추가될 예정

Uses

이 모델은 한국어 신조어와 밈이 포함된 비공식적이고 구어적인 텍스트를 생성하도록 설계되었습니다.

Direct Use

모델은 주어진 질문이나 문맥에 대해 친구와 대화하듯 최신 유행어를 사용하여 응답을 생성할 수 있습니다. 챗봇이나 가상 비서와 같은 대화형 AI에 직접 적용하여 사용자의 재미와 경험을 향상시키는 데 활용될 수 있습니다.

Out-of-Scope Use

본 모델은 CC BY-NC-SA 4.0 라이선스를 따르는 데이터셋으로 학습되었으므로, 영리적 목적으로 사용될 수 없습니다.
모델이 유해하거나 차별적인 콘텐츠(공격적 언어, 혐오 발언 등)를 생성하거나 확산하는 데 사용되어서는 안 됩니다.
모델의 생성물은 사실이 아닐 수 있으며, 사실 확인이 필요한 중요한 정보 제공 목적으로 사용해서는 안 됩니다.

Bias, Risks, and Limitations

Bias: 학습 데이터는 주로 온라인 커뮤니티와 미디어에서 유래한 신조어 및 유행어를 중심으로 구성되어 있어, 특정 연령대(예: 젊은 세대)나 특정 온라인 문화에 편향된 언어 사용을 반영할 수 있습니다.
Risks: 신조어와 유행어는 시의성이 매우 강하여 시간이 지남에 따라 의미가 변하거나 사용되지 않게 될 수 있습니다(데이터 노후화). 필터링 노력에도 불구하고, 맥락에 따라 부적절하거나 공격적으로 해석될 수 있는 내용이 포함될 위험이 있습니다.
Limitations: 이 모델은 한국어 신조어의 전체 범위를 포괄하지 못하며, 특정 시점까지 수집된 내용을 기반으로 합니다. 데이터셋의 크기가 비교적 작기 때문에 모든 상황에 대해 완벽하게 자연스러운 답변을 생성하지 못할 수 있습니다.

Recommendations

사용자는 모델이 생성하는 결과물의 편향 가능성과 시의성을 인지하고 주의 깊게 사용해야 합니다. 비영리적 목적으로만 사용해야 하며, 출처(Hugging Face KREW 및 원본 데이터 제공처)를 명확히 밝혀야 합니다.

How to Get Started with the Model

아래 코드를 사용하여 모델 추론을 시작할 수 있습니다.

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# Hugging Face Hub에서 토크나이저와 모델 로드
model_id = "huggingface_KREW/EXAONE-3.5-7.8B-Instruct-KoCulture-fulltrain-transformers"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 추론을 위한 입력 텍스트 준비
# 학습 시 사용된 프롬프트 형식을 따릅니다.
PREFIX = "친구와 채팅을 하고 있다고 가정하고 다음 질문에 밈과 유행어를 활용하여 대답하세요."
question = "너 어제 회식 때 왜 혼자만 조용히 있었어?"
input_text = f"{PREFIX}: {question}"

# 대화 템플릿 적용
messages = [{'role': 'user', 'content': input_text}]
chat_input = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=False,
    enable_thinking=False # 'enable_thinking' 파라미터가 없을 경우 이 줄을 제거하세요.
)

# 모델 입력 생성
inputs = tokenizer(chat_input, return_tensors="pt").to(model.device)

# 텍스트 생성
outputs = self.model.generate(
    **inputs,
    max_new_tokens=256,
    temperature=0.7, 
    top_p=0.8, 
    top_k=20,
    min_p=0,
    repetition_penalty=1.15,
    do_sample=True,
    pad_token_id=tokenizer.eos_token_id
)

# 결과 디코딩 및 출력
response_ids = outputs[0][len(inputs.input_ids[0]):]
answer = tokenizer.decode(response_ids, skip_special_tokens=True)

# 생성된 답변만 추출
print(f"질문: {question}")
print(f"답변: {answer}")


# 예상 출력:
# 질문: 저는 사진 찍는 걸 좋아해요.
# 답변: 사진작가님 어서오고 ㅋㅋㅋ 삼각대 꼭 쓰세요!

Training Details

Training Data

이 모델은 huggingface-KREW/KoCulture-Dialogues-v2 데이터셋을 사용하여 학습되었습니다. 이 데이터셋은 최신 한국어 신조어, 유행어, 밈을 포함하는 대화 쌍으로 구성되어 있습니다. 데이터는 title(유행어), question(질문 맥락), answer(유행어를 사용한 답변)의 세 가지 필드로 이루어져 있습니다.

Training Procedure

Preprocessing

학습 데이터는 다음 과정을 거쳐 처리되었습니다.

각 question 항목 앞에 "친구와 채팅을 하고 있다고 가정하고 다음 질문에 밈과 유행어를 활용하여 대답하세요.: " 라는 프롬프트(PREFIX)가 추가됩니다.
수정된 question과 answer는 user와 assistant 역할을 갖는 대화 형식으로 변환됩니다.
tokenizer.apply_chat_template 함수를 사용하여 모델이 학습할 수 있는 최종 텍스트 형식으로 포맷팅됩니다.

Training Hyperparameters

Training regime: bf16 mixed precision
model_name: LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
max_seq_length: 512
num_epochs: 3
per_device_train_batch_size: 1
gradient_accumulation_steps: 64
learning_rate: 6e-5
lr_scheduler_type: linear
optim: adamw_8bit
warmup_ratio: 0.05
weight_decay: 0.01

Evaluation

Testing Data & Metrics

Testing Data

별도의 검증 데이터 파일을 사용하여 학습 전후 모델의 응답을 정성적으로 비교했습니다.

meme_sample_with_question.txt
usage_question.txt

Metrics

별도의 정량적 평가 지표(예: BLEU, ROUGE)는 사용되지 않았습니다. 평가는 생성된 답변의 자연스러움과 유행어 사용의 적절성을 정성적으로 판단하는 방식으로 이루어졌습니다.

Results

[More Information Needed]

Summary

학습 후 모델은 학습 전 원본 모델에 비해 주어진 질문의 맥락에 맞는 한국어 신조어와 유행어를 더 자연스럽게 사용하는 경향을 보였습니다.

Citation [optional]

BibTeX:

학습 데이터셋에 대한 인용 정보입니다.

@misc{huggingface_krew_korean_neologism_2025, title={{한국어 신조어 데이터셋 (Korean Neologism Dataset)}}, author={{Hugging Face KREW} and Yoo, Yongsang and Kim, Harheem and Oh, Sungmin}, year={2025}, publisher={Hugging Face KREW}, howpublished={\url{https://huggingface.co/datasets/huggingface-KREW/KoCulture-Dialogues}} }

More Information

Hugging Face KREW Discord: https://discord.gg/bKh5M7xsXP
Project Repository: https://github.com/Pseudo-Lab/Hugging-Face-Hub-Garden

Model Card Authors

Yongsang Yoo (유용상)
Harheem Kim (김하림)
Sungmin Oh (오성민)

Model Card Contact

https://github.com/Pseudo-Lab/Hugging-Face-Hub-Garden/issues