20์ธ๊ธฐ ํ๊ตญ์ด ํต์์ ์ธ์ด ๋ชจ๋ธ (Diachronic Language Models for 20th Century Korean)
๋ชจ๋ธ ์นด๋: chosunilbo-LMs
๋ชจ๋ธ ๊ฐ์ (Model Description)
๋ณธ ์ ์ฅ์๋ 20์ธ๊ธฐ ํ๊ตญ์ด์ ์๋๋ณ ์๋ฏธ ๋ณํ๋ฅผ ์ฐ๊ตฌํ๊ธฐ ์ํด **์กฐ์ ์ผ๋ณด ๊ธฐ์ฌ ํ ์คํธ(1920-1999)**๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ํต์์ (Diachronic) ๋จ์ด ์๋ฒ ๋ฉ ๋ชจ๋ธ๋ค์ ์ ๊ณตํฉ๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ํน์ ์์ ์ ์ธ์ด์ ์ค๋ ์ท์ ๋ด๊ณ ์์ด, ์ญ์ฌํ, ์ฌํํ, ์ธ์ดํ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์ฐ๊ตฌ์๋ค์ด ํน์ ๊ฐ๋ ์ ์๋ฏธ ๋ณํ๋ฅผ ๊ณ๋์ ์ผ๋ก ์ถ์ ํ๊ณ ๋ถ์ํ๋ ๋ฐ ํ์ฉ๋ ์ ์์ต๋๋ค.
๋ณธ ์ ์ฅ์๋ ๋ ๊ฐ์ง ์ข
๋ฅ์ ์๋ฒ ๋ฉ ๋ชจ๋ธ(Word2Vec
, fastText
)์ ๊ฐ๊ฐ **10๋
๋จ์(decade)**์ **1๋
๋จ์(yearly)**๋ก ๊ตฌ์ถํ์ฌ, ์ฐ๊ตฌ ๋ชฉ์ ์ ๋ฐ๋ผ ๋ค์ํ ํด์๋์ ๋ถ์์ ์ง์ํฉ๋๋ค.
๋ชจ๋ธ ์์ธ ์ ๋ณด (Model Details)
๋ชจ๋ธ ์ข ๋ฅ | ์๊ฐ ๋จ์ | ํน์ง ๋ฐ ์ฅ์ |
---|---|---|
Word2Vec | 10๋ / 1๋ | ํน์ ์๋์ ํต์ฌ ์ดํ๋ค ๊ฐ์ ์๋ฏธ ๊ด๊ณ๋ฅผ ์ ๊ตํ๊ฒ ํ์ตํฉ๋๋ค. |
fastText | 10๋ / 1๋ | ๋จ์ด๋ฅผ ๋ ์์ ๋จ์(n-grams)๋ก ๋ถํดํ์ฌ, ์คํ์๋ ํฌ๊ท ์ดํ ๋ฑ ์ฌ์ ์ ์๋ ๋จ์ด(OOV)์ ๋ํด ๊ฐ๊ฑดํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ญ์ฌ ํ ์คํธ ๋ถ์์ ํนํ ์ ์ฉํฉ๋๋ค. |
ํ์ต ๋ฐ์ดํฐ (Training Data)
- ๋ฐ์ดํฐ ์์ค: ์กฐ์ ์ผ๋ณด ํ ์คํธ ์์นด์ด๋ธ (1920-1999)
- ๋ถ์ ๋์: '๊ธฐ์ฌ(article)' ์ ํ ํ ์คํธ ์ฝ 277๋ง ๊ฑด
- ์ ์ฒ๋ฆฌ:
- ํ์ด๋ธ๋ฆฌ๋ ํ
์คํธ ์ ์ : 1953๋
์ด์ ์ ํ๊ธ ๋ณํ๋ณธ(
body_korean
), 1954๋ ์ดํ๋ ์๋ฌธ(body_archaic
)์ ์ฌ์ฉ. - ํํ์ ๋ถ์:
konlpy.tag.Okt
๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฒด ํ ์คํธ๋ฅผ ํํ์ ๋จ์๋ก ๋ถ์. - ํ์ต ๋ฐ์ดํฐ: ๋ถ์๋ ํํ์ ์ค **๋ช ์ฌ(Noun)**๋ง์ ์ถ์ถํ์ฌ ๊ฐ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉ.
- ํ์ด๋ธ๋ฆฌ๋ ํ
์คํธ ์ ์ : 1953๋
์ด์ ์ ํ๊ธ ๋ณํ๋ณธ(
์ฃผ์: ์๋ณธ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ์๊ถ์ ์กฐ์ ์ผ๋ณด์ฌ์ ์์ต๋๋ค. ๋ณธ ๋ชจ๋ธ์ ๋น์์ ์ ํ์ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก๋ง ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ต ์ ์ฐจ (Training Procedure)
๊ฐ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ก ํ์ต๋์์ต๋๋ค.
vector_size
: 100window
: 5min_count
: 5model
/sg
: skipgram
ํ์ฉ ๋ฐฉ๋ฒ (How to Use)
Word2Vec ๋ชจ๋ธ ํ์ฉ ์์ (gensim)
from huggingface_hub import hf_hub_download
from gensim.models import Word2Vec
# ์์: 1975๋
Word2Vec ๋ชจ๋ธ ๋ถ๋ฌ์ค๊ธฐ
model_path = hf_hub_download(
repo_id="ddokbaro/chosunilbo-LMs",
filename="word2vec/yearly/word2vec_1975.model"
)
model = Word2Vec.load(model_path)
# 1975๋
'๊ฒฝ์ '์ ๊ฐ์ฅ ์ ์ฌํ ๋จ์ด ํ์
print("--- 1975๋
'๊ฒฝ์ '์ ์ ์ฌ์ด ---")
print(model.wv.most_similar('๊ฒฝ์ ', topn=5))
fastText ๋ชจ๋ธ ํ์ฉ ์์
from huggingface_hub import hf_hub_download
import fasttext
# ์์: 1995๋
fastText ๋ชจ๋ธ ๋ถ๋ฌ์ค๊ธฐ
model_path = hf_hub_download(
repo_id="ddokbaro/chosunilbo-LMs",
filename="fasttext/yearly/fasttext_1995.bin"
)
model = fasttext.load_model(model_path)
# 1995๋
'๋ฏธ๋'์ ๊ฐ์ฅ ์ ์ฌํ ๋จ์ด ํ์
print("\n--- 1995๋
'๋ฏธ๋'์ ์ ์ฌ์ด ---")
print(model.get_nearest_neighbors('๋ฏธ๋', k=5))
๊ด๋ จ ์ฐ๊ตฌ ํ๋ซํผ ์๋ด
๋ณธ ์ธ์ด ๋ชจ๋ธ๋ค์ ํ์ฉํ ์ฝ์ ค๋ ๊ฐ๋ ์ฌ ์ฐ๊ตฌ์ ์ ์ฒด ๋ถ์ ์ฝ๋, ์ต์ข ๊ฒฐ๊ณผ ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ Colab ๊ธฐ๋ฐ์ ๊ต์ก์ฉ ํํ ๋ฆฌ์ผ์ ์๋์ ํตํฉ ๋ถ์ ํ๋ซํผ ์ ์ฅ์์์ ํ์ธํ์ค ์ ์์ต๋๋ค.
์ ์ฅ์ ์ฃผ์: https://huggingface.co/datasets/ddokbaro/chosunilbo-koselleck-analysis-platform (์์ ์ฃผ์)
์ธ์ฉ ์ ๋ณด (Citation)
๋ณธ ๋ชจ๋ธ์ ์ฐ๊ตฌ์ ์ฌ์ฉํ์ค ๊ฒฝ์ฐ, ๋ค์์ ์ธ์ฉํด์ฃผ์ญ์์ค:
@misc{kimbaro_chosunilbo_lms_2025,
author = {Kim, Baro},
title = {20th Century Korean Diachronic Language Models from Chosun Ilbo Text},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{[https://huggingface.co/ddokbaro/chosunilbo-LMs](https://huggingface.co/ddokbaro/chosunilbo-LMs)}},
}
- Downloads last month
- 1,013