metadata
license: apache-2.0
language:
- ko
- en
pipeline_tag: text-generation
tags:
- polyglot
- KoVicuna
- KORani
KORani-v1-13B
v1,2,3
doesn't mean the best or most recent model
- KORani: Large Language Models for π°π· Korean and πΊπΈ English using LLaMA 13B and Polyglot 12.8B.
- Tested which LLM is effective for π°π· Korean tasks after finetuning.
- More information at https://github.com/krafton-ai/KORani
- This repository contains fine-tuned language model weights based on LLaMA 13B
Release
This repository contains inference code for KORani models that are based on LLaMA 13B and Polyglot 12.8B. KORani models are finetuned using ShareGPT & KoVicuna dataset. This work is hugely influenced by Vicuna project.
Models
Model | Base | Train dataset | Huggingface Link |
---|---|---|---|
1οΈβ£ KORani-v1-13B | Polyglot 12.8B | KoVicuna dataset | Link 1 |
2οΈβ£ KORani-v2-13B | LLaMA 13B | KoVicuna dataset | Link 2 |
3οΈβ£ KORani-v3-13B | LLaMA 13B | ShareGPT & KoVicuna dataset | Link 3 |
Performances
We used AutoEvalGPT inspired by auto evaluation by GPT-4 from Vicuna.
For how to evaluate, visit this GitHub -> https://github.com/krafton-ai/AutoEvalGPT
Translation (ENG -> KOR)
input = ""Hey! I have some Kissflow Legal Review requests that are blocked by Tax and Accounting, can this be looked at?""
Model | Score (averaged over 5 examples) | Output Example |
---|---|---|
GPT-4 | - | ν€μ΄! μ κ° Tax and Accountingμ μν΄ μ°¨λ¨λ λͺ κ°μ§ Kissflow λ²λ₯ κ²ν μμ²μ΄ μλλ°, μ΄κ²μ νμΈν΄ μ£Όμ€ μ μλμ? |
DeepL | 9.4 | μλ νμΈμ! μΈλ¬΄ λ° νκ³μμ μ°¨λ¨λ Kissflow λ²λ₯ κ²ν μμ²μ΄ λͺ κ° μλλ°μ, μ΄ μμ²μ μ΄ν΄λ³Ό μ μλμ? |
GPT-3.5-turbo | 8.6 | μλ νμΈμ! μΈλ¬΄ λ° νκ³ λΆμμμ μ°¨λ¨λ λͺ κ°μ§ Kissflow Legal Review μμ²μ΄ μμ΅λλ€. νμΈν΄ μ£Όμ€ μ μλμ? |
Vicuna-13B | 3.8 | μλ νμΈμ! μΈκΈκ³μ°κ³Ό νκ³λΆμκ° μ°¨λ¨ν΄ μλ Kissflow Legal Review μμ²μ΄ λͺ κ°κ° μμ΅λκΉ? μ΄κ²μ μ΄ν΄λ³΄μκ² μ΅λκΉ? |
KoAlpaca-13B | 5.6 | μΌ! μΈκΈκ³Ό νκ³μ λ§ν ν€μ±νλ‘μ° λ²μ κ²ν μμ²μ΄ μλλ°, μ΄κ±° κ²ν ν΄μ€ μ μμ΄? |
KORani-v1 | 7.5 | μλ νμΈμ! μΈκΈκ³Ό νκ³λ‘ μΈν΄ λ§ν μλ ν€μ€νλ‘μ° λ²λ₯ κ²ν μμ²μ΄ λͺ κ° μλλ°, κ²ν ν΄ μ£Όμ€ μ μλμ? |
KORani-v2 | 5.4 | μλ νμΈμ! μ κ° Kissflow Legal Review μμ²μ λͺ©κ²©νλλ°, μΈλ¬΄ λ° νκ³ λΆμμμ μ°¨λ¨νκ³ μλλ° μ΄ λ¬Έμ λ₯Ό μ‘°μ¬ν΄ μ£Όμκ² μ΄μ? |
KORani-v3 | 7.1 | μλ νμΈμ! μ λ Kissflow Legal Review μμ²μ΄ μΈκΈκ³Ό νκ³μ μν΄ μ°¨λ¨λκ³ μλλ°, μ΄ λ¬Έμ κ° μ΄ν΄λ³Ό μ μμκΉμ? |
QA(Korean)
prompt = "μ°λ¦¬λ μλμ κ°μ μ 보λ₯Ό κ°κ³ μμ΅λλ€.
---------------------
ν¨λ¦¬ ꡬμ€νν λͺ°λμ¨(μμ΄: Henry Gustav Molaison, 1926λ
2μ 26μΌ ~ 2008λ
12μ 2μΌ)μ λμ μ¦μ μΉλ£νκΈ° μν΄μ μμ μ μΌλ‘ ν΄λ§λ₯Ό ν¬ν¨ν λ΄μΈ‘μΈ‘λμ½μ΄ μ κ±°λ λ―Έκ΅μ κΈ°μ΅μ₯μ νμ H.MμΌλ‘ μ λΆν° μ΄λ―Έ μλ €μ Έ μμλ€.
κ·Έλ 1957λ
λ§λΆν° κ·Έκ° μ£½μ λ κΉμ§ κ·Έλ κ΄λ²μνκ² μ°κ΅¬κ° λμλ€. κ·Έμ κ²½μ°λ λ κΈ°λ₯κ³Ό κΈ°μ΅ μ¬μ΄μ λ§ν¬λ₯Ό μ€λͺ
νλ μ΄λ‘ λ°λ¬κ³Ό λμΈμ§μ¬λ¦¬νμ λ°λ¬, λμ ꡬ쑰μ κΈ°λ₯μ΄ νΉμ μ¬λ¦¬μ κ³Όμ κ³Ό κ΄ν μ΄ν΄λ₯Ό λͺ©νλ‘ νλ μ¬λ¦¬νμ ν μ§μ μ λ§€μ° μ€μν μν μ νμλ€.
κ·Έκ° μ£½κΈ° μ μ, κ·Έλ μ½λ€ν°μ»· μ£Ό μμ λ½μ€μ μμΉν κ΄λ¦¬κΈ°κ΄μ μ΄λ©΄μ μ§μμ μΌλ‘ μ‘°μ¬κ° λμλ€.
κ·Έμ λλ μ§κΈ 2009λ
12μ 4μΌμ μ‘°μ§νμ μΌλ‘ μ¬λΌμ΄μ€λμ΄ λ―Έκ΅ μλμμ΄κ³ μ μλ€.
---------------------
### μ£Όμ΄μ§ μ 보μ λ°λΌ, μ§λ¬Έμ λ΅ν΄μ£ΌμΈμ.: 'ν¨λ¦¬ ꡬμ€ννμ λλ νμ¬ μ΄λμ μμΉν΄ μλκ°?'
### Assistant:"
Model | Score (averaged over 5 examples) | Output Example |
---|---|---|
GPT-4 | - | ν¨λ¦¬ ꡬμ€ννμ λλ νμ¬ λ―Έκ΅ μλμμ΄κ³ μ μμΉν΄ μλ€. |
GPT-3.5-turbo | 7.1 | ν¨λ¦¬ ꡬμ€ννμ λλ μ§κΈ 2009λ 12μ 4μΌμ μ‘°μ§νμ μΌλ‘ μ¬λΌμ΄μ€λμ΄ λ―Έκ΅ μλμμ΄κ³ μ μλ€. |
Vicuna-13B | 7.2 | ν¨λ¦¬ ꡬμ€ννμ λλ 2009λ 12μ 4μΌμ μ‘°μ§νμ μΌλ‘ μ¬λΌμ΄μ€λμ΄ λ―Έκ΅ μλμμ΄κ³ μ μμ΅λλ€. |
KoAlpaca-13B | 2.6 | Henry Gustav Molaisonμ λλ 2008λ μ μ¬λ§νμμ΅λλ€. κ·Έμ λλ μ½λ€ν°μ»· μ£Ό μμ λ½μ€μ μμΉν κΈ°κ΄μ 보κ΄λμ΄ μμΌλ©°, νμ¬λ κ³μ μ‘°μ¬μ€μ λλ€. |
KORani-v1 | 6.6 | ν¨λ¦¬ ꡬμ€νν λͺ°λ μ΄μ¨μ λλ νμ¬ λ―Έκ΅ μλμμ΄κ³ μ μμ΅λλ€. κ·Έμ λλ 1957λ μμ λ‘ μ κ±°λ κ·Έμ λ΄μΈ‘ μΈ‘λμ½μ μ리λ₯Ό νμΈνκΈ° μν΄ μ‘°μ§νμ μΌλ‘ μ λ¨λμμ΅λλ€. μ΄ μ°κ΅¬λ λμ ꡬ쑰μ κΈ°λ₯μ΄ νΉμ μ¬λ¦¬μ κ³Όμ κ³Ό κ΄λ ¨λ μ΄ν΄λ₯Ό λͺ©νλ‘ νλ μ¬λ¦¬νμ ν λΆμΌμΈ μΈμ§ μ κ²½κ³Όνμ λν κ·Έμ 곡νμ 기리기 μν κ²μ λλ€." |
KORani-v2 | 8.0 | ν¨λ¦¬ ꡬμ€ννμ λλ νμ¬ μΊλ¦¬ν¬λμ μλμμ΄κ³ μ μλ μλμμ΄κ³ λνκ΅ μ¨μ€νΈ μΊ νΌμ€μ μ κ²½κ³Όν μ€νμ€μ 보κ΄λμ΄ μμ΅λλ€. |
KORani-v3 | 6.4 | ν¨λ¦¬ ꡬμ€ννμ λλ νμ¬ μ½λ€ν°μ»· μ£Ό μμ λ½μ€μ μλ κ΄λ¦¬ κΈ°κ΄μ μμ΅λλ€. |
Summarization (Korean)
prompt = "# Document
μ λ
λ λλΉ 79λͺ
λμ΄ 1019λͺ
, νμ μμ λμ² κ΄μμμ 곡무μ μ μμ΄ ν¬κ² λμ΄λ νμ μλΉμ€ ν₯μμ΄ κΈ°λλλ€.
μλ νμ μμ λΆμμ λ°νν 2018λ
λ μμΉλ¨μ²΄ κΈ°μ€μΈκ±΄λΉμμ κ΄μμμ μΌλ°μ§ μ μμ΄ μ§λν΄λ³΄λ€ 79λͺ
μ΄ λμ΄λ 1019λͺ
μΌλ‘ μ°μ λλ€κ³ λ°νλ€.
μ§λ 1995λ
λλν΅ν© λΉμ 991λͺ
μ΄μλ κ΄μμ 곡무μ μ μμ IMFμμ μ νΉλ
ν ꡬ쑰쑰μ μ κ±°μΉλ©΄μ 2002λ
μλ 788λͺ
μΌλ‘ 200μ¬λͺ
μ΄ κ°κΉμ΄ μ€μ΄λ€μμΌλ μ΄λ² μ μ νλ³΄λ‘ κ³΅λ¬΄μ μ μ 1000λͺ
μλλ₯Ό λ§κ² λλ€.
κ·Έλμ κ΄μμλ ν¬μ€μ½λ₯Ό μ€μ¬μΌλ‘ ν μ°μ
λ¨μ§μ 컨ν
μ΄λλΆλ, κ²½μ μμ ꡬμ, νμ§ κ°λ°, λ€μν λ³΅μ§ μ μ±
λ± μλ―Όμ μΆμ μ§ ν₯μμ μν νμ μμκ° λ λ‘ μ¦ννλ λ°μ λΉν΄ νμ λ 곡무μ μ μμΌλ‘ λ§μ μ΄λ €μμ κ²ͺμ΄ μμλ€.
μμ μ΄λ² μ μ μΆ©μμ μ§κΈκΉμ§ 격무μ μλ¬λ €μ¨ 곡무μλ€μκ² λμ± μ΄μ¬ν μΌν μ μλλ‘ νλ ₯μ λΆμ΄λ£μΌλ©΄μ μ§μκ³Ό λλΌ λ°μ μ λ·λ°μΉ¨ νλ κ²½μ λμλ‘μμ μμμ λλμ΄λ μλμ§ ν¨κ³Όλ‘ μ΄μ΄μ§ κ²μΌλ‘ κΈ°λλλ€.
ννΈ, κ΄μμλ νμ기ꡬμΈβκΈ°μ
μ μΉμΆμ§λ¨βμ΄ 2017λ
μ°λ§λ‘ νμ§λ¨μ λ°λΌ μ λΌλ¨λλ‘λΆν° 4κΈ μμ€κΈ°κ΅¬μΈβμ°λ¨λ
Ήμ§κ΄λ¦¬μΌν°βλ₯Ό μΉμΈ λ°μ μ¬ν΄ 1μλΆν° μ΄μνκ² λ¨μΌλ‘μ¨ λμ κ°λ°μ νμΈ΅ νλ ₯μ λ°μ κ²μΌλ‘ μ λ§νκ³ μλ€.
μ νκΈ° μ΄λ¬΄κ³Όμ₯μβμ°ΈμΌλ‘ μ΄λ ΅κ² κ°μ Έμ¨ 곡무μ μ μκ³Ό 4κΈ μμ€κΈ°κ΅¬λ 격무μ μλ¬λ €μ¨ μ§μλ€μ μ¨ν΅μ νΈμ΄κ² ν΄ 15λ§ μλ―Όμ μν νμ μλΉμ€ μ§μ ν₯μμν¬ κ²μΌλ‘ κΈ°λλλ€βλ©°βμ΄λ¬ μμ μ μ μ‘°λ‘λ₯Ό κ°μ νκ³ , μ§λ¬΄λΆμμ ν΅ν΄ λΆμλ³ μ μμ μ‘°μ ν κ³νμ΄λ€βκ³ λ§νλ€.
νκ΅μ΄ 3λ¬Έμ₯μΌλ‘ μμ Documentλ₯Ό μμ½ν΄μ€.
### Assistant: 1)"
Model | Score (averaged over 5 examples) | Output Example |
---|---|---|
GPT-4 | - | 1) κ΄μμμ 곡무μ μ μμ΄ μ λ λ λλΉ 79λͺ λμ΄λ 1019λͺ μΌλ‘ μ¦κ°νλ€. 2) μ΄λ‘ μΈν΄ νμ μλΉμ€ ν₯μμ΄ κΈ°λλλ©°, μ§μκ³Ό λλΌ λ°μ μ λ·λ°μΉ¨νλ κ²½μ λμλ‘μμ μμμ΄ μμΉν κ²μΌλ‘ μ λ§λλ€. 3) ννΈ, κ΄μμλ μ λΌλ¨λλ‘λΆν° 4κΈ μμ€κΈ°κ΅¬μΈ 'μ°λ¨λ Ήμ§κ΄λ¦¬μΌν°'λ₯Ό μΉμΈλ°μ λμ κ°λ°μ νλ ₯μ λ°μ κ²μΌλ‘ μμλλ€. |
GPT-3.5-turbo | 8.5 | 1) κ΄μμ 곡무μ μ μμ΄ 79λͺ λμ΄ 1019λͺ μΌλ‘ λμ΄λ νμ μλΉμ€ ν₯μμ΄ κΈ°λλλ€κ³ λ°νλ€.2) κ΄μμλ μ΄λ² μ μ μΆ©μμΌλ‘ μ§μκ³Ό λλΌ λ°μ μ λ·λ°μΉ¨ νλ κ²½μ λμ μμμ λλμΌ κ²μΌλ‘ κΈ°λλλ€. 3) μ μ μ‘°λ‘λ₯Ό κ°μ νκ³ , μ§λ¬΄λΆμμ ν΅ν΄ λΆμλ³ μ μμ μ‘°μ ν κ³νμ΄λ€. |
Vicuna-13B | 7.4 | 1) 2018λ λ κ΄μμμ 곡무μ μ μ 1019λͺ , μ§λν΄ 79λͺ μ¦κ°. 2) μ΄λ² μ μ μΆ©μμ μ§κΈκΉμ§ 격무μ μλ¬λ €μ¨ 곡무μλ€μκ² λμ± μ΄μ¬ν μΌν μ μλλ‘ νλ ₯μ λΆμ΄λ£μΌλ©΄μ μ§μκ³Ό λλΌ λ°μ μ λ·λ°μΉ¨ νλ κ²½μ λμλ‘μμ μμμ λλμ΄λ μλμ§ ν¨κ³Όλ‘ μ΄μ΄μ§ κ²μΌλ‘ κΈ°λλλ€. 3) κ΄μμλ μ λΌλ¨λλ‘λΆν° 4κΈ μμ€κΈ°κ΅¬μΈβμ°λ¨λ Ήμ§κ΄λ¦¬μΌν°βλ₯Ό μΉμΈ λ°μ μ΄μνκ² λ¨μΌλ‘μ¨ λμ κ°λ°μ νμΈ΅ νλ ₯μ λ°μ κ²μΌλ‘ μ λ§νκ³ μλ€. |
KoAlpaca-13B | 5.7 | 1) κ΄μμλ μλ λ³΄λ€ 79λͺ λμ΄λ 1019λͺ μ 곡무μμ λ μ μκ² λμμ΅λλ€. 2) μ΄λ νμ μμ λΆμ μ§μΉ¨μ λ°λ₯Έ κ²μ λλ€. 3) μ΄λ‘μ¨ κ΄μμλ νμ λ μμ°μΌλ‘ μΈν΄ λ°μνλ 곡무μλ€μ μ΄κ³Ό 근무 μλΉ μ§κΈ λ±μ λ¬Έμ λ₯Ό ν΄κ²° ν μ μκ² λμμ΅λλ€. |
KORani-v1 | 7.0 | 1) κ΄μμλ μλ λ³΄λ€ 79λͺ μ΄ λμ΄λ 1019λͺ μ μΌλ°μ§ 곡무μ μ μμ νμλΆλ‘λΆν° μΉμΈλ°μμ΅λλ€. 2) μ΄λ κ΄μμμ νμ μμ μ¦κ°λ₯Ό μμ©νκΈ° μν κ²μ λλ€. 3) μ΄ μ μ μ¦κ°λ κ΄μμ 곡무μλ€μκ² λ λ§μ κΈ°νλ₯Ό μ 곡ν κ²μ λλ€. |
KORani-v2 | 6.2 | 1)κ΄μμμ 곡무μ μ μμ μ΄λ² μ μ νλ³΄λ‘ 1000λͺ μ£ΌλΉ κ³΅λ¬΄μ μ μμ λ¬μ±νμ΅λλ€. 2) μ΄λ¬ν μΆ©μμ μ§κΈκΉμ§ 격무μ μλ¬λ €μ¨ 곡무μλ€μκ² λμ± μ΄μ¬ν μΌν μ μλλ‘ νλ ₯μ λΆμ΄λ£μΌλ©΄μ μ§μμ¬νμ κ΅κ°μ λ°μ μ μ§μνλ μλμ§ ν¨κ³Όλ‘ μ΄μ΄μ§ κ²μΌλ‘ κΈ°λλ©λλ€. 3) κ΄μμλ 'κΈ°μ μ μΉμΆμ§λ¨'μ νμ§νκ³ 'μ°λ¨λ Ήμ§κ΄λ¦¬μΌν°'λ₯Ό μΉμΈνμΌλ©°, μ΄λ λμ κ°λ°μ νμΈ΅ νλ ₯μ λ°μ κ²μΌλ‘ κΈ°λλ©λλ€. |
KORani-v3 | 6.9 | 1)κ΄μμμ 곡무μ μ μμ μ§λν΄λ³΄λ€ 79λͺ μ΄ λμ΄λ 1019λͺ μΌλ‘ μ°μ λμμ΅λλ€.2) μ΄λ¬ν μΆ©μμ μ§μμ¬νμ κ΅κ° λ°μ μ μ§μνλ νμ μλΉμ€μ ν₯μμΌλ‘ μ΄μ΄μ§ κ²μΌλ‘ κΈ°λλ©λλ€.3) μλ 'μ΄λ¬ λ΄μ μ μ μ‘°λ‘λ₯Ό κ°μ νκ³ μ§λ¬΄λΆμμ ν΅ν΄ λΆμλ³λ‘ μ μμ μ‘°μ ν κ³ν'μ΄λ©° νμ μλΉμ€ ν₯μμ μν΄ λ Έλ ₯ν κ²μ΄λΌκ³ λ°νμ΅λλ€. |
License
Our github repo and models are intended for research purpose, non-commercial use only, subject to the model License of LLaMA, Terms of Use of the data generated by OpenAI, and Privacy Practices of ShareGPT. Please contact us If you find any potential violation. The code is released under the Apache License 2.0.