Update README.md
Browse files
README.md
CHANGED
|
@@ -7,11 +7,11 @@ AI 와 빅데이터 분석 전문 기업인 Linkbricks의 데이터사이언티
|
|
| 7 |
tokenzier.json에 vocab과 merges 만 append한 토크나이저이다.
|
| 8 |
한글 코퍼스 약 6억건에서 frequency>2 이상만 추출한 토큰들로서 과학, 예술, 사회, 문화, 뉴스, 리뷰, 소셜, 채팅 등을 대부분 커버한다.
|
| 9 |
|
| 10 |
-
|
| 11 |
-
|
| 12 |
example = "Tokenizers 라이브러리는 위의 개별 단계에 대해 여러 옵션을 제공할 수 있도록 만들어졌으며, 이러한 옵션들은 목적에 따라 짜맞춰서 활용할 수 있습니다. 이 섹션에서는 섹션 2에서 설명했던 기존 토크나이저에서 새로운 토크나이저를 학습하는 것과는 달리 아예 처음부터 토크나이저를 구축하는 방법을 볼 것입니다. 이를 통해서, 생각할 수 있는 모든 종류의 토크나이저를 만들 수 있습니다!"
|
| 13 |
-
|
| 14 |
-
<b>
|
| 15 |
['▁Token', 'izers', '▁라이브러리는', '▁위의', '▁개별', '▁단계에', '▁대해', '▁여러', '▁옵션을', '▁제공할', '▁수', '▁있도록', '▁만들어졌으며,', '▁이러한', '▁옵션', '들은', '▁목적에', '▁따라', '▁짜', '맞춰서', '▁활용할', '▁수', '▁있습니다.', '▁이', '▁섹션', '에서는', '▁섹션', '▁2에서', '▁설명', '했던', '▁기존', '▁토크', '나이', '저', '에서', '▁새로운', '▁토크', '나이', '저를', '▁학습하는', '▁것과는', '▁달리', '▁아예', '▁처음부터', '▁토크', '나이', '저를', '▁구축하는', '▁방법을', '▁볼', '▁것입니다.', '▁이를', '▁통해서,', '▁생각할', '▁수', '▁있는', '▁모든', '▁종류의', '▁토크', '나이', '저를', '▁만들', '▁수', '▁있습니다!']
|
| 16 |
|
| 17 |
<b>beomi/KoAlpaca-v1.1a</b> : vocab size = 46,336 <br>
|
|
|
|
| 7 |
tokenzier.json에 vocab과 merges 만 append한 토크나이저이다.
|
| 8 |
한글 코퍼스 약 6억건에서 frequency>2 이상만 추출한 토큰들로서 과학, 예술, 사회, 문화, 뉴스, 리뷰, 소셜, 채팅 등을 대부분 커버한다.
|
| 9 |
|
| 10 |
+
<b>토크나이저 품질 비교</b>
|
| 11 |
+
<br>
|
| 12 |
example = "Tokenizers 라이브러리는 위의 개별 단계에 대해 여러 옵션을 제공할 수 있도록 만들어졌으며, 이러한 옵션들은 목적에 따라 짜맞춰서 활용할 수 있습니다. 이 섹션에서는 섹션 2에서 설명했던 기존 토크나이저에서 새로운 토크나이저를 학습하는 것과는 달리 아예 처음부터 토크나이저를 구축하는 방법을 볼 것입니다. 이를 통해서, 생각할 수 있는 모든 종류의 토크나이저를 만들 수 있습니다!"
|
| 13 |
+
<br>
|
| 14 |
+
<b>llama2_Linkbricks_korean_tokenzier_stem1</b> : vocab size = 474,098 <br>
|
| 15 |
['▁Token', 'izers', '▁라이브러리는', '▁위의', '▁개별', '▁단계에', '▁대해', '▁여러', '▁옵션을', '▁제공할', '▁수', '▁있도록', '▁만들어졌으며,', '▁이러한', '▁옵션', '들은', '▁목적에', '▁따라', '▁짜', '맞춰서', '▁활용할', '▁수', '▁있습니다.', '▁이', '▁섹션', '에서는', '▁섹션', '▁2에서', '▁설명', '했던', '▁기존', '▁토크', '나이', '저', '에서', '▁새로운', '▁토크', '나이', '저를', '▁학습하는', '▁것과는', '▁달리', '▁아예', '▁처음부터', '▁토크', '나이', '저를', '▁구축하는', '▁방법을', '▁볼', '▁것입니다.', '▁이를', '▁통해서,', '▁생각할', '▁수', '▁있는', '▁모든', '▁종류의', '▁토크', '나이', '저를', '▁만들', '▁수', '▁있습니다!']
|
| 16 |
|
| 17 |
<b>beomi/KoAlpaca-v1.1a</b> : vocab size = 46,336 <br>
|