---
license: apache-2.0
language:
- ko
- en
tags:
- tokenizer
- korean tokenizer
- llama2
---
AI 와 빅데이터 분석 전문 기업인 Linkbricks(www.linkbricks.com)의 데이터사이언티스트인 지윤성 박사(Saxo)가 llama2 기본 Tokenizer(3,2000 토큰)에
한국어 토큰 40만개를 추가한 토크나이저로 llama2 계열 파인튜닝시 기존 llama2 토크나이저 대신 사용할 수 있도록 tokenzier_config.json과 special_tokens_map.json 은 수정 없이
tokenzier.json에 vocab과 merges 만 append한 토크나이저이다.
한글 코퍼스 약 6억건에서 frequency>2 이상만 추출한 토큰들로서 과학, 예술, 사회, 문화, 뉴스, 리뷰, 소셜, 채팅 등을 대부분 커버한다.
토크나이저 품질 비교
example = "Tokenizers 라이브러리는 위의 개별 단계에 대해 여러 옵션을 제공할 수 있도록 만들어졌으며, 이러한 옵션들은 목적에 따라 짜맞춰서 활용할 수 있습니다. 이 섹션에서는 섹션 2에서 설명했던 기존 토크나이저에서 새로운 토크나이저를 학습하는 것과는 달리 아예 처음부터 토크나이저를 구축하는 방법을 볼 것입니다. 이를 통해서, 생각할 수 있는 모든 종류의 토크나이저를 만들 수 있습니다!"
llama2_Linkbricks_korean_tokenzier_stem1 : vocab size = 474,098
['▁Token', 'izers', '▁라이브러리는', '▁위의', '▁개별', '▁단계에', '▁대해', '▁여러', '▁옵션을', '▁제공할', '▁수', '▁있도록', '▁만들어졌으며,', '▁이러한', '▁옵션', '들은', '▁목적에', '▁따라', '▁짜', '맞춰서', '▁활용할', '▁수', '▁있습니다.', '▁이', '▁섹션', '에서는', '▁섹션', '▁2에서', '▁설명', '했던', '▁기존', '▁토크', '나이', '저', '에서', '▁새로운', '▁토크', '나이', '저를', '▁학습하는', '▁것과는', '▁달리', '▁아예', '▁처음부터', '▁토크', '나이', '저를', '▁구축하는', '▁방법을', '▁볼', '▁것입니다.', '▁이를', '▁통해서,', '▁생각할', '▁수', '▁있는', '▁모든', '▁종류의', '▁토크', '나이', '저를', '▁만들', '▁수', '▁있습니다!']
beomi/KoAlpaca-v1.1a : vocab size = 46,336
['▁Token', 'izers', '▁라이브', '러', '리는', '▁위', '의', '▁개별', '▁단', '계에', '▁대해', '▁여러', '▁옵션', '을', '▁제공할', '▁수', '▁있도록', '▁만들어', '졌', '으며', ',', '▁이러한', '▁옵션', '들은', '▁목적', '에', '▁따라', '▁짜', '맞', '춰', '서', '▁활용할', '▁수', '▁있습니다', '.', '▁이', '▁섹', '션', '에서는', '▁섹', '션', '▁', '2', '에서', '▁설명', '했던', '▁기존', '▁토', '크', '나이', '저', '에서', '▁새로운', '▁토', '크', '나이', '저', '를', '▁학습', '하는', '▁것', '과는', '▁달리', '▁아예', '▁처음부터', '▁토', '크', '나이', '저', '를', '▁구축', '하는', '▁방법을', '▁볼', '▁것입니다', '.', '▁이를', '▁통해서', ',', '▁생각', '할', '▁수', '▁있는', '▁모든', '▁종류', '의', '▁토', '크', '나이', '저', '를', '▁만들', '▁수', '▁있습니다', '!']
llama2 original : vocab size = 32,000
['▁Token', 'izers', '▁', '라', '이', '<0xEB>', '<0xB8>', '<0x8C>', '<0xEB>', '<0x9F>', '<0xAC>', '리', '는', '▁', '위', '의', '▁', '개', '<0xEB>', '<0xB3>', '<0x84>', '▁', '단', '<0xEA>', '<0xB3>', '<0x84>', '에', '▁', '대', '해', '▁', '여', '<0xEB>', '<0x9F>', '<0xAC>', '▁', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', '을', '▁', '제', '공', '<0xED>', '<0x95>', '<0xA0>', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', '도', '<0xEB>', '<0xA1>', '<0x9D>', '▁', '만', '들', '어', '<0xEC>', '<0xA1>', '<0x8C>', '<0xEC>', '<0x9C>', '<0xBC>', '<0xEB>', '<0xA9>', '<0xB0>', ',', '▁', '이', '<0xEB>', '<0x9F>', '<0xAC>', '한', '▁', '<0xEC>', '<0x98>', '<0xB5>', '<0xEC>', '<0x85>', '<0x98>', '들', '은', '▁', '<0xEB>', '<0xAA>', '<0xA9>', '<0xEC>', '<0xA0>', '<0x81>', '에', '▁', '<0xEB>', '<0x94>', '<0xB0>', '라', '▁', '<0xEC>', '<0xA7>', '<0x9C>', '<0xEB>', '<0xA7>', '<0x9E>', '<0xEC>', '<0xB6>', '<0xB0>', '서', '▁', '<0xED>', '<0x99>', '<0x9C>', '용', '<0xED>', '<0x95>', '<0xA0>', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', '니', '다', '.', '▁', '이', '▁', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', '에', '서', '는', '▁', '<0xEC>', '<0x84>', '<0xB9>', '<0xEC>', '<0x85>', '<0x98>', '▁', '2', '에', '서', '▁', '<0xEC>', '<0x84>', '<0xA4>', '명', '<0xED>', '<0x96>', '<0x88>', '<0xEB>', '<0x8D>', '<0x98>', '▁', '기', '<0xEC>', '<0xA1>', '<0xB4>', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', '나', '이', '<0xEC>', '<0xA0>', '<0x80>', '에', '서', '▁', '<0xEC>', '<0x83>', '<0x88>', '로', '<0xEC>', '<0x9A>', '<0xB4>', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', '나', '이', '<0xEC>', '<0xA0>', '<0x80>', '를', '▁', '학', '<0xEC>', '<0x8A>', '<0xB5>', '하', '는', '▁', '<0xEA>', '<0xB2>', '<0x83>', '과', '는', '▁', '<0xEB>', '<0x8B>', '<0xAC>', '리', '▁', '아', '<0xEC>', '<0x98>', '<0x88>', '▁', '<0xEC>', '<0xB2>', '<0x98>', '음', '부', '터', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', '나', '이', '<0xEC>', '<0xA0>', '<0x80>', '를', '▁', '구', '<0xEC>', '<0xB6>', '<0x95>', '하', '는', '▁', '방', '<0xEB>', '<0xB2>', '<0x95>', '을', '▁', '<0xEB>', '<0xB3>', '<0xBC>', '▁', '<0xEA>', '<0xB2>', '<0x83>', '<0xEC>', '<0x9E>', '<0x85>', '니', '다', '.', '▁', '이', '를', '▁', '<0xED>', '<0x86>', '<0xB5>', '해', '서', ',', '▁', '<0xEC>', '<0x83>', '<0x9D>', '<0xEA>', '<0xB0>', '<0x81>', '<0xED>', '<0x95>', '<0xA0>', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', '는', '▁', '모', '<0xEB>', '<0x93>', '<0xA0>', '▁', '종', '<0xEB>', '<0xA5>', '<0x98>', '의', '▁', '<0xED>', '<0x86>', '<0xA0>', '<0xED>', '<0x81>', '<0xAC>', '나', '이', '<0xEC>', '<0xA0>', '<0x80>', '를', '▁', '만', '들', '▁', '수', '▁', '<0xEC>', '<0x9E>', '<0x88>', '<0xEC>', '<0x8A>', '<0xB5>', '니', '다', '!']
상업적 이용시 허가 필요합니다.