YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
Huấn luyện mô hình ngôn ngữ trên 4 GPUs A100 160G
Tài trợ bởi Nvidia Việt Nam
Chuẩn bị huấn luyện và các thử nghiệm
Chuẩn bị 6GB dữ liệu laws để thử nghiệm với mô hình 1.2 tỉ params
Quản lý lấy mẫu huấn luyện
- Lấy mẫu theo chiều xuôi sao cho mỗi token đc train 1 lần với bigdata
- Thêm khoảng trượt data_shift để thay đổi cửa sổ lấy mẫu ở lần huấn luyện lặp lại tiếp theo
Tokenize dữ liệu và lưu dưới định dạng binidx theo kịch bản lấy mẫu
- Tknz theo symato_2944 (~5g filtered text = ~2 tỉ tokens)
- Tknz theo symato_16k (~5g filtered text = ~1.1 tỉ tokens)
- Tỉ lệ nén bằng 91% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
- Tknz theo symato_16k_refined (~5g filtered text = ~1.2 tỉ tokens)
- Tỉ lệ nén bằng 86% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
Huấn luyện các mô hình sau với dữ liệu laws:
Model-1: symato_2944 3 lượt:
- Lấy mẫu ngẫu nhiên
- Cách lấy mẫu mới đảm bảo mỗi token được huấn luyện 1 lần
Model-2: symato_16k 3 lượt:
- Mỗi mẫu huấn luyện 1 lần data_shift = 0
- Mỗi mẫu huấn luyện 1 lần data_shift = 170
- Mỗi mẫu huấn luyện 1 lần data_shift = 340
Model-3: sentencepiece_16k 3 lượt:
- Mỗi mẫu huấn luyện 1 lần data_shift = 340
- Mỗi mẫu huấn luyện 1 lần data_shift = 170
- Mỗi mẫu huấn luyện 1 lần data_shift = 0
Model-4: symato_16k_refined 3 lượt:
- Mỗi mẫu huấn luyện 1 lần data_shift = 0
- Mỗi mẫu huấn luyện 1 lần data_shift = 170
- Mỗi mẫu huấn luyện 1 lần data_shift = 340
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support