tiendung/symato-nvidia-vn

Chuẩn bị 6GB dữ liệu laws để thử nghiệm với mô hình 1.2 tỉ params

Lấy mẫu theo chiều xuôi sao cho mỗi token đc train 1 lần với bigdata
Thêm khoảng trượt data_shift để thay đổi cửa sổ lấy mẫu ở lần huấn luyện lặp lại tiếp theo

Tokenize dữ liệu và lưu dưới định dạng binidx theo kịch bản lấy mẫu

Tknz theo symato_2944 (~5g filtered text = ~2 tỉ tokens)
Tknz theo symato_16k (~5g filtered text = ~1.1 tỉ tokens)
- Tỉ lệ nén bằng 91% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
Tknz theo symato_16k_refined (~5g filtered text = ~1.2 tỉ tokens)
- Tỉ lệ nén bằng 86% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết

Huấn luyện các mô hình sau với dữ liệu laws:

Model-1: symato_2944 3 lượt:
- Lấy mẫu ngẫu nhiên
- Cách lấy mẫu mới đảm bảo mỗi token được huấn luyện 1 lần
Model-2: symato_16k 3 lượt:
- Mỗi mẫu huấn luyện 1 lần data_shift = 0
- Mỗi mẫu huấn luyện 1 lần data_shift = 170
- Mỗi mẫu huấn luyện 1 lần data_shift = 340
Model-3: sentencepiece_16k 3 lượt:
- Mỗi mẫu huấn luyện 1 lần data_shift = 340
- Mỗi mẫu huấn luyện 1 lần data_shift = 170
- Mỗi mẫu huấn luyện 1 lần data_shift = 0
Model-4: symato_16k_refined 3 lượt:
- Mỗi mẫu huấn luyện 1 lần data_shift = 0
- Mỗi mẫu huấn luyện 1 lần data_shift = 170
- Mỗi mẫu huấn luyện 1 lần data_shift = 340

tiendung
/

symato-nvidia-vn