YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Huấn luyện mô hình ngôn ngữ trên 4 GPUs A100 160G

Tài trợ bởi Nvidia Việt Nam

Chuẩn bị huấn luyện và các thử nghiệm

  • Chuẩn bị 6GB dữ liệu laws để thử nghiệm với mô hình 1.2 tỉ params

  • Quản lý lấy mẫu huấn luyện

    • Lấy mẫu theo chiều xuôi sao cho mỗi token đc train 1 lần với bigdata
    • Thêm khoảng trượt data_shift để thay đổi cửa sổ lấy mẫu ở lần huấn luyện lặp lại tiếp theo
  • Tokenize dữ liệu và lưu dưới định dạng binidx theo kịch bản lấy mẫu

    • Tknz theo symato_2944 (~5g filtered text = ~2 tỉ tokens)
    • Tknz theo symato_16k (~5g filtered text = ~1.1 tỉ tokens)
      • Tỉ lệ nén bằng 91% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
    • Tknz theo symato_16k_refined (~5g filtered text = ~1.2 tỉ tokens)
      • Tỉ lệ nén bằng 86% sentencepiece_16k trên toàn bộ tập dữ liệu và tập trung nén âm tiết
  • Huấn luyện các mô hình sau với dữ liệu laws:

    • Model-1: symato_2944 3 lượt:

      • Lấy mẫu ngẫu nhiên
      • Cách lấy mẫu mới đảm bảo mỗi token được huấn luyện 1 lần
    • Model-2: symato_16k 3 lượt:

      • Mỗi mẫu huấn luyện 1 lần data_shift = 0
      • Mỗi mẫu huấn luyện 1 lần data_shift = 170
      • Mỗi mẫu huấn luyện 1 lần data_shift = 340
    • Model-3: sentencepiece_16k 3 lượt:

      • Mỗi mẫu huấn luyện 1 lần data_shift = 340
      • Mỗi mẫu huấn luyện 1 lần data_shift = 170
      • Mỗi mẫu huấn luyện 1 lần data_shift = 0
    • Model-4: symato_16k_refined 3 lượt:

      • Mỗi mẫu huấn luyện 1 lần data_shift = 0
      • Mỗi mẫu huấn luyện 1 lần data_shift = 170
      • Mỗi mẫu huấn luyện 1 lần data_shift = 340
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support