Language detection - Nhận diện ngôn ngữ

Nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:

Tiếng Việt
Tiếng Mường
Tiếng Anh
Tiếng Việt (không dấu)
Tiếng Mường (không dấu)

Model description

Mô hình có tác dụng nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:

Tiếng Việt
Tiếng Mường
Tiếng Anh
Tiếng Việt (không dấu)
Tiếng Mường (không dấu)

Ví dụ:

Xin chào, bạn hôm nay thế nào?

**Tiếng Việt phổ thông: 99.99054670333862**
Tiếng Mường: 0.003272495450801216
Tiếng Anh: 0.0015341358448495157
Tiếng Việt phổ thông (không dấu): 0.0029244738470879383
Tiếng Mường (không dấu): 0.001718075327516999

Xin chao, ban hom nay the nao?

Tiếng Việt phổ thông: 0.002801197115331888
Tiếng Mường: 0.002109220076818019
Tiếng Anh: 0.0010244550139759667
**Tiếng Việt phổ thông (không dấu): 99.98856782913208**
Tiếng Mường (không dấu): 0.005498817336047068

Hi, how do you do?

Tiếng Việt phổ thông: 6.934634910749082e-06
Tiếng Mường: 7.518105604731318e-06
**Tiếng Anh: 99.99995231628418**
Tiếng Việt phổ thông (không dấu): 1.4838792594673578e-05
Tiếng Mường (không dấu): 1.1849249403894646e-05

Ủn cha̒w tưở da̭.

Tiếng Việt phổ thông: 0.054886669386178255
**Tiếng Mường: 99.93938207626343**
Tiếng Anh: 0.0010535893125052098
Tiếng Việt phổ thông (không dấu): 0.0021749850930063985
Tiếng Mường (không dấu): 0.002491030318196863

Un chaw tuo da.

Tiếng Việt phổ thông: 0.0016880025214049965
Tiếng Mường: 0.003152283898089081
Tiếng Anh: 0.001133861587732099
Tiếng Việt phổ thông (không dấu): 0.004193674249108881
**Tiếng Mường (không dấu): 99.98983144760132**

Base model

Mô hình được đạo tạo dựa trên cơ sở của model google-bert/bert-base-multilingual-cased

Training data

Chưa thể công khai dữ liệu training

Model variations

Chưa xác định

Intended uses & limitations

Chưa xác định

License

Đây là một open-source library, bạn có thể sử dụng nó với bất kì mục đích nào. Rất cảm ơn nếu bạn ghi nguồn khi sử dụng mô hình này (nếu không ghi cũng không sao).

How to use

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("mr4/language_classification")
model = AutoModelForSequenceClassification.from_pretrained("mr4/language_classification")

text = "Xin chào, tôi tên là Đặng Việt Dũng."
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

predictions = torch.nn.functional.softmax(logits, dim=-1)
print(predictions)
print(">>>>>>>>>>>>>>>>>>>>>>>>>>")
for i, prediction in enumerate(predictions):
    print(text)
    for j, value in enumerate(prediction):
        print(f"    {id2label[j]}: {value.item() * 100}")
print("<<<<<<<<<<<<<<<<<<<<<<<<<<")

Liên hệ

Mọi thông tin liên quan có thể liên hệ qua email: [email protected].