Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,130 @@
|
|
1 |
-
---
|
2 |
-
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- vi
|
4 |
+
- en
|
5 |
+
library_name: transformers
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
tags:
|
8 |
+
- Vietnamese
|
9 |
+
- Vietnamese (without accents)
|
10 |
+
- English
|
11 |
+
- Muong
|
12 |
+
- Muong (without accents)
|
13 |
+
- Language detection
|
14 |
+
- Analysis
|
15 |
+
---
|
16 |
+
|
17 |
+
# Language detection - Nhận diện ngôn ngữ
|
18 |
+
## Nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:
|
19 |
+
- Tiếng Việt
|
20 |
+
- Tiếng Mường
|
21 |
+
- Tiếng Anh
|
22 |
+
- Tiếng Việt (không dấu)
|
23 |
+
- Tiếng Mường (không dấu)
|
24 |
+
|
25 |
+
|
26 |
+
## Model description
|
27 |
+
|
28 |
+
Mô hình có tác dụng nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:
|
29 |
+
- Tiếng Việt
|
30 |
+
- Tiếng Mường
|
31 |
+
- Tiếng Anh
|
32 |
+
- Tiếng Việt (không dấu)
|
33 |
+
- Tiếng Mường (không dấu)
|
34 |
+
|
35 |
+
Ví dụ:
|
36 |
+
|
37 |
+
Xin chào, bạn hôm nay thế nào?
|
38 |
+
```text
|
39 |
+
**Tiếng Việt phổ thông: 99.99054670333862**
|
40 |
+
Tiếng Mường: 0.003272495450801216
|
41 |
+
Tiếng Anh: 0.0015341358448495157
|
42 |
+
Tiếng Việt phổ thông (không dấu): 0.0029244738470879383
|
43 |
+
Tiếng Mường (không dấu): 0.001718075327516999
|
44 |
+
```
|
45 |
+
|
46 |
+
Xin chao, ban hom nay the nao?
|
47 |
+
```text
|
48 |
+
Tiếng Việt phổ thông: 0.002801197115331888
|
49 |
+
Tiếng Mường: 0.002109220076818019
|
50 |
+
Tiếng Anh: 0.0010244550139759667
|
51 |
+
**Tiếng Việt phổ thông (không dấu): 99.98856782913208**
|
52 |
+
Tiếng Mường (không dấu): 0.005498817336047068
|
53 |
+
```
|
54 |
+
|
55 |
+
Hi, how do you do?
|
56 |
+
```text
|
57 |
+
Tiếng Việt phổ thông: 6.934634910749082e-06
|
58 |
+
Tiếng Mường: 7.518105604731318e-06
|
59 |
+
**Tiếng Anh: 99.99995231628418**
|
60 |
+
Tiếng Việt phổ thông (không dấu): 1.4838792594673578e-05
|
61 |
+
Tiếng Mường (không dấu): 1.1849249403894646e-05
|
62 |
+
```
|
63 |
+
|
64 |
+
Ủn cha̒w tưở da̭.
|
65 |
+
```text
|
66 |
+
Tiếng Việt phổ thông: 0.054886669386178255
|
67 |
+
**Tiếng Mường: 99.93938207626343**
|
68 |
+
Tiếng Anh: 0.0010535893125052098
|
69 |
+
Tiếng Việt phổ thông (không dấu): 0.0021749850930063985
|
70 |
+
Tiếng Mường (không dấu): 0.002491030318196863
|
71 |
+
```
|
72 |
+
|
73 |
+
Un chaw tuo da.
|
74 |
+
```text
|
75 |
+
Tiếng Việt phổ thông: 0.0016880025214049965
|
76 |
+
Tiếng Mường: 0.003152283898089081
|
77 |
+
Tiếng Anh: 0.001133861587732099
|
78 |
+
Tiếng Việt phổ thông (không dấu): 0.004193674249108881
|
79 |
+
**Tiếng Mường (không dấu): 99.98983144760132**
|
80 |
+
```
|
81 |
+
|
82 |
+
## Base model
|
83 |
+
|
84 |
+
Mô hình được đạo tạo dựa trên cơ sở của model google-bert/bert-base-multilingual-cased
|
85 |
+
|
86 |
+
## Training data
|
87 |
+
|
88 |
+
Chưa thể công khai dữ liệu training
|
89 |
+
|
90 |
+
## Model variations
|
91 |
+
|
92 |
+
Chưa xác định
|
93 |
+
|
94 |
+
## Intended uses & limitations
|
95 |
+
|
96 |
+
Chưa xác định
|
97 |
+
|
98 |
+
## License
|
99 |
+
|
100 |
+
Đây là một open-source library, bạn có thể sử dụng nó với bất kì mục đích nào.
|
101 |
+
Rất cảm ơn nếu bạn ghi nguồn khi sử dụng mô hình này (nếu không ghi cũng không sao).
|
102 |
+
|
103 |
+
### How to use
|
104 |
+
|
105 |
+
```python
|
106 |
+
import torch
|
107 |
+
from transformers import AutoTokenizer, AutoModelForSequenceClassification
|
108 |
+
|
109 |
+
tokenizer = AutoTokenizer.from_pretrained("mr4/language_classification")
|
110 |
+
model = AutoModelForSequenceClassification.from_pretrained("mr4/language_classification")
|
111 |
+
|
112 |
+
text = "Xin chào, tôi tên là Đặng Việt Dũng."
|
113 |
+
inputs = tokenizer(text, return_tensors="pt")
|
114 |
+
|
115 |
+
with torch.no_grad():
|
116 |
+
logits = model(**inputs).logits
|
117 |
+
|
118 |
+
predictions = torch.nn.functional.softmax(logits, dim=-1)
|
119 |
+
print(predictions)
|
120 |
+
print(">>>>>>>>>>>>>>>>>>>>>>>>>>")
|
121 |
+
for i, prediction in enumerate(predictions):
|
122 |
+
print(text)
|
123 |
+
for j, value in enumerate(prediction):
|
124 |
+
print(f" {id2label[j]}: {value.item() * 100}")
|
125 |
+
print("<<<<<<<<<<<<<<<<<<<<<<<<<<")
|
126 |
+
```
|
127 |
+
|
128 |
+
## Liên hệ
|
129 |
+
|
130 |
+
Mọi thông tin liên quan có thể liên hệ qua email: [email protected].
|