mr4 commited on
Commit
3393702
·
verified ·
1 Parent(s): 27eebd2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +130 -3
README.md CHANGED
@@ -1,3 +1,130 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - vi
4
+ - en
5
+ library_name: transformers
6
+ pipeline_tag: text-classification
7
+ tags:
8
+ - Vietnamese
9
+ - Vietnamese (without accents)
10
+ - English
11
+ - Muong
12
+ - Muong (without accents)
13
+ - Language detection
14
+ - Analysis
15
+ ---
16
+
17
+ # Language detection - Nhận diện ngôn ngữ
18
+ ## Nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:
19
+ - Tiếng Việt
20
+ - Tiếng Mường
21
+ - Tiếng Anh
22
+ - Tiếng Việt (không dấu)
23
+ - Tiếng Mường (không dấu)
24
+
25
+
26
+ ## Model description
27
+
28
+ Mô hình có tác dụng nhận diện ngôn ngữ hỗ trợ các ngôn ngữ:
29
+ - Tiếng Việt
30
+ - Tiếng Mường
31
+ - Tiếng Anh
32
+ - Tiếng Việt (không dấu)
33
+ - Tiếng Mường (không dấu)
34
+
35
+ Ví dụ:
36
+
37
+ Xin chào, bạn hôm nay thế nào?
38
+ ```text
39
+ **Tiếng Việt phổ thông: 99.99054670333862**
40
+ Tiếng Mường: 0.003272495450801216
41
+ Tiếng Anh: 0.0015341358448495157
42
+ Tiếng Việt phổ thông (không dấu): 0.0029244738470879383
43
+ Tiếng Mường (không dấu): 0.001718075327516999
44
+ ```
45
+
46
+ Xin chao, ban hom nay the nao?
47
+ ```text
48
+ Tiếng Việt phổ thông: 0.002801197115331888
49
+ Tiếng Mường: 0.002109220076818019
50
+ Tiếng Anh: 0.0010244550139759667
51
+ **Tiếng Việt phổ thông (không dấu): 99.98856782913208**
52
+ Tiếng Mường (không dấu): 0.005498817336047068
53
+ ```
54
+
55
+ Hi, how do you do?
56
+ ```text
57
+ Tiếng Việt phổ thông: 6.934634910749082e-06
58
+ Tiếng Mường: 7.518105604731318e-06
59
+ **Tiếng Anh: 99.99995231628418**
60
+ Tiếng Việt phổ thông (không dấu): 1.4838792594673578e-05
61
+ Tiếng Mường (không dấu): 1.1849249403894646e-05
62
+ ```
63
+
64
+ Ủn cha̒w tưở da̭.
65
+ ```text
66
+ Tiếng Việt phổ thông: 0.054886669386178255
67
+ **Tiếng Mường: 99.93938207626343**
68
+ Tiếng Anh: 0.0010535893125052098
69
+ Tiếng Việt phổ thông (không dấu): 0.0021749850930063985
70
+ Tiếng Mường (không dấu): 0.002491030318196863
71
+ ```
72
+
73
+ Un chaw tuo da.
74
+ ```text
75
+ Tiếng Việt phổ thông: 0.0016880025214049965
76
+ Tiếng Mường: 0.003152283898089081
77
+ Tiếng Anh: 0.001133861587732099
78
+ Tiếng Việt phổ thông (không dấu): 0.004193674249108881
79
+ **Tiếng Mường (không dấu): 99.98983144760132**
80
+ ```
81
+
82
+ ## Base model
83
+
84
+ Mô hình được đạo tạo dựa trên cơ sở của model google-bert/bert-base-multilingual-cased
85
+
86
+ ## Training data
87
+
88
+ Chưa thể công khai dữ liệu training
89
+
90
+ ## Model variations
91
+
92
+ Chưa xác định
93
+
94
+ ## Intended uses & limitations
95
+
96
+ Chưa xác định
97
+
98
+ ## License
99
+
100
+ Đây là một open-source library, bạn có thể sử dụng nó với bất kì mục đích nào.
101
+ Rất cảm ơn nếu bạn ghi nguồn khi sử dụng mô hình này (nếu không ghi cũng không sao).
102
+
103
+ ### How to use
104
+
105
+ ```python
106
+ import torch
107
+ from transformers import AutoTokenizer, AutoModelForSequenceClassification
108
+
109
+ tokenizer = AutoTokenizer.from_pretrained("mr4/language_classification")
110
+ model = AutoModelForSequenceClassification.from_pretrained("mr4/language_classification")
111
+
112
+ text = "Xin chào, tôi tên là Đặng Việt Dũng."
113
+ inputs = tokenizer(text, return_tensors="pt")
114
+
115
+ with torch.no_grad():
116
+ logits = model(**inputs).logits
117
+
118
+ predictions = torch.nn.functional.softmax(logits, dim=-1)
119
+ print(predictions)
120
+ print(">>>>>>>>>>>>>>>>>>>>>>>>>>")
121
+ for i, prediction in enumerate(predictions):
122
+ print(text)
123
+ for j, value in enumerate(prediction):
124
+ print(f" {id2label[j]}: {value.item() * 100}")
125
+ print("<<<<<<<<<<<<<<<<<<<<<<<<<<")
126
+ ```
127
+
128
+ ## Liên hệ
129
+
130
+ Mọi thông tin liên quan có thể liên hệ qua email: [email protected].