MinhViet commited on
Commit
fe31735
·
verified ·
1 Parent(s): 43cde87

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,649 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:11799
8
+ - loss:CachedMultipleNegativesRankingLoss
9
+ base_model: hiieu/halong_embedding
10
+ widget:
11
+ - source_sentence: Các sản phẩm nghiên cứu và sáng tạo của CLB có đặc trưng gì?
12
+ sentences:
13
+ - 'Tiêu đề: Sổ tay sinh viên 2022
14
+
15
+ Mục: NGHIÊN CỨU, SÁNG TẠO & KHỞI NGHIỆP
16
+
17
+ Nội dung: CLB NGHIÊN CỨU VÀ SÁNG TẠO
18
+
19
+ Được ra đời nhằm hỗ trợ chuyên môn và cơ sở vật chất cho sinh viên tham gia và
20
+ thực hiện nghiên cứu xung quanh các chủ đề, tạo ra các sản phẩm nghiên cứu và
21
+ sáng tạo đặc trưng của ngành nghề (BK-AMC, HUST-SMARTCAR, BK-UAV, AI-CLUB, GW
22
+ Club, GFC, SEP).'
23
+ - 'Tiêu đề: ĐẠI HỌC BÁCH KHOA HÀ NỘI - SỨ MẠNG, TẦM NHÌN VÀ GIÁ TRỊ CỐT LÕI
24
+
25
+ Mục: Giá trị cốt lõi
26
+
27
+ Nội dung: Giá trị cốt lõi của Đại học Bách khoa Hà Nội
28
+
29
+ Chất lượng - hiệu quả: Yếu tố cốt lõi làm nên thương hiệu Đại học Bách khoa Hà
30
+ Nội là chất lượng xuất sắc gắn liền với hiệu quả tối ưu trong mọi hoạt động và
31
+ trên mọi phương diện.
32
+
33
+ Tận tụy - cống hiến: Sự tận tụy và đam mê là chìa khóa cho mọi thành công; sự
34
+ tận tâm và cống hiến hết mình làm nên giá trị cao quý nhất của các thế hệ cán
35
+ bộ và sinh viên Trường Đại học Bách khoa Hà Nội.
36
+
37
+ Chính trực - tôn trọng: Sự chính trực trong chuyên môn, nghiệp vụ và lối sống,
38
+ cùng với sự tôn trọng nhân phẩm, tôn trọng luật pháp và quy định, tôn trọng sự
39
+ đa dạng và khác biệt là những chuẩn mực đạo đức cốt lõi trong môi trường đại học.
40
+
41
+ Tài năng cá nhân - trí tuệ tập thể: Mọi thành công đột phá đều bắt nguồn từ sáng
42
+ tạo và tài năng cá nhân, nhưng chìa khóa đảm bảo thành công bền vững chính là
43
+ sự đoàn kết và trí tuệ tập thể.
44
+
45
+ Kế thừa - sáng tạo: Động lực chính cho phát triển bền vững là đổi mới sáng tạo
46
+ dựa trên tiếp thu tinh hoa tri thức của nhân loại, kế thừa những thành quả đã
47
+ đạt được và phát huy những giá trị truyền thống tốt đẹp.'
48
+ - "Tiêu đề: Luật giáo dục 2019 \nMục: Điều 19. Hoạt động khoa học và công nghệ\n\
49
+ Nội dung: Hoạt động khoa học và công nghệ\n1. Hoạt động khoa học và công nghệ\
50
+ \ là một nhiệm vụ của cơ sở giáo dục.\n2. Cơ sở giáo dục tự triển khai hoặc phối\
51
+ \ hợp với tổ chức khoa học và công nghệ, cơ sở sản xuất, kinh doanh, dịch vụ trong\
52
+ \ việc đào tạo, nghiên cứu khoa học và chuyển giao công nghệ, phục vụ phát triển\
53
+ \ kinh tế - xã hội.\n3. Nhà nước tạo điều kiện cho cơ sở giáo dục hoạt động khoa\
54
+ \ học và công nghệ, kết hợp đào tạo với nghiên cứu khoa học và sản xuất nhằm nâng\
55
+ \ cao chất lượng giáo dục; xây dựng cơ sở giáo dục thành trung tâm văn hóa, khoa\
56
+ \ học và công nghệ của địa phương hoặc của cả nước.\n4. Nhà nước có chính sách\
57
+ \ ưu tiên phát triển hoạt động khoa học và công nghệ trong cơ sở giáo dục. Các\
58
+ \ chủ trương, chính sách về giáo dục phải được xây dựng trên cơ sở kết quả nghiên\
59
+ \ cứu khoa học phù hợp với thực tiễn Việt Nam và xu hướng quốc tế."
60
+ - source_sentence: Em muốn biết thêm thông tin về chương trình hỗ trợ sinh viên nghiên
61
+ cứu khoa học
62
+ sentences:
63
+ - 'Tiêu đề: Quy định Về việc miễn, giảm học phí, hỗ trợ chi phí học tập, hỗ trợ
64
+ học tập cho sinh viên Đại học Bách khoa Hà Nội
65
+
66
+ Mục: Điều 6. Đối tượng được hỗ trợ học tập
67
+
68
+ Nội dung: Đối tượng được hỗ trợ học tập
69
+
70
+ 1. Đối tượng: Sinh viên là người dân tộc thiểu số rất ít người (Cống, Mảng, Pu
71
+ Péo, Si La, Cờ Lao, Bố Y, La Ha, Ngái, Chứt, Ơ Đu, Brâu, Rơ Măm, Lô Lô, Lự, Pà
72
+ Thẻn, La Hủ).
73
+
74
+ 2. Mức hỗ trợ: Bằng 100% mức lương cơ sở/người/tháng. Thời gian được hưởng hỗ
75
+ trợ 12 tháng/năm cho năm học có thời gian học đủ 9 tháng trở lên; trường hợp năm
76
+ học không đủ 9 tháng thì được hưởng theo thời gian học thực tế.'
77
+ - "Tiêu đề: Hướng dẫn Hồ sơ chế độ chính sách miễn giảm học phí, vay vốn ngân hàng\n\
78
+ Mục: B. Hỗ trợ chi phí học tập \nNội dung: 1. Đối tượng được nhận hỗ trợ chi phí\
79
+ \ học tập: Sinh viên là người dân tộc thiểu số thuộc hộ nghèo, hộ cận nghèo theo\
80
+ \ quy định của Nhà nước\n2. Mức hỗ trợ chi phí học tập: Bằng 60% mức lương cơ\
81
+ \ sở và được hưởng không quá 10 tháng/năm học/sinh viên."
82
+ - 'Tiêu đề: Sổ tay sinh viên 2022
83
+
84
+ Mục: NGHIÊN CỨU, SÁNG TẠO & KHỞI NGHIỆP
85
+
86
+ Nội dung: HỖ TRỢ SINH VIÊN NGHIÊN CỨU KHOA HỌC THƯỜNG NIÊN
87
+
88
+ Sinh viên theo đuổi những đề tài nghiên cứu dưới sự hướng dẫn của giảng viên giúp
89
+ sinh viên hình thành tư duy và phương pháp làm việc khoa học, thực hiện phương
90
+ châm “học đi đôi với hành” hướng tới “khởi nghiệp”.'
91
+ - source_sentence: Tên học phần hoặc môn học có được ghi trên phụ lục văn bằng không?
92
+ sentences:
93
+ - 'Tiêu đề: Thông tư quy định nội dung chính ghi trên văn bằng và phụ lục văn bằng
94
+ giáo dục đại học
95
+
96
+ Mục: Điều 3. Nội dung chính ghi trên phụ lục văn bằng
97
+
98
+ Nội dung: 1. Thông tin về người được cấp văn bằng: họ, chữ đệm, tên, ngày tháng
99
+ năm sinh.
100
+
101
+ 2. Thông tin về văn bằng: tên cơ sở giáo dục đại học cấp bằng, chuyên ngành đào
102
+ tạo, ngày nhập học, ngôn ngữ đào tạo, thời gian đào tạo, trình độ đào tạo theo
103
+ Khung trình độ quốc gia Việt Nam, hình thức đào tạo.
104
+
105
+ 3. Thông tin về nội dung, kết quả học tập (nếu có): tên học phần hoặc môn học,
106
+ số tín chỉ của từng học phần hoặc môn học, điểm học phần hoặc môn học, tổng số
107
+ tín chỉ tích lũy, điểm trung bình, tên và kết quả luận văn, luận án, điểm xếp
108
+ hạng tốt nghiệp. Trường hợp văn bằng được cấp khi các tín chỉ tích lũy ở những
109
+ cơ sở đào tạo khác nhau, cần ghi rõ tên môn học, số tín chỉ của từng môn học được
110
+ công nhận để xét tốt nghiệp và tên cơ sở đào tạo.
111
+
112
+ 4. Thông tin kết nối với văn bằng: mã số sinh viên, học viên, nghiên cứu sinh;
113
+ số hiệu văn bằng.'
114
+ - 'Tiêu đề: SĐH - Thạc sĩ - Miễn học phần
115
+
116
+ Mục: Muốn xin miễn học phần Triết học thì cần làm gì?
117
+
118
+ Nội dung: FAQ: Muốn xin miễn học phần Triết học thì cần làm gì?
119
+
120
+ Trả lời: Học viên cần có đơn xin miễn học phần Triết học kèm theo bằng tốt nghiệp
121
+ thạc sĩ công chứng và phụ lục văn bằng có công chứng.'
122
+ - 'Tiêu đề: SĐH - Thạc sĩ - Tốt nghiệp
123
+
124
+ Mục: Xếp loại thạc sĩ có thể hiện trên bằng tốt nghiệp không ?
125
+
126
+ Nội dung: FAQ: Xếp loại thạc sĩ có thể hiện trên bằng tốt nghiệp không ?
127
+
128
+ Trả lời: Xếp hạng tốt nghiệp thạc sĩ có được ghi trên bằng tốt nghiệp'
129
+ - source_sentence: Đơn vị trực thuộc có phải là một phần của cơ sở giáo dục đại học
130
+ không?
131
+ sentences:
132
+ - 'Tiêu đề: HUST General
133
+
134
+ Mục: Đại học Bách khoa Hà Nội trực thuộc tổ chức nào?
135
+
136
+ Nội dung: FAQ: Đại học Bách khoa Hà Nội trực thuộc tổ chức nào?
137
+
138
+ Trả lời: Đại học Bách khoa Hà Nội trực thuộc Bộ Giáo dục và Đào tạo và được xếp
139
+ vào nhóm các đại học trọng điểm quốc gia.'
140
+ - 'Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
141
+
142
+ Mục: Điều 4. Giải thích từ ngữ
143
+
144
+ Nội dung: Trường là đơn vị đào tạo thuộc cơ sở giáo dục đại học, do hội đồng trường,
145
+ hội đồng đại học quyết định việc thành lập theo quy định của Chính phủ, tổ chức
146
+ và hoạt động theo quy chế tổ chức và hoạt động của cơ sở giáo dục đại học.'
147
+ - 'Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018
148
+
149
+ Mục: Điều 4. Giải thích từ ngữ
150
+
151
+ Nội dung: Đơn vị trực thuộc là đơn vị có tư cách pháp nhân của cơ sở giáo dục
152
+ đại học, do hội đồng trường, hội đồng đại học quyết định thành lập; tổ chức và
153
+ hoạt động theo quy định của pháp luật, quy chế tổ chức và hoạt động của cơ sở
154
+ giáo dục đại học.'
155
+ - source_sentence: iCTSV giúp sinh viên rèn luyện những kỹ năng nào?
156
+ sentences:
157
+ - 'Tiêu đề: Sổ tay sinh viên 2022
158
+
159
+ Mục: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV
160
+
161
+ Nội dung: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV:
162
+
163
+ Là đơn vị trực thuộc Phòng Công tác Sinh viên, tổ được lập ra với nhiệm vụ hỗ
164
+ trợ triển khai hệ thống iCTSV trong công tác đánh giá kết quả rèn luyện của sinh
165
+ viên.
166
+
167
+ Mục tiêu hướng tới giúp sinh viên hoàn thiện quá trình rèn luyện tại trường với
168
+ “Kiến thức - Kỹ năng - Thái độ”'
169
+ - 'Tiêu đề: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay
170
+ vốn ngân hàng, giấy làm Thẻ xe buýt ...)
171
+
172
+ Mục: 1. Cách thức đăng ký:
173
+
174
+ Nội dung: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay
175
+ vốn ngân hàng, giấy làm Thẻ xe buýt ...)
176
+
177
+ Cách 1: Sinh viên đăng nhập vào hệ thống ctt.hust.edu.vn (tài khoản là địa chỉ
178
+ email của sinh viên, mật khẩu là mật khẩu của email), sau đó vào mục “DỊCH VỤ”
179
+ và chọn mục “THỦ TỤC HÀNH CHÍNH” để đăng ký cấp các loại giấy tờ cần thiết. Sau
180
+ khi đăng ký xong, hệ thống sẽ thông báo qua email (do Trường cấp) cho sinh viên
181
+ biết lịch nhận kết quả. Sinh viên đăng ký giấy tờ tại https://sv-ctt.hust.edu.vn/
182
+
183
+ Cách 2: Sinh viên cũng có thể đăng ký các loại giấy tờ trên bằng ứng dụng iCTSV (tải
184
+ App iCTSV trên Apple App Store hoặc Google Play Store).
185
+
186
+ Cách 3: Đăng ký trực tiếp tại Ban CTSV (Phòng 103 nhà C1). Việc đăng ký cấp giấy
187
+ tờ trực tiếp tại Phòng chỉ áp dụng giải quyết cho các loại giấy tờ không cung
188
+ cấp mẫu đăng ký trên hệ thống.'
189
+ - 'Tiêu đề: CTSV - ĐRL
190
+
191
+ Mục: Tham gia các hội thảo tuyển dụng có được tính điểm rèn luyện không ạ?
192
+
193
+ Nội dung: FAQ: Tham gia các hội thảo tuyển dụng có được tính điểm rèn luyện không
194
+ ạ?
195
+
196
+ Trả lời: Tham gia hoạt động ngoại khoá (hội thảo tuyển dụng, tham quan doanh nghiệp,...)
197
+ sẽ được tính điểm rèn luyện nếu có trong danh sách hoạt động ngoại khoá trên trang
198
+ web https://ctsv.hust.edu.vn/ hoặc app iCTSV và bạn cần phải nộp đầy đủ minh chứng
199
+ cho hoạt động đó.'
200
+ pipeline_tag: sentence-similarity
201
+ library_name: sentence-transformers
202
+ metrics:
203
+ - cosine_accuracy@1
204
+ - cosine_accuracy@3
205
+ - cosine_accuracy@5
206
+ - cosine_accuracy@10
207
+ - cosine_precision@1
208
+ - cosine_precision@3
209
+ - cosine_precision@5
210
+ - cosine_precision@10
211
+ - cosine_recall@1
212
+ - cosine_recall@3
213
+ - cosine_recall@5
214
+ - cosine_recall@10
215
+ - cosine_ndcg@10
216
+ - cosine_mrr@10
217
+ - cosine_map@100
218
+ model-index:
219
+ - name: SentenceTransformer based on hiieu/halong_embedding
220
+ results:
221
+ - task:
222
+ type: information-retrieval
223
+ name: Information Retrieval
224
+ dataset:
225
+ name: evaluation
226
+ type: evaluation
227
+ metrics:
228
+ - type: cosine_accuracy@1
229
+ value: 0.47330677290836654
230
+ name: Cosine Accuracy@1
231
+ - type: cosine_accuracy@3
232
+ value: 0.7059760956175298
233
+ name: Cosine Accuracy@3
234
+ - type: cosine_accuracy@5
235
+ value: 0.8055776892430279
236
+ name: Cosine Accuracy@5
237
+ - type: cosine_accuracy@10
238
+ value: 0.8948207171314742
239
+ name: Cosine Accuracy@10
240
+ - type: cosine_precision@1
241
+ value: 0.47330677290836654
242
+ name: Cosine Precision@1
243
+ - type: cosine_precision@3
244
+ value: 0.25737051792828686
245
+ name: Cosine Precision@3
246
+ - type: cosine_precision@5
247
+ value: 0.18231075697211158
248
+ name: Cosine Precision@5
249
+ - type: cosine_precision@10
250
+ value: 0.10382470119521914
251
+ name: Cosine Precision@10
252
+ - type: cosine_recall@1
253
+ value: 0.4265604249667994
254
+ name: Cosine Recall@1
255
+ - type: cosine_recall@3
256
+ value: 0.6717131474103586
257
+ name: Cosine Recall@3
258
+ - type: cosine_recall@5
259
+ value: 0.7806108897742363
260
+ name: Cosine Recall@5
261
+ - type: cosine_recall@10
262
+ value: 0.8825365205843293
263
+ name: Cosine Recall@10
264
+ - type: cosine_ndcg@10
265
+ value: 0.6721725457651161
266
+ name: Cosine Ndcg@10
267
+ - type: cosine_mrr@10
268
+ value: 0.6138265983684321
269
+ name: Cosine Mrr@10
270
+ - type: cosine_map@100
271
+ value: 0.6032263734717686
272
+ name: Cosine Map@100
273
+ ---
274
+
275
+ # SentenceTransformer based on hiieu/halong_embedding
276
+
277
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [hiieu/halong_embedding](https://huggingface.co/hiieu/halong_embedding). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
278
+
279
+ ## Model Details
280
+
281
+ ### Model Description
282
+ - **Model Type:** Sentence Transformer
283
+ - **Base model:** [hiieu/halong_embedding](https://huggingface.co/hiieu/halong_embedding) <!-- at revision b57776031035f70ed2030d2e35ecc533eb0f8f71 -->
284
+ - **Maximum Sequence Length:** 512 tokens
285
+ - **Output Dimensionality:** 768 dimensions
286
+ - **Similarity Function:** Cosine Similarity
287
+ <!-- - **Training Dataset:** Unknown -->
288
+ <!-- - **Language:** Unknown -->
289
+ <!-- - **License:** Unknown -->
290
+
291
+ ### Model Sources
292
+
293
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
294
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
295
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
296
+
297
+ ### Full Model Architecture
298
+
299
+ ```
300
+ SentenceTransformer(
301
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
302
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
303
+ (2): Normalize()
304
+ )
305
+ ```
306
+
307
+ ## Usage
308
+
309
+ ### Direct Usage (Sentence Transformers)
310
+
311
+ First install the Sentence Transformers library:
312
+
313
+ ```bash
314
+ pip install -U sentence-transformers
315
+ ```
316
+
317
+ Then you can load this model and run inference.
318
+ ```python
319
+ from sentence_transformers import SentenceTransformer
320
+
321
+ # Download from the 🤗 Hub
322
+ model = SentenceTransformer("MinhViet/halong_embedding_new")
323
+ # Run inference
324
+ sentences = [
325
+ 'iCTSV giúp sinh viên rèn luyện những kỹ năng nào?',
326
+ 'Tiêu đề: Sổ tay sinh viên 2022\nMục: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV\nNội dung: TỔ HỖ TRỢ TRIỂN KHAI HỆ THỐNG iCTSV:\nLà đơn vị trực thuộc Phòng Công tác Sinh viên, tổ được lập ra với nhiệm vụ hỗ trợ triển khai hệ thống iCTSV trong công tác đánh giá kết quả rèn luyện của sinh viên.\nMục tiêu hướng tới giúp sinh viên hoàn thiện quá trình rèn luyện tại trường với “Kiến thức - Kỹ năng - Thái độ”',
327
+ 'Tiêu đề: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nMục: 1. Cách thức đăng ký:\nNội dung: Cấp giấy tờ cho sinh viên (Giấy giới thiệu, giấy chứng nhận, giấy vay vốn ngân hàng, giấy làm Thẻ xe buýt ...)\nCách 1: Sinh viên đăng nhập vào hệ thống\xa0ctt.hust.edu.vn\xa0(tài khoản là địa chỉ email của sinh viên, mật khẩu là mật khẩu của email), sau đó vào mục “DỊCH VỤ” và chọn mục “THỦ TỤC HÀNH CHÍNH” để đăng ký cấp các loại giấy tờ cần thiết. Sau khi đăng ký xong, hệ thống sẽ thông báo qua email (do Trường cấp) cho sinh viên biết lịch nhận kết quả. Sinh viên đăng ký giấy tờ\xa0tại https://sv-ctt.hust.edu.vn/\nCách 2: Sinh viên cũng có thể đăng ký các loại giấy tờ trên bằng ứng dụng\xa0iCTSV\xa0(tải App iCTSV trên Apple App Store hoặc Google Play Store).\nCách 3:\xa0Đăng ký trực tiếp tại Ban CTSV (Phòng 103 nhà C1). Việc đăng ký cấp giấy tờ trực tiếp tại Phòng\xa0chỉ áp dụng giải quyết cho các loại giấy tờ không cung cấp mẫu đăng ký trên hệ thống.',
328
+ ]
329
+ embeddings = model.encode(sentences)
330
+ print(embeddings.shape)
331
+ # [3, 768]
332
+
333
+ # Get the similarity scores for the embeddings
334
+ similarities = model.similarity(embeddings, embeddings)
335
+ print(similarities.shape)
336
+ # [3, 3]
337
+ ```
338
+
339
+ <!--
340
+ ### Direct Usage (Transformers)
341
+
342
+ <details><summary>Click to see the direct usage in Transformers</summary>
343
+
344
+ </details>
345
+ -->
346
+
347
+ <!--
348
+ ### Downstream Usage (Sentence Transformers)
349
+
350
+ You can finetune this model on your own dataset.
351
+
352
+ <details><summary>Click to expand</summary>
353
+
354
+ </details>
355
+ -->
356
+
357
+ <!--
358
+ ### Out-of-Scope Use
359
+
360
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
361
+ -->
362
+
363
+ ## Evaluation
364
+
365
+ ### Metrics
366
+
367
+ #### Information Retrieval
368
+
369
+ * Dataset: `evaluation`
370
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
371
+
372
+ | Metric | Value |
373
+ |:--------------------|:-----------|
374
+ | cosine_accuracy@1 | 0.4733 |
375
+ | cosine_accuracy@3 | 0.706 |
376
+ | cosine_accuracy@5 | 0.8056 |
377
+ | cosine_accuracy@10 | 0.8948 |
378
+ | cosine_precision@1 | 0.4733 |
379
+ | cosine_precision@3 | 0.2574 |
380
+ | cosine_precision@5 | 0.1823 |
381
+ | cosine_precision@10 | 0.1038 |
382
+ | cosine_recall@1 | 0.4266 |
383
+ | cosine_recall@3 | 0.6717 |
384
+ | cosine_recall@5 | 0.7806 |
385
+ | cosine_recall@10 | 0.8825 |
386
+ | **cosine_ndcg@10** | **0.6722** |
387
+ | cosine_mrr@10 | 0.6138 |
388
+ | cosine_map@100 | 0.6032 |
389
+
390
+ <!--
391
+ ## Bias, Risks and Limitations
392
+
393
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
394
+ -->
395
+
396
+ <!--
397
+ ### Recommendations
398
+
399
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
400
+ -->
401
+
402
+ ## Training Details
403
+
404
+ ### Training Dataset
405
+
406
+ #### Unnamed Dataset
407
+
408
+ * Size: 11,799 training samples
409
+ * Columns: <code>question</code>, <code>context</code>, <code>negative_4</code>, and <code>negative_5</code>
410
+ * Approximate statistics based on the first 1000 samples:
411
+ | | question | context | negative_4 | negative_5 |
412
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
413
+ | type | string | string | string | string |
414
+ | details | <ul><li>min: 7 tokens</li><li>mean: 19.26 tokens</li><li>max: 41 tokens</li></ul> | <ul><li>min: 39 tokens</li><li>mean: 136.46 tokens</li><li>max: 365 tokens</li></ul> | <ul><li>min: 44 tokens</li><li>mean: 143.31 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 39 tokens</li><li>mean: 141.71 tokens</li><li>max: 512 tokens</li></ul> |
415
+ * Samples:
416
+ | question | context | negative_4 | negative_5 |
417
+ |:----------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
418
+ | <code>Nền giáo dục Việt Nam lấy chủ nghĩa gì làm nền tảng?</code> | <code>Tiêu đề: Luật giáo dục 2019 <br>Mục: Điều 3. Tính chất, nguyên lý giáo dục<br>Nội dung: Tính chất, nguyên lý giáo dục<br>1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.<br>2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.</code> | <code>Tiêu đề: Luật giáo dục 2019 <br>Mục: Điều 17. Đầu tư cho giáo dục<br>Nội dung: Đầu tư cho giáo dục<br>1. Đầu tư cho giáo dục là đầu tư phát triển. Đầu tư trong lĩnh vực giáo dục là hoạt động đầu tư thuộc ngành, nghề đầu tư kinh doanh có điều kiện và được ưu đãi, hỗ trợ đầu tư theo quy định của pháp luật.<br>2. Nhà nước ưu tiên đầu tư và thu hút các nguồn đầu tư khác cho giáo dục; ưu tiên đầu tư cho phổ cập giáo dục, phát triển giáo dục ở miền núi, hải đảo, vùng đồng bào dân tộc thiểu số, vùng có điều kiện kinh tế - xã hội đặc biệt khó khăn, địa bàn có khu công nghiệp.<br>Nhà nước khuyến khích và bảo hộ các quyền, lợi ích hợp pháp của tổ chức, cá nhân trong nước, người Việt Nam định cư ở nước ngoài, tổ chức, cá nhân nước ngoài đầu tư cho giáo dục.<br>3. Ngân sách nhà nước giữ vai trò chủ đạo trong tổng nguồn lực đầu tư cho giáo dục.</code> | <code>Tiêu đề: ĐẠI HỌC BÁCH KHOA HÀ NỘI - SỨ MẠNG, TẦM NHÌN VÀ GIÁ TRỊ CỐT LÕI<br>Mục: Giá trị cốt lõi<br>Nội dung: Giá trị cốt lõi của Đại học Bách khoa Hà Nội<br>Chất lượng - hiệu quả: Yếu tố cốt lõi làm nên thương hiệu Đại học Bách khoa Hà Nội là chất lượng xuất sắc gắn liền với hiệu quả tối ưu trong mọi hoạt động và trên mọi phương diện.<br>Tận tụy - cống hiến: Sự tận tụy và đam mê là chìa khóa cho mọi thành công; sự tận tâm và cống hiến hết mình làm nên giá trị cao quý nhất của các thế hệ cán bộ và sinh viên Trường Đại học Bách khoa Hà Nội.<br>Chính trực - tôn trọng: Sự chính trực trong chuyên môn, nghiệp vụ và lối sống, cùng với sự tôn trọng nhân phẩm, tôn trọng luật pháp và quy định, tôn trọng sự đa dạng và khác biệt là những chuẩn mực đạo đức cốt lõi trong môi trường đại học.<br>Tài năng cá nhân - trí tuệ tập thể: Mọi thành công đột phá đều bắt nguồn từ sáng tạo và tài năng cá nhân, nhưng chìa khóa đảm bảo thành công bền vững chính là sự đoàn kết và trí tuệ tập thể.<br>Kế thừa - sáng tạo: Động lực chính ...</code> |
419
+ | <code>Nguyên lý giáo dục là gì?</code> | <code>Tiêu đề: Luật giáo dục 2019 <br>Mục: Điều 3. Tính chất, nguyên lý giáo dục<br>Nội dung: Tính chất, nguyên lý giáo dục<br>1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.<br>2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.</code> | <code>Tiêu đề: Quy chế tổ chức và quản lý đào tạo<br>Mục: TỔ CHỨC ĐÀO TẠO TRÊN NỀN TẢNG SỐ - Điều 33. Một số thuật ngữ liên quan tới đào tạo trên nền tảng số<br>Nội dung: 4. Phương thức dạy-học hỗn hợp (thuật ngữ tiếng Anh là Blended Learning và sau đây gọi tắt là B-Learning) là một phương thức truyền tải nội dung kiến thức đến người học bằng sự kết hợp giữa dạy-học trực tiếp trên lớp và dạy-học trực tuyến. Mục tiêu của phương thức B-Learning là nâng cao chất lượng và hiệu quả học tập của người học nhờ sự linh hoạt và thuận tiện của phương thức giảng dạy trực tuyến, trong khi vẫn duy trì được những ưu điểm của giảng dạy truyền thống trên lớp học.</code> | <code>Tiêu đề: Luật giáo dục 2019 <br>Mục: Điều 5. Giải thích từ ngữ<br>Nội dung: Giáo dục bắt buộc là giáo dục mà mọi công dân trong độ tuổi quy định bắt buộc phải học tập để đạt được trình độ học vấn tối thiểu theo quy định của pháp luật và được Nhà nước bảo đảm điều kiện để thực hiện.</code> |
420
+ | <code>Giáo dục nhà trường kết hợp với những loại giáo dục nào?</code> | <code>Tiêu đề: Luật giáo dục 2019 <br>Mục: Điều 3. Tính chất, nguyên lý giáo dục<br>Nội dung: Tính chất, nguyên lý giáo dục<br>1. Nền giáo dục Việt Nam là nền giáo dục xã hội chủ nghĩa có tính nhân dân, dân tộc, khoa học, hiện đại, lấy chủ nghĩa Mác - Lê nin và tư tưởng Hồ Chí Minh làm nền tảng.<br>2. Hoạt động giáo dục được thực hiện theo nguyên lý học đi đôi với hành, lý luận gắn liền với thực tiễn, giáo dục nhà trường kết hợp với giáo dục gia đình và giáo dục xã hội.</code> | <code>Tiêu đề: Luật sửa đổi, bổ sung một số điều luật giáo dục đại học 2018<br>Mục: Điều 4. Giải thích từ ngữ<br>Nội dung: Cơ sở giáo dục đại học là cơ sở giáo dục thuộc hệ thống giáo dục quốc dân, thực hiện chức năng đào tạo các trình độ của giáo dục đại học, hoạt động khoa học và công nghệ, phục vụ cộng đồng.</code> | <code>Tiêu đề: Luật giáo dục 2019 <br>Mục: Điều 5. Giải thích từ ngữ<br>Nội dung: Giáo dục chính quy là giáo dục theo khóa học trong cơ sở giáo dục để thực hiện một chương trình giáo dục nhất định, được thiết lập theo mục tiêu của các cấp học, trình độ đào tạo và được cấp văn bằng của hệ thống giáo dục quốc dân.</code> |
421
+ * Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
422
+ ```json
423
+ {
424
+ "scale": 20.0,
425
+ "similarity_fct": "cos_sim",
426
+ "mini_batch_size": 32
427
+ }
428
+ ```
429
+
430
+ ### Training Hyperparameters
431
+ #### Non-Default Hyperparameters
432
+
433
+ - `eval_strategy`: steps
434
+ - `per_device_train_batch_size`: 1024
435
+ - `per_device_eval_batch_size`: 1024
436
+ - `weight_decay`: 0.0001
437
+ - `num_train_epochs`: 10
438
+ - `batch_sampler`: no_duplicates
439
+
440
+ #### All Hyperparameters
441
+ <details><summary>Click to expand</summary>
442
+
443
+ - `overwrite_output_dir`: False
444
+ - `do_predict`: False
445
+ - `eval_strategy`: steps
446
+ - `prediction_loss_only`: True
447
+ - `per_device_train_batch_size`: 1024
448
+ - `per_device_eval_batch_size`: 1024
449
+ - `per_gpu_train_batch_size`: None
450
+ - `per_gpu_eval_batch_size`: None
451
+ - `gradient_accumulation_steps`: 1
452
+ - `eval_accumulation_steps`: None
453
+ - `torch_empty_cache_steps`: None
454
+ - `learning_rate`: 5e-05
455
+ - `weight_decay`: 0.0001
456
+ - `adam_beta1`: 0.9
457
+ - `adam_beta2`: 0.999
458
+ - `adam_epsilon`: 1e-08
459
+ - `max_grad_norm`: 1.0
460
+ - `num_train_epochs`: 10
461
+ - `max_steps`: -1
462
+ - `lr_scheduler_type`: linear
463
+ - `lr_scheduler_kwargs`: {}
464
+ - `warmup_ratio`: 0.0
465
+ - `warmup_steps`: 0
466
+ - `log_level`: passive
467
+ - `log_level_replica`: warning
468
+ - `log_on_each_node`: True
469
+ - `logging_nan_inf_filter`: True
470
+ - `save_safetensors`: True
471
+ - `save_on_each_node`: False
472
+ - `save_only_model`: False
473
+ - `restore_callback_states_from_checkpoint`: False
474
+ - `no_cuda`: False
475
+ - `use_cpu`: False
476
+ - `use_mps_device`: False
477
+ - `seed`: 42
478
+ - `data_seed`: None
479
+ - `jit_mode_eval`: False
480
+ - `use_ipex`: False
481
+ - `bf16`: False
482
+ - `fp16`: False
483
+ - `fp16_opt_level`: O1
484
+ - `half_precision_backend`: auto
485
+ - `bf16_full_eval`: False
486
+ - `fp16_full_eval`: False
487
+ - `tf32`: None
488
+ - `local_rank`: 0
489
+ - `ddp_backend`: None
490
+ - `tpu_num_cores`: None
491
+ - `tpu_metrics_debug`: False
492
+ - `debug`: []
493
+ - `dataloader_drop_last`: False
494
+ - `dataloader_num_workers`: 0
495
+ - `dataloader_prefetch_factor`: None
496
+ - `past_index`: -1
497
+ - `disable_tqdm`: False
498
+ - `remove_unused_columns`: True
499
+ - `label_names`: None
500
+ - `load_best_model_at_end`: False
501
+ - `ignore_data_skip`: False
502
+ - `fsdp`: []
503
+ - `fsdp_min_num_params`: 0
504
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
505
+ - `tp_size`: 0
506
+ - `fsdp_transformer_layer_cls_to_wrap`: None
507
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
508
+ - `deepspeed`: None
509
+ - `label_smoothing_factor`: 0.0
510
+ - `optim`: adamw_torch
511
+ - `optim_args`: None
512
+ - `adafactor`: False
513
+ - `group_by_length`: False
514
+ - `length_column_name`: length
515
+ - `ddp_find_unused_parameters`: None
516
+ - `ddp_bucket_cap_mb`: None
517
+ - `ddp_broadcast_buffers`: False
518
+ - `dataloader_pin_memory`: True
519
+ - `dataloader_persistent_workers`: False
520
+ - `skip_memory_metrics`: True
521
+ - `use_legacy_prediction_loop`: False
522
+ - `push_to_hub`: False
523
+ - `resume_from_checkpoint`: None
524
+ - `hub_model_id`: None
525
+ - `hub_strategy`: every_save
526
+ - `hub_private_repo`: None
527
+ - `hub_always_push`: False
528
+ - `gradient_checkpointing`: False
529
+ - `gradient_checkpointing_kwargs`: None
530
+ - `include_inputs_for_metrics`: False
531
+ - `include_for_metrics`: []
532
+ - `eval_do_concat_batches`: True
533
+ - `fp16_backend`: auto
534
+ - `push_to_hub_model_id`: None
535
+ - `push_to_hub_organization`: None
536
+ - `mp_parameters`:
537
+ - `auto_find_batch_size`: False
538
+ - `full_determinism`: False
539
+ - `torchdynamo`: None
540
+ - `ray_scope`: last
541
+ - `ddp_timeout`: 1800
542
+ - `torch_compile`: False
543
+ - `torch_compile_backend`: None
544
+ - `torch_compile_mode`: None
545
+ - `include_tokens_per_second`: False
546
+ - `include_num_input_tokens_seen`: False
547
+ - `neftune_noise_alpha`: None
548
+ - `optim_target_modules`: None
549
+ - `batch_eval_metrics`: False
550
+ - `eval_on_start`: False
551
+ - `use_liger_kernel`: False
552
+ - `eval_use_gather_object`: False
553
+ - `average_tokens_across_devices`: False
554
+ - `prompts`: None
555
+ - `batch_sampler`: no_duplicates
556
+ - `multi_dataset_batch_sampler`: proportional
557
+
558
+ </details>
559
+
560
+ ### Training Logs
561
+ | Epoch | Step | Training Loss | evaluation_cosine_ndcg@10 |
562
+ |:------:|:----:|:-------------:|:-------------------------:|
563
+ | 0.3333 | 4 | 1.3311 | 0.6303 |
564
+ | 0.6667 | 8 | 0.9396 | 0.6429 |
565
+ | 1.0 | 12 | 0.9472 | 0.6502 |
566
+ | 1.3333 | 16 | 0.7951 | 0.6615 |
567
+ | 1.6667 | 20 | 0.7683 | 0.6708 |
568
+ | 2.0 | 24 | 0.7156 | 0.6683 |
569
+ | 2.3333 | 28 | 0.6307 | 0.6699 |
570
+ | 2.6667 | 32 | 0.6348 | 0.6719 |
571
+ | 3.0 | 36 | 0.6313 | 0.6686 |
572
+ | 3.3333 | 40 | 0.5766 | 0.6656 |
573
+ | 3.6667 | 44 | 0.5821 | 0.6704 |
574
+ | 4.0 | 48 | 0.5668 | 0.6731 |
575
+ | 4.3333 | 52 | 0.5384 | 0.6719 |
576
+ | 4.6667 | 56 | 0.5257 | 0.6739 |
577
+ | 5.0 | 60 | 0.492 | 0.6722 |
578
+ | 5.3333 | 64 | 0.4997 | 0.6652 |
579
+ | 5.6667 | 68 | 0.5011 | 0.6654 |
580
+ | 6.0 | 72 | 0.4601 | 0.6660 |
581
+ | 6.3333 | 76 | 0.4519 | 0.6670 |
582
+ | 6.6667 | 80 | 0.4516 | 0.6685 |
583
+ | 7.0 | 84 | 0.4766 | 0.6704 |
584
+ | 7.3333 | 88 | 0.4459 | 0.6726 |
585
+ | 7.6667 | 92 | 0.4109 | 0.6706 |
586
+ | 8.0 | 96 | 0.4239 | 0.6708 |
587
+ | 8.3333 | 100 | 0.403 | 0.6718 |
588
+ | 8.6667 | 104 | 0.4148 | 0.6713 |
589
+ | 9.0 | 108 | 0.4235 | 0.6714 |
590
+ | 9.3333 | 112 | 0.4505 | 0.6714 |
591
+ | 9.6667 | 116 | 0.4258 | 0.6723 |
592
+ | 10.0 | 120 | 0.4007 | 0.6722 |
593
+
594
+
595
+ ### Framework Versions
596
+ - Python: 3.11.11
597
+ - Sentence Transformers: 4.1.0
598
+ - Transformers: 4.51.3
599
+ - PyTorch: 2.5.1+cu124
600
+ - Accelerate: 1.3.0
601
+ - Datasets: 3.6.0
602
+ - Tokenizers: 0.21.0
603
+
604
+ ## Citation
605
+
606
+ ### BibTeX
607
+
608
+ #### Sentence Transformers
609
+ ```bibtex
610
+ @inproceedings{reimers-2019-sentence-bert,
611
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
612
+ author = "Reimers, Nils and Gurevych, Iryna",
613
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
614
+ month = "11",
615
+ year = "2019",
616
+ publisher = "Association for Computational Linguistics",
617
+ url = "https://arxiv.org/abs/1908.10084",
618
+ }
619
+ ```
620
+
621
+ #### CachedMultipleNegativesRankingLoss
622
+ ```bibtex
623
+ @misc{gao2021scaling,
624
+ title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
625
+ author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
626
+ year={2021},
627
+ eprint={2101.06983},
628
+ archivePrefix={arXiv},
629
+ primaryClass={cs.LG}
630
+ }
631
+ ```
632
+
633
+ <!--
634
+ ## Glossary
635
+
636
+ *Clearly define terms in order to be accessible across audiences.*
637
+ -->
638
+
639
+ <!--
640
+ ## Model Card Authors
641
+
642
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
643
+ -->
644
+
645
+ <!--
646
+ ## Model Card Contact
647
+
648
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
649
+ -->
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "xlm-roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "output_past": true,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.51.3",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 250002
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e7c21728fae45cc443327d1a97b3bc4b0c5594dcb3502e3b6aa7d06c0e308bf
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "max_length": 512,
51
+ "model_max_length": 512,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizerFast",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }