htNghiaaa commited on
Commit
b9cc1a4
·
verified ·
1 Parent(s): 1379a55

Upload BGE Reranker Fold 1/5 - Val F1: 0.7948, CV Mean: 0.7997

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,305 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - cross-encoder
5
+ - reranker
6
+ - generated_from_trainer
7
+ - dataset_size:5758
8
+ - loss:CrossEntropyLoss
9
+ base_model: BAAI/bge-reranker-v2-m3
10
+ pipeline_tag: text-classification
11
+ library_name: sentence-transformers
12
+ ---
13
+
14
+ # CrossEncoder based on BAAI/bge-reranker-v2-m3
15
+
16
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text pair classification.
17
+
18
+ ## Model Details
19
+
20
+ ### Model Description
21
+ - **Model Type:** Cross Encoder
22
+ - **Base model:** [BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3) <!-- at revision 953dc6f6f85a1b2dbfca4c34a2796e7dde08d41e -->
23
+ - **Maximum Sequence Length:** 8192 tokens
24
+ - **Number of Output Labels:** 3 labels
25
+ <!-- - **Training Dataset:** Unknown -->
26
+ <!-- - **Language:** Unknown -->
27
+ <!-- - **License:** Unknown -->
28
+
29
+ ### Model Sources
30
+
31
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
32
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
33
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
34
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
35
+
36
+ ## Usage
37
+
38
+ ### Direct Usage (Sentence Transformers)
39
+
40
+ First install the Sentence Transformers library:
41
+
42
+ ```bash
43
+ pip install -U sentence-transformers
44
+ ```
45
+
46
+ Then you can load this model and run inference.
47
+ ```python
48
+ from sentence_transformers import CrossEncoder
49
+
50
+ # Download from the 🤗 Hub
51
+ model = CrossEncoder("cross_encoder_model_id")
52
+ # Get scores for pairs of texts
53
+ pairs = [
54
+ ['[PROMPT]\nTại sao Bach lại thích đàn clavichord hơn so với dương cầm, mặc dù dương cầm đã được phát minh từ thế kỷ 15 và rất phổ biến vào thời của ông?\n[CONTEXT]\nNăm 1709, người thợ chế tạo harpsichord người Ý Bartolomeo Cristofori chế tạo chiếc dương cầm đầu tiên trên thế giới gọi là piano et forte (nhẹ và mạnh). Không lâu sau, những người thợ khác tạo ra những chiếc pianoforte với búa. Tiếp đó, pianoforte thay thế harpsichord và clavichord bởi nó có những ưu điểm mà các nhạc cụ phím khác không có. Fortepiano là một nhạc cụ dây-búa có khả năng tạo ra những sự thay đổi âm thanh nhỏ thông qua sự bấm phím mạnh hay nhẹ của người chơi. Đến khoảng năm 1850, từ "fortepiano" được thay thế bởi từ "piano". Vào những năm đầu thế kỉ 18, dương cầm không mấy thu hút được sự chú ý và ủng hộ. J.S. Bach có lẽ thích clavichord, nhạc cụ mà ông đã quen chơi và cũng là nhạc cụ chơi dễ hơn.', '[RESPONSE]\nBach thích clavichord hơn vì âm thanh mềm mại và sự kiểm soát biểu cảm cao hơn, điều này phù hợp với phong cách âm nhạc của ông. Ngoài ra, clavichord cũng ít gây phiền nhiễu trong không gian nhà nhỏ hơn so với piano.'],
55
+ ['[PROMPT]\nSau thất bại thương mại của Off the Wall (1979), phong cách âm nhạc của Michael Jackson có chuyển biến gì nổi bật?\n[CONTEXT]\nOff the Wall (1979), một thành quả hợp tác giữa Jackson và Jones, đã giúp định hình một Jackson từ xu hướng âm nhạc bubblegum pop thuở nhỏ sang âm nhạc chững chạc, trưởng thành, phù hợp với thị hiếu của nhiều thành phần lứa tuổi hơn. Ngoài Jackson, các nhạc sĩ khác xuất hiện trong album bao gồm Rod Temperton, Stevie Wonder và Paul McCartney. Album đạt thành công trên toàn thế giới và lập kỷ lục trở thành album đầu tiên ra mắt 4 đĩa đơn nằm trong top 10 tại Hoa Kỳ, trong đó có đĩa đơn quán quân "Don\'t Stop \'Til You Get Enough" và "Rock With You". Album này vươn tới vị trí thứ 3 trên bảng xếp hạng album Billboard 200 và hiện đã tiêu thụ hơn 20 triệu bản trên thế giới.', '[RESPONSE]\nMichael Jackson đã chuyển từ bubblegum pop sang âm nhạc funk và disco, phối hợp với Quincy Jones để tạo ra một âm thanh độc đáo. Sau thành công của "Off the Wall", Jackson đã trở thành nghệ sĩ solo có sức ảnh hưởng lớn trong làng nhạc quốc tế.'],
56
+ ['[PROMPT]\nSố lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số bao nhiêu?\n[CONTEXT]\nMột điều rất đặc biệt là binh sĩ Nam Triều Tiên lại trở thành nạn nhân bị ngược đãi của chính quân đội này. Trong tháng 12 năm 1950, Ủy ban Quốc phòng của Nam Triều Tiên được thành lập, quản lý 406.000 binh lính Nam Triều Tiên. Vào mùa đông năm 1951, 50.000 tới 90.000 binh lính Nam Triều Tiên đã bị bỏ đói đến chết trong khi hành quân về phía nam dưới sự tấn công của Trung Quốc, bởi các sĩ quan chỉ huy của Nam Triều Tiên đã tham ô ngân quỹ dành cho thực phẩm của binh sĩ. Sự kiện này được gọi là Khủng hoảng tại Ủy ban Quốc phòng.[cần dẫn nguồn]', '[RESPONSE]\nSố lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số 90.000.'],
57
+ ['[PROMPT]\nTên của đế quốc này có ý nghĩa đặc biệt là nó được đặt theo tên của một vị hoàng đế nổi tiếng người La Mã, Julius Caesar, đúng không?\n[CONTEXT]\nĐế quốc La Mã Thần Thánh (tiếng Latinh: Sacrum Romanum Imperium; tiếng Đức: Heiliges Römisches Reich; tiếng Ý: Sacro Romano Impero; tiếng Anh: Holy Roman Empire)[b] còn được gọi là Thánh chế La Mã, là một phức hợp lãnh thổ rộng lớn đa sắc tộc, mà chủ yếu là người Đức, tồn tại từ cuối thời sơ kỳ Trung cổ cho đến năm 1806. Tên của đế quốc bắt nguồn từ yêu sách của các Hoàng đế La Mã Đức vào thời Trung cổ, muốn tiếp tục truyền thống của đế chế La Mã cổ và hợp pháp hóa quyền cai trị như là thánh ý của Thiên Chúa. Lãnh thổ chủ yếu của Đế quốc gồm Vương quốc Đức, Vương quốc Bohemia, Vương quốc Burgundy, Vương quốc Ý và nhiều lãnh thổ, công quốc, thành phố đế quốc tự do lớn nhỏ khác.', '[RESPONSE]\nTên của Đế quốc La Mã Thần Thánh thực chất bắt nguồn từ một truyền thuyết về Julius Caesar, người được cho là đã thành lập đế chế này để bảo vệ nền văn minh La Mã khỏi sự sụp đổ hoàn toàn.'],
58
+ ['[PROMPT]\nChiến tranh Ba mươi năm, diễn ra từ 1618 đến 1648, chủ yếu là một cuộc chiến tranh giữa các quốc gia châu Âu nhằm giành quyền kiểm soát thương mại toàn cầu, phải không?\n[CONTEXT]\nMột loạt trận chiến trong giai đoạn 1618-1648, mà các sử gia gọi là Chiến tranh Ba mươi Năm, diễn ra trên những lãnh thổ của người Đức. Khởi đầu, cuộc chiến chủ yếu dựa trên xung đột tôn giáo giữa các phe nhóm Công giáo và Tin Lành trong Phong trào Cải cách. Dần dà, cuộc chiến lan rộng giữa một bên là những hoàng thân người Đức và bên kia chủ yếu là Thụy Điển và Pháp muốn hạn chế quyền lực của Đế quốc La Mã thần Thánh. Chiến tranh Ba mươi năm là một trong những cuộc chiến gây tàn phá nặng nề nhất trong lịch sử châu Âu. Đây cũng là cuộc chiến tôn giáo cuối cùng ở châu Âu khiến cho Đế quốc bị tàn phá nặng nề, nhiều thành thị và vùng nông thôn bị san bằng, dân số suy giảm. Ước lượng có một phần ba người Đức bỏ mạng trong cuộc chiến tàn bạo này.', '[RESPONSE]\nChiến tranh Ba mươi năm diễn ra từ 1618 đến 1648 chủ yếu là một cuộc xung đột tôn giáo giữa các phe Công giáo và Tin Lành, không phải là cuộc chiến tranh thương mại toàn cầu.'],
59
+ ]
60
+ scores = model.predict(pairs)
61
+ print(scores.shape)
62
+ # (5, 3)
63
+ ```
64
+
65
+ <!--
66
+ ### Direct Usage (Transformers)
67
+
68
+ <details><summary>Click to see the direct usage in Transformers</summary>
69
+
70
+ </details>
71
+ -->
72
+
73
+ <!--
74
+ ### Downstream Usage (Sentence Transformers)
75
+
76
+ You can finetune this model on your own dataset.
77
+
78
+ <details><summary>Click to expand</summary>
79
+
80
+ </details>
81
+ -->
82
+
83
+ <!--
84
+ ### Out-of-Scope Use
85
+
86
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
87
+ -->
88
+
89
+ <!--
90
+ ## Bias, Risks and Limitations
91
+
92
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
93
+ -->
94
+
95
+ <!--
96
+ ### Recommendations
97
+
98
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
99
+ -->
100
+
101
+ ## Training Details
102
+
103
+ ### Training Dataset
104
+
105
+ #### Unnamed Dataset
106
+
107
+ * Size: 5,758 training samples
108
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
109
+ * Approximate statistics based on the first 1000 samples:
110
+ | | sentence_0 | sentence_1 | label |
111
+ |:--------|:---------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------|
112
+ | type | string | string | int |
113
+ | details | <ul><li>min: 554 characters</li><li>mean: 982.23 characters</li><li>max: 3726 characters</li></ul> | <ul><li>min: 47 characters</li><li>mean: 192.01 characters</li><li>max: 304 characters</li></ul> | <ul><li>0: ~31.70%</li><li>1: ~36.50%</li><li>2: ~31.80%</li></ul> |
114
+ * Samples:
115
+ | sentence_0 | sentence_1 | label |
116
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
117
+ | <code>[PROMPT]<br>Tại sao Bach lại thích đàn clavichord hơn so với dương cầm, mặc dù dương cầm đã được phát minh từ thế kỷ 15 và rất phổ biến vào thời của ông?<br>[CONTEXT]<br>Năm 1709, người thợ chế tạo harpsichord người Ý Bartolomeo Cristofori chế tạo chiếc dương cầm đầu tiên trên thế giới gọi là piano et forte (nhẹ và mạnh). Không lâu sau, những người thợ khác tạo ra những chiếc pianoforte với búa. Tiếp đó, pianoforte thay thế harpsichord và clavichord bởi nó có những ưu điểm mà các nhạc cụ phím khác không có. Fortepiano là một nhạc cụ dây-búa có khả năng tạo ra những sự thay đổi âm thanh nhỏ thông qua sự bấm phím mạnh hay nhẹ của người chơi. Đến khoảng năm 1850, từ "fortepiano" được thay thế bởi từ "piano". Vào những năm đầu thế kỉ 18, dương cầm không mấy thu hút được sự chú ý và ủng hộ. J.S. Bach có lẽ thích clavichord, nhạc cụ mà ông đã quen chơi và cũng là nhạc cụ chơi dễ hơn.</code> | <code>[RESPONSE]<br>Bach thích clavichord hơn vì âm thanh mềm mại và sự kiểm soát biểu cảm cao hơn, điều này phù hợp với phong cách âm nhạc của ông. Ngoài ra, clavichord cũng ít gây phiền nhiễu trong không gian nhà nhỏ hơn so với piano.</code> | <code>1</code> |
118
+ | <code>[PROMPT]<br>Sau thất bại thương mại của Off the Wall (1979), phong cách âm nhạc của Michael Jackson có chuyển biến gì nổi bật?<br>[CONTEXT]<br>Off the Wall (1979), một thành quả hợp tác giữa Jackson và Jones, đã giúp định hình một Jackson từ xu hướng âm nhạc bubblegum pop thuở nhỏ sang âm nhạc chững chạc, trưởng thành, phù hợp với thị hiếu của nhiều thành phần lứa tuổi hơn. Ngoài Jackson, các nhạc sĩ khác xuất hiện trong album bao gồm Rod Temperton, Stevie Wonder và Paul McCartney. Album đạt thành công trên toàn thế gi���i và lập kỷ lục trở thành album đầu tiên ra mắt 4 đĩa đơn nằm trong top 10 tại Hoa Kỳ, trong đó có đĩa đơn quán quân "Don't Stop 'Til You Get Enough" và "Rock With You". Album này vươn tới vị trí thứ 3 trên bảng xếp hạng album Billboard 200 và hiện đã tiêu thụ hơn 20 triệu bản trên thế giới.</code> | <code>[RESPONSE]<br>Michael Jackson đã chuyển từ bubblegum pop sang âm nhạc funk và disco, phối hợp với Quincy Jones để tạo ra một âm thanh độc đáo. Sau thành công của "Off the Wall", Jackson đã trở thành nghệ sĩ solo có sức ảnh hưởng lớn trong làng nhạc quốc tế.</code> | <code>2</code> |
119
+ | <code>[PROMPT]<br>Số lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số bao nhiêu?<br>[CONTEXT]<br>Một điều rất đặc biệt là binh sĩ Nam Triều Tiên lại trở thành nạn nhân bị ngược đãi của chính quân đội này. Trong tháng 12 năm 1950, Ủy ban Quốc phòng của Nam Triều Tiên được thành lập, quản lý 406.000 binh lính Nam Triều Tiên. Vào mùa đông năm 1951, 50.000 tới 90.000 binh lính Nam Triều Tiên đã bị bỏ đói đến chết trong khi hành quân về phía nam dưới sự tấn công của Trung Quốc, bởi các sĩ quan chỉ huy của Nam Triều Tiên đã tham ô ngân quỹ dành cho thực phẩm của binh sĩ. Sự kiện này được gọi là Khủng hoảng tại Ủy ban Quốc phòng.[cần dẫn nguồn]</code> | <code>[RESPONSE]<br>Số lượng quân lính Nam Triều Tiên bị chết đói trong lúc di chuyển có thể lên đến con số 90.000.</code> | <code>0</code> |
120
+ * Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
121
+
122
+ ### Training Hyperparameters
123
+ #### Non-Default Hyperparameters
124
+
125
+ - `per_device_train_batch_size`: 4
126
+ - `per_device_eval_batch_size`: 4
127
+ - `num_train_epochs`: 1
128
+ - `fp16`: True
129
+
130
+ #### All Hyperparameters
131
+ <details><summary>Click to expand</summary>
132
+
133
+ - `overwrite_output_dir`: False
134
+ - `do_predict`: False
135
+ - `eval_strategy`: no
136
+ - `prediction_loss_only`: True
137
+ - `per_device_train_batch_size`: 4
138
+ - `per_device_eval_batch_size`: 4
139
+ - `per_gpu_train_batch_size`: None
140
+ - `per_gpu_eval_batch_size`: None
141
+ - `gradient_accumulation_steps`: 1
142
+ - `eval_accumulation_steps`: None
143
+ - `torch_empty_cache_steps`: None
144
+ - `learning_rate`: 5e-05
145
+ - `weight_decay`: 0.0
146
+ - `adam_beta1`: 0.9
147
+ - `adam_beta2`: 0.999
148
+ - `adam_epsilon`: 1e-08
149
+ - `max_grad_norm`: 1
150
+ - `num_train_epochs`: 1
151
+ - `max_steps`: -1
152
+ - `lr_scheduler_type`: linear
153
+ - `lr_scheduler_kwargs`: {}
154
+ - `warmup_ratio`: 0.0
155
+ - `warmup_steps`: 0
156
+ - `log_level`: passive
157
+ - `log_level_replica`: warning
158
+ - `log_on_each_node`: True
159
+ - `logging_nan_inf_filter`: True
160
+ - `save_safetensors`: True
161
+ - `save_on_each_node`: False
162
+ - `save_only_model`: False
163
+ - `restore_callback_states_from_checkpoint`: False
164
+ - `no_cuda`: False
165
+ - `use_cpu`: False
166
+ - `use_mps_device`: False
167
+ - `seed`: 42
168
+ - `data_seed`: None
169
+ - `jit_mode_eval`: False
170
+ - `use_ipex`: False
171
+ - `bf16`: False
172
+ - `fp16`: True
173
+ - `fp16_opt_level`: O1
174
+ - `half_precision_backend`: auto
175
+ - `bf16_full_eval`: False
176
+ - `fp16_full_eval`: False
177
+ - `tf32`: None
178
+ - `local_rank`: 0
179
+ - `ddp_backend`: None
180
+ - `tpu_num_cores`: None
181
+ - `tpu_metrics_debug`: False
182
+ - `debug`: []
183
+ - `dataloader_drop_last`: False
184
+ - `dataloader_num_workers`: 0
185
+ - `dataloader_prefetch_factor`: None
186
+ - `past_index`: -1
187
+ - `disable_tqdm`: False
188
+ - `remove_unused_columns`: True
189
+ - `label_names`: None
190
+ - `load_best_model_at_end`: False
191
+ - `ignore_data_skip`: False
192
+ - `fsdp`: []
193
+ - `fsdp_min_num_params`: 0
194
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
195
+ - `fsdp_transformer_layer_cls_to_wrap`: None
196
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
197
+ - `parallelism_config`: None
198
+ - `deepspeed`: None
199
+ - `label_smoothing_factor`: 0.0
200
+ - `optim`: adamw_torch_fused
201
+ - `optim_args`: None
202
+ - `adafactor`: False
203
+ - `group_by_length`: False
204
+ - `length_column_name`: length
205
+ - `ddp_find_unused_parameters`: None
206
+ - `ddp_bucket_cap_mb`: None
207
+ - `ddp_broadcast_buffers`: False
208
+ - `dataloader_pin_memory`: True
209
+ - `dataloader_persistent_workers`: False
210
+ - `skip_memory_metrics`: True
211
+ - `use_legacy_prediction_loop`: False
212
+ - `push_to_hub`: False
213
+ - `resume_from_checkpoint`: None
214
+ - `hub_model_id`: None
215
+ - `hub_strategy`: every_save
216
+ - `hub_private_repo`: None
217
+ - `hub_always_push`: False
218
+ - `hub_revision`: None
219
+ - `gradient_checkpointing`: False
220
+ - `gradient_checkpointing_kwargs`: None
221
+ - `include_inputs_for_metrics`: False
222
+ - `include_for_metrics`: []
223
+ - `eval_do_concat_batches`: True
224
+ - `fp16_backend`: auto
225
+ - `push_to_hub_model_id`: None
226
+ - `push_to_hub_organization`: None
227
+ - `mp_parameters`:
228
+ - `auto_find_batch_size`: False
229
+ - `full_determinism`: False
230
+ - `torchdynamo`: None
231
+ - `ray_scope`: last
232
+ - `ddp_timeout`: 1800
233
+ - `torch_compile`: False
234
+ - `torch_compile_backend`: None
235
+ - `torch_compile_mode`: None
236
+ - `include_tokens_per_second`: False
237
+ - `include_num_input_tokens_seen`: False
238
+ - `neftune_noise_alpha`: None
239
+ - `optim_target_modules`: None
240
+ - `batch_eval_metrics`: False
241
+ - `eval_on_start`: False
242
+ - `use_liger_kernel`: False
243
+ - `liger_kernel_config`: None
244
+ - `eval_use_gather_object`: False
245
+ - `average_tokens_across_devices`: False
246
+ - `prompts`: None
247
+ - `batch_sampler`: batch_sampler
248
+ - `multi_dataset_batch_sampler`: proportional
249
+ - `router_mapping`: {}
250
+ - `learning_rate_mapping`: {}
251
+
252
+ </details>
253
+
254
+ ### Training Logs
255
+ | Epoch | Step | Training Loss |
256
+ |:------:|:----:|:-------------:|
257
+ | 0.3472 | 500 | 1.0385 |
258
+ | 0.6944 | 1000 | 0.7521 |
259
+ | 0.3472 | 500 | 0.7444 |
260
+ | 0.6944 | 1000 | 0.7389 |
261
+
262
+
263
+ ### Framework Versions
264
+ - Python: 3.12.11
265
+ - Sentence Transformers: 5.1.1
266
+ - Transformers: 4.56.2
267
+ - PyTorch: 2.8.0+cu128
268
+ - Accelerate: 1.10.1
269
+ - Datasets: 4.1.1
270
+ - Tokenizers: 0.22.1
271
+
272
+ ## Citation
273
+
274
+ ### BibTeX
275
+
276
+ #### Sentence Transformers
277
+ ```bibtex
278
+ @inproceedings{reimers-2019-sentence-bert,
279
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
280
+ author = "Reimers, Nils and Gurevych, Iryna",
281
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
282
+ month = "11",
283
+ year = "2019",
284
+ publisher = "Association for Computational Linguistics",
285
+ url = "https://arxiv.org/abs/1908.10084",
286
+ }
287
+ ```
288
+
289
+ <!--
290
+ ## Glossary
291
+
292
+ *Clearly define terms in order to be accessible across audiences.*
293
+ -->
294
+
295
+ <!--
296
+ ## Model Card Authors
297
+
298
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
299
+ -->
300
+
301
+ <!--
302
+ ## Model Card Contact
303
+
304
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
305
+ -->
config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "XLMRobertaForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "id2label": {
14
+ "0": "LABEL_0",
15
+ "1": "LABEL_1",
16
+ "2": "LABEL_2"
17
+ },
18
+ "initializer_range": 0.02,
19
+ "intermediate_size": 4096,
20
+ "label2id": {
21
+ "LABEL_0": 0,
22
+ "LABEL_1": 1,
23
+ "LABEL_2": 2
24
+ },
25
+ "layer_norm_eps": 1e-05,
26
+ "max_position_embeddings": 8194,
27
+ "model_type": "xlm-roberta",
28
+ "num_attention_heads": 16,
29
+ "num_hidden_layers": 24,
30
+ "output_past": true,
31
+ "pad_token_id": 1,
32
+ "position_embedding_type": "absolute",
33
+ "sentence_transformers": {
34
+ "activation_fn": "torch.nn.modules.linear.Identity",
35
+ "version": "5.1.1"
36
+ },
37
+ "transformers_version": "4.56.2",
38
+ "type_vocab_size": 1,
39
+ "use_cache": true,
40
+ "vocab_size": 250002
41
+ }
fold_info.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "fold": 1,
3
+ "total_folds": 5,
4
+ "validation_f1": 0.7948435671290092,
5
+ "cv_mean_f1": 0.7997374491276189,
6
+ "cv_std_f1": 0.00808699328607397
7
+ }
id2label.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "0": "no",
3
+ "1": "intrinsic",
4
+ "2": "extrinsic"
5
+ }
label2id.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "no": 0,
3
+ "intrinsic": 1,
4
+ "extrinsic": 2
5
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0168da080d70776393588c1a8c994bac6f25175e5df4c021deccd350c6bcca2e
3
+ size 2271080052
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:222975faa02f5257c6e8c734e85973e48c8d42d7d37d90b894c73efa1841d76a
3
+ size 17083154
tokenizer_config.json ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 8192,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "sp_model_kwargs": {},
54
+ "tokenizer_class": "XLMRobertaTokenizer",
55
+ "unk_token": "<unk>"
56
+ }