dilovancelik commited on
Commit
4bf554e
·
verified ·
1 Parent(s): e652744

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,470 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:48914
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-base
10
+ widget:
11
+ - source_sentence: Glæde
12
+ sentences:
13
+ - Den 4. maj fejrer vi glæden, håbet og friheden.
14
+ - – fordi vi ville – og fordi der var en begyndende efterspørgsel – og den efterspørgsel
15
+ hænger selvfølgelig sammen med, at det er blevet økonomisk muligt for flere og
16
+ flere at købe en elbil. Ladestanderen bliver brugt dagligt, og jeg gætter på,
17
+ at vi om få år vælger at opsætte nogle flere til glæde for lærere og elever på
18
+ BG og andre der benytter vores parkeringsplads.
19
+ - Forening viser tydeligt, hvor hildede vi har været i Synet paa det politiske Arbejde.
20
+ Upartipolitisk! Hvilket Monstrum af et Ord, og hvilken Negativisme det indebærer.
21
+ Ser man paa vore Medlemmers højst uensartedede Herkomst og Livsindstilling, turde
22
+ det iøvrigt være en ganske overflødig Bemærkning, at vort Arbejde ikke kan tages
23
+ til Indtægt for noget specielt politisk Parti.
24
+ - source_sentence: Kontekst utilstrækkelig
25
+ sentences:
26
+ - Til støtte for De Forenede Nationers aktion i Korea vil regeringen fortsat yde
27
+ sit bidrag ved at stille hospitalsskibet ”Jutlandia" til rådighed for De Forenede
28
+ Nationers enhedskommando, og regeringen vil forberede Danmarks deltagelse i det
29
+ internationale hjælpe- og genopbygningsarbejde i Korea efter fjendtlighedernes
30
+ afslutning.
31
+ - Og dertil kommer de mange tusinde, som får suppleret deres indkomst med offentlige
32
+ tilskud eller kontantydelser. Det er alt for mange. Det kan vi ikke være bekendt.
33
+ Det kan vi ikke leve med.
34
+ - og det er at
35
+ - source_sentence: Forvirring
36
+ sentences:
37
+ - Som De tidligere har hørt, blev der i 1913 i afdøde Lærer Ludvig Triers Bo oprettet
38
+ et Legat, kaldet „Ludvig Triers Legat til Fremme af Kvinders økonomiske Selvstændighed”.
39
+ Og D. K. anmodedes om at styre dette Legat og uddele Renten af Kapitalen, naar
40
+ denne engang blev ledig. Fore­løbig skulde nogle Slægtninge af Lud­vig Trier nyde
41
+ Renten, saa længe de levede. Nu er imidlertid en Kapital paa omkring 14,000 Kr.
42
+ i Februar i Aar bleven ledig ved en Legatnyders Død; den vil i Juni Termin blive
43
+ ud­betalt til D. K., og vi vil altsaa til næste Aar faa en endnu større Sum at
44
+ uddele til hint udmærkede Formaal.
45
+ - Uddannelse
46
+ - I don't know what to say.
47
+ - source_sentence: Medicin
48
+ sentences:
49
+ - Jeg hedder Amal, og jeg er 19 år gammel, jeg er lige pt i gang med et sabbatår
50
+ hvor jeg efterfølgende gerne vil starte på drømmestudiet, som er medicin[.]
51
+ - 'Vi skal være Dig gode og [faste] Sønner og Døtre, Danmark, [det] lover vi Dig
52
+ i Dag, og det [giver] vi Dig Haandslag paa, [Kong] Christian. Ja, om kongen [samler]
53
+ vi os i denne Stund, den [største] vor Slægt har oplevet. Naar [svundne] Dage
54
+ Folket havde valgt [en Konge], stævnede de til Tinge [for at] hylde ham under
55
+ aaben [Himmel]. Den 10. Februar, da vi [Sønderjyder] stemte os hjem, kaarede vi
56
+ [Kong] Christian af Danmark til Konge. [Denne] Dag løfter vi alle om een vor Konge
57
+ paa Skjold; som frie [Mænd] og Kvinder hylder vi Danmarks konge og Dronning, nu
58
+ ogsaa [vor] Konge og Dronning, idet vi [samles] i et tusindstemmigt [Hyldestråb]:
59
+ Kong Christian og [Dronning] Alexandrine leve!'
60
+ - Findes der noget menneske, ærede dommere, eller vil der nogen sinde blive født
61
+ noget menneske, der i stedet for 2.600 dr. ville foretrække at betale 3.360 dr.
62
+ og en rente på 560 dr., i alt 3.920 dr., det beløb, som Formion påstår at have
63
+ lånt og afleveret til Lampis? Betalte han virkelig i Bosporos – og det 13 miner
64
+ for meget - når han havde mulighed for at betale beløbet tilbage i Athen som et
65
+ returlån?
66
+ - source_sentence: Bygge- og anlægsvirksomhed
67
+ sentences:
68
+ - For hvis disse årsager alene var nok,
69
+ - Venligst
70
+ - 'Den betydelige forringelse i balancen udadtil hænger sammen med tre forhold:
71
+ den stærke stigning i befolkningens forbrug, den stærke stigning i den samlede
72
+ bygge- og anlægsvirksomhed og stigningen i den øvrige investering.'
73
+ pipeline_tag: sentence-similarity
74
+ library_name: sentence-transformers
75
+ metrics:
76
+ - cosine_accuracy
77
+ model-index:
78
+ - name: SentenceTransformer based on intfloat/multilingual-e5-base
79
+ results:
80
+ - task:
81
+ type: triplet
82
+ name: Triplet
83
+ dataset:
84
+ name: danish embedding validator
85
+ type: danish_embedding_validator
86
+ metrics:
87
+ - type: cosine_accuracy
88
+ value: 0.9837473034858704
89
+ name: Cosine Accuracy
90
+ - type: cosine_accuracy
91
+ value: 0.9842851758003235
92
+ name: Cosine Accuracy
93
+ ---
94
+
95
+ # SentenceTransformer based on intfloat/multilingual-e5-base
96
+
97
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
98
+
99
+ ## Model Details
100
+
101
+ ### Model Description
102
+ - **Model Type:** Sentence Transformer
103
+ - **Base model:** [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) <!-- at revision d13f1b27baf31030b7fd040960d60d909913633f -->
104
+ - **Maximum Sequence Length:** 512 tokens
105
+ - **Output Dimensionality:** 768 dimensions
106
+ - **Similarity Function:** Cosine Similarity
107
+ - **Training Dataset:**
108
+ - json
109
+ <!-- - **Language:** Unknown -->
110
+ <!-- - **License:** Unknown -->
111
+
112
+ ### Model Sources
113
+
114
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
115
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
116
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
117
+
118
+ ### Full Model Architecture
119
+
120
+ ```
121
+ SentenceTransformer(
122
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
123
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
124
+ (2): Normalize()
125
+ )
126
+ ```
127
+
128
+ ## Usage
129
+
130
+ ### Direct Usage (Sentence Transformers)
131
+
132
+ First install the Sentence Transformers library:
133
+
134
+ ```bash
135
+ pip install -U sentence-transformers
136
+ ```
137
+
138
+ Then you can load this model and run inference.
139
+ ```python
140
+ from sentence_transformers import SentenceTransformer
141
+
142
+ # Download from the 🤗 Hub
143
+ model = SentenceTransformer("dilovancelik/multilingual-e5-large-danish-speeches-finetune")
144
+ # Run inference
145
+ sentences = [
146
+ 'Bygge- og anlægsvirksomhed',
147
+ 'Den betydelige forringelse i balancen udadtil hænger sammen med tre forhold: den stærke stigning i befolkningens forbrug, den stærke stigning i den samlede bygge- og anlægsvirksomhed og stigningen i den øvrige investering.',
148
+ 'Venligst',
149
+ ]
150
+ embeddings = model.encode(sentences)
151
+ print(embeddings.shape)
152
+ # [3, 768]
153
+
154
+ # Get the similarity scores for the embeddings
155
+ similarities = model.similarity(embeddings, embeddings)
156
+ print(similarities.shape)
157
+ # [3, 3]
158
+ ```
159
+
160
+ <!--
161
+ ### Direct Usage (Transformers)
162
+
163
+ <details><summary>Click to see the direct usage in Transformers</summary>
164
+
165
+ </details>
166
+ -->
167
+
168
+ <!--
169
+ ### Downstream Usage (Sentence Transformers)
170
+
171
+ You can finetune this model on your own dataset.
172
+
173
+ <details><summary>Click to expand</summary>
174
+
175
+ </details>
176
+ -->
177
+
178
+ <!--
179
+ ### Out-of-Scope Use
180
+
181
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
182
+ -->
183
+
184
+ ## Evaluation
185
+
186
+ ### Metrics
187
+
188
+ #### Triplet
189
+
190
+ * Dataset: `danish_embedding_validator`
191
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
192
+
193
+ | Metric | Value |
194
+ |:--------------------|:-----------|
195
+ | **cosine_accuracy** | **0.9837** |
196
+
197
+ #### Triplet
198
+
199
+ * Dataset: `danish_embedding_validator`
200
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
201
+
202
+ | Metric | Value |
203
+ |:--------------------|:-----------|
204
+ | **cosine_accuracy** | **0.9843** |
205
+
206
+ <!--
207
+ ## Bias, Risks and Limitations
208
+
209
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
210
+ -->
211
+
212
+ <!--
213
+ ### Recommendations
214
+
215
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
216
+ -->
217
+
218
+ ## Training Details
219
+
220
+ ### Training Dataset
221
+
222
+ #### json
223
+
224
+ * Dataset: json
225
+ * Size: 48,914 training samples
226
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
227
+ * Approximate statistics based on the first 1000 samples:
228
+ | | anchor | positive | negative |
229
+ |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
230
+ | type | string | string | string |
231
+ | details | <ul><li>min: 3 tokens</li><li>mean: 4.28 tokens</li><li>max: 11 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 50.09 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 54.62 tokens</li><li>max: 512 tokens</li></ul> |
232
+ * Samples:
233
+ | anchor | positive | negative |
234
+ |:--------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
235
+ | <code>Integration</code> | <code>Indvandrerproblemet i Danmark består i, at vi her i landet gør indvandrerne til sociale klienter. Det er rasende kostbart. Det er også helt perspektivløst. Og dertil kommer, at det er demoraliserende, fordi det er tegn på en manglende respekt.</code> | <code>ingen</code> |
236
+ | <code>Prisuddeling</code> | <code>Det musik vi laver, det laver vi, fordi at det udtrykker det, der er inde i os, og det kan godt være, at vi er underlige, men vi er glade for, at der er rigtig mange mennesker derude, der også er underlige, og som har taget sig tid til at stemme på os, tusind tak for det.</code> | <code>Det begyndte alt sammen for 175 år siden her tæt, hvor vi står, med rejsningen af Den Skandinaviske Sten i 1845.</code> |
237
+ | <code>Friskoler</code> | <code>Vi har ladet tusind blomster blomstre –  vi har massevis af pædagoger, hjemmehjælpere og lærere, som vil være selvstændige og starte fri-børnehaver, friskoler og friplejehjem.</code> | <code>Greenland Ruby A/S, som åbnede minen i Aappilattoq ved Qeqertarsuatsiaat sidste år er på nuværende tidspunkt det eneste selskab, der driver aktiv mine i Grønland.</code> |
238
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
239
+ ```json
240
+ {
241
+ "scale": 20.0,
242
+ "similarity_fct": "cos_sim"
243
+ }
244
+ ```
245
+
246
+ ### Evaluation Dataset
247
+
248
+ #### json
249
+
250
+ * Dataset: json
251
+ * Size: 48,914 evaluation samples
252
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
253
+ * Approximate statistics based on the first 1000 samples:
254
+ | | anchor | positive | negative |
255
+ |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
256
+ | type | string | string | string |
257
+ | details | <ul><li>min: 3 tokens</li><li>mean: 4.39 tokens</li><li>max: 18 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 52.42 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 55.2 tokens</li><li>max: 512 tokens</li></ul> |
258
+ * Samples:
259
+ | anchor | positive | negative |
260
+ |:---------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
261
+ | <code>Koncert</code> | <code>og fik virkelig trukket de fleste af dem med. ”</code> | <code>Det er regeringens mål at stabilisere udviklingen i byggeriet på et højt niveau og at fortsætte den sociale linje i boligpolitikken.</code> |
262
+ | <code>Ukraine</code> | <code>Vores hjælp gør også Ukraine attraktivt for udenlandske investorer og samarbejdspartnere den dag, krigens trængsler er forbi. Internationale virksomheder holder sig ofte tilbage med at anbringe penge i lande, hvor forholdene ikke er i orden. Eller hvor der er penge under bordet.</code> | <code>Og den lovbestemte mindsteløn i Tyskland er i dag på 9 Euro.</code> |
263
+ | <code>Aftale</code> | <code>Når ens kæreste ikke møder op til en aftale, er man</code> | <code>Det Jødiske Samfund har oplyst, at de i perioden 7. oktober til 7. november i år har modtaget 80 indberetninger om antisemitiske hændelser. Det er 24 gange flere indberetninger end gennemsnittet pr. måned i de forudgående ni måneder af 2023.</code> |
264
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
265
+ ```json
266
+ {
267
+ "scale": 20.0,
268
+ "similarity_fct": "cos_sim"
269
+ }
270
+ ```
271
+
272
+ ### Training Hyperparameters
273
+ #### Non-Default Hyperparameters
274
+
275
+ - `eval_strategy`: steps
276
+ - `per_device_train_batch_size`: 64
277
+ - `per_device_eval_batch_size`: 64
278
+ - `learning_rate`: 2e-05
279
+ - `weight_decay`: 0.1
280
+ - `num_train_epochs`: 2
281
+ - `warmup_ratio`: 0.1
282
+ - `batch_sampler`: no_duplicates
283
+
284
+ #### All Hyperparameters
285
+ <details><summary>Click to expand</summary>
286
+
287
+ - `overwrite_output_dir`: False
288
+ - `do_predict`: False
289
+ - `eval_strategy`: steps
290
+ - `prediction_loss_only`: True
291
+ - `per_device_train_batch_size`: 64
292
+ - `per_device_eval_batch_size`: 64
293
+ - `per_gpu_train_batch_size`: None
294
+ - `per_gpu_eval_batch_size`: None
295
+ - `gradient_accumulation_steps`: 1
296
+ - `eval_accumulation_steps`: None
297
+ - `torch_empty_cache_steps`: None
298
+ - `learning_rate`: 2e-05
299
+ - `weight_decay`: 0.1
300
+ - `adam_beta1`: 0.9
301
+ - `adam_beta2`: 0.999
302
+ - `adam_epsilon`: 1e-08
303
+ - `max_grad_norm`: 1.0
304
+ - `num_train_epochs`: 2
305
+ - `max_steps`: -1
306
+ - `lr_scheduler_type`: linear
307
+ - `lr_scheduler_kwargs`: {}
308
+ - `warmup_ratio`: 0.1
309
+ - `warmup_steps`: 0
310
+ - `log_level`: passive
311
+ - `log_level_replica`: warning
312
+ - `log_on_each_node`: True
313
+ - `logging_nan_inf_filter`: True
314
+ - `save_safetensors`: True
315
+ - `save_on_each_node`: False
316
+ - `save_only_model`: False
317
+ - `restore_callback_states_from_checkpoint`: False
318
+ - `no_cuda`: False
319
+ - `use_cpu`: False
320
+ - `use_mps_device`: False
321
+ - `seed`: 42
322
+ - `data_seed`: None
323
+ - `jit_mode_eval`: False
324
+ - `use_ipex`: False
325
+ - `bf16`: False
326
+ - `fp16`: False
327
+ - `fp16_opt_level`: O1
328
+ - `half_precision_backend`: auto
329
+ - `bf16_full_eval`: False
330
+ - `fp16_full_eval`: False
331
+ - `tf32`: None
332
+ - `local_rank`: 0
333
+ - `ddp_backend`: None
334
+ - `tpu_num_cores`: None
335
+ - `tpu_metrics_debug`: False
336
+ - `debug`: []
337
+ - `dataloader_drop_last`: False
338
+ - `dataloader_num_workers`: 0
339
+ - `dataloader_prefetch_factor`: None
340
+ - `past_index`: -1
341
+ - `disable_tqdm`: False
342
+ - `remove_unused_columns`: True
343
+ - `label_names`: None
344
+ - `load_best_model_at_end`: False
345
+ - `ignore_data_skip`: False
346
+ - `fsdp`: []
347
+ - `fsdp_min_num_params`: 0
348
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
349
+ - `fsdp_transformer_layer_cls_to_wrap`: None
350
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
351
+ - `deepspeed`: None
352
+ - `label_smoothing_factor`: 0.0
353
+ - `optim`: adamw_torch
354
+ - `optim_args`: None
355
+ - `adafactor`: False
356
+ - `group_by_length`: False
357
+ - `length_column_name`: length
358
+ - `ddp_find_unused_parameters`: None
359
+ - `ddp_bucket_cap_mb`: None
360
+ - `ddp_broadcast_buffers`: False
361
+ - `dataloader_pin_memory`: True
362
+ - `dataloader_persistent_workers`: False
363
+ - `skip_memory_metrics`: True
364
+ - `use_legacy_prediction_loop`: False
365
+ - `push_to_hub`: False
366
+ - `resume_from_checkpoint`: None
367
+ - `hub_model_id`: None
368
+ - `hub_strategy`: every_save
369
+ - `hub_private_repo`: None
370
+ - `hub_always_push`: False
371
+ - `gradient_checkpointing`: False
372
+ - `gradient_checkpointing_kwargs`: None
373
+ - `include_inputs_for_metrics`: False
374
+ - `include_for_metrics`: []
375
+ - `eval_do_concat_batches`: True
376
+ - `fp16_backend`: auto
377
+ - `push_to_hub_model_id`: None
378
+ - `push_to_hub_organization`: None
379
+ - `mp_parameters`:
380
+ - `auto_find_batch_size`: False
381
+ - `full_determinism`: False
382
+ - `torchdynamo`: None
383
+ - `ray_scope`: last
384
+ - `ddp_timeout`: 1800
385
+ - `torch_compile`: False
386
+ - `torch_compile_backend`: None
387
+ - `torch_compile_mode`: None
388
+ - `dispatch_batches`: None
389
+ - `split_batches`: None
390
+ - `include_tokens_per_second`: False
391
+ - `include_num_input_tokens_seen`: False
392
+ - `neftune_noise_alpha`: None
393
+ - `optim_target_modules`: None
394
+ - `batch_eval_metrics`: False
395
+ - `eval_on_start`: False
396
+ - `use_liger_kernel`: False
397
+ - `eval_use_gather_object`: False
398
+ - `average_tokens_across_devices`: False
399
+ - `prompts`: None
400
+ - `batch_sampler`: no_duplicates
401
+ - `multi_dataset_batch_sampler`: proportional
402
+
403
+ </details>
404
+
405
+ ### Training Logs
406
+ | Epoch | Step | Training Loss | Validation Loss | danish_embedding_validator_cosine_accuracy |
407
+ |:------:|:----:|:-------------:|:---------------:|:------------------------------------------:|
408
+ | -1 | -1 | - | - | 0.8181 |
409
+ | 0.4082 | 200 | 3.0213 | 0.8728 | 0.9777 |
410
+ | 0.8163 | 400 | 2.4277 | 0.8451 | 0.9809 |
411
+ | 1.2224 | 600 | 2.0946 | 0.8268 | 0.9817 |
412
+ | 1.6306 | 800 | 2.0572 | 0.8143 | 0.9840 |
413
+ | -1 | -1 | - | - | 0.9843 |
414
+
415
+
416
+ ### Framework Versions
417
+ - Python: 3.10.12
418
+ - Sentence Transformers: 3.4.1
419
+ - Transformers: 4.48.3
420
+ - PyTorch: 2.5.1
421
+ - Accelerate: 1.3.0
422
+ - Datasets: 3.3.0
423
+ - Tokenizers: 0.21.0
424
+
425
+ ## Citation
426
+
427
+ ### BibTeX
428
+
429
+ #### Sentence Transformers
430
+ ```bibtex
431
+ @inproceedings{reimers-2019-sentence-bert,
432
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
433
+ author = "Reimers, Nils and Gurevych, Iryna",
434
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
435
+ month = "11",
436
+ year = "2019",
437
+ publisher = "Association for Computational Linguistics",
438
+ url = "https://arxiv.org/abs/1908.10084",
439
+ }
440
+ ```
441
+
442
+ #### MultipleNegativesRankingLoss
443
+ ```bibtex
444
+ @misc{henderson2017efficient,
445
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
446
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
447
+ year={2017},
448
+ eprint={1705.00652},
449
+ archivePrefix={arXiv},
450
+ primaryClass={cs.CL}
451
+ }
452
+ ```
453
+
454
+ <!--
455
+ ## Glossary
456
+
457
+ *Clearly define terms in order to be accessible across audiences.*
458
+ -->
459
+
460
+ <!--
461
+ ## Model Card Authors
462
+
463
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
464
+ -->
465
+
466
+ <!--
467
+ ## Model Card Contact
468
+
469
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
470
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-base",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.48.3",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.48.3",
5
+ "pytorch": "2.5.1"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4d35a9bbdd0a34396b08d9d5d425f25fd8e98fcd9b5f2557ae5093e4ba4f0bbc
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "XLMRobertaTokenizer",
54
+ "unk_token": "<unk>"
55
+ }