|
--- |
|
tags: |
|
- sentence-transformers |
|
- sentence-similarity |
|
- feature-extraction |
|
- dense |
|
- generated_from_trainer |
|
- dataset_size:18000 |
|
- loss:MultipleNegativesRankingLoss |
|
widget: |
|
- source_sentence: kimning xoʻjayini boʻlgan |
|
sentences: |
|
- >- |
|
Salingerning 2010 yilda vafot etganidan so'ng, Salingerning agent bo'lgan |
|
Phyllis Westberg, uning asarlariga film, televideniye yoki sahna huquqlarini |
|
litsenziyalash bo'yicha hech narsa o'zgarmaganini aytdi. [1] Salinger |
|
tomonidan 1957 yilda yozilgan xatda u o'limidan keyin chiqarilgan "The |
|
Catcher in the Rye" kitobining adaptiyasiga ochiqligi ayon bo'lgan. U |
|
shunday yozgan: "Birinchidan, huquqlar bir kun sotilishi mumkin. Men boy |
|
o'lmasim ehtimoli mavjud bo'lgani uchun, men sotilmagan huquqlarni xotinim |
|
va qizimga sug'urta siyosati sifatida qoldirish g'oyasi bilan juda jiddiy |
|
o'ynayman. Bu menga hech qanday oxirat bermaydi, ammo, tezda qo'shishim |
|
mumkin, Holdenfield muomalasi natijalarini ko'rishim shart emasligini |
|
bilish. Salinger shuningdek, uning hikoyasini filmga tayyorlash uchun mos |
|
kelmasligiga ishondi va bu roman va so'zning birinchi tarjimasi dialogga |
|
aylanishi kerak deb yozgan. |
|
- >- |
|
Dragon Soul "Dragon Soul" - Yaponiyalik qo'shiqchi Takayoshi Tanimotoning |
|
yettinchi singli. U qo'shiqni gitarist va qo'shiqchi Takafumi Iwasaki bilan |
|
birga "Dragon Soul" deb nomlangan maxsus birlikning bir qismi sifatida ijro |
|
etdi. 2009 yil 20 may kuni CD-da muntazam va cheklangan nashr sifatida |
|
chiqarildi; cheklangan nashrda Dragon Ball Kai Dragon Battlers savdo |
|
kartalari kartalari o'yinchasi mavjud edi. |
|
- >- |
|
The Hateful Eight (Ko'pincha H8ful Eight deb marketing qilinadi) Quentin |
|
Tarantino tomonidan yozib va yozib olingan 2015 yilgi amerikalik g'arbiy |
|
film. U Samyuel L. Jekson, Kurt Rasel, Jenifer Jeyson Leigh, Walton Goggins, |
|
Demian Bichir, Tim Roth, Maykl Madsen va Brus Dernni Amerikaning Fuqarolik |
|
urushidan keyin bir vaqtlar cho'pon to'xtashida qor bo'ronidan panoh |
|
izlayotgan sakkiz begona kishi sifatida tasvirlaydi. |
|
- source_sentence: Kevin o'yinchi bo'lib, yosh va beqaror bo'lib, sho'zni tark etadi. |
|
sentences: |
|
- >- |
|
Nullifikatsiya (AQSh Konstitutsiyasi) Nullifikatsiya nazariyasi, davlatlar |
|
o'rtasida bitim (yoki "kompakt") asosida Ittifoqni tuzgan va federal |
|
hukumatning yaratuvchilari sifatida davlatlar ushbu hukumatning |
|
hokimiyatining chegaralarini belgilash uchun yakuniy vakolatga ega. Bu |
|
asosida, federal hukumatning hokimiyatining chegarasini aniqlovchi yakuniy |
|
nazariyasi bo'yicha, davlatlar federal sudlar emas, balki federal |
|
hukumatning hokimiyatining eng oxirgi ta'rifchisi hisoblanadi. Ushbu |
|
nazariyaga ko'ra, davlatlar federal hukumatning konstitutsiyaviy |
|
vakolatlaridan tashqari deb hisoblaydigan federal qonunlarni rad etishlari |
|
yoki bekor qilishlari mumkin. |
|
- >- |
|
"Take Me Out to the Ball Game" - bu Shimoliy Amerika beysbolining no Rasmiy |
|
himniga aylangan Jack Norworth va Albert Von Tilzer tomonidan 1908 yilda |
|
yaratilgan Tin Pan Alley qo'shiqidir, garchi uning mualliflaridan hech biri |
|
qo'shiqni yozishdan oldin o'yinga bormagan bo'lsa ham.[1] Qo'shiq chorusi |
|
an'anaviy ravishda beysbol o'yinining yettinchi o'yinining o'rtasida |
|
kuylanadi. Fanlar, odatda, birga kuylashga rag'batlantirilgan va ba'zi |
|
futbol maydonlarida "uy jamoasi" so'zlari jamoa nomi bilan almashtirilgan. |
|
- >- |
|
Bryton James Bryton Eric McClure (O'zbekiston: Брайтон Джеймс Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон Брайтон |
|
Брайтон Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт |
|
Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт |
|
Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт |
|
Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт |
|
Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт Брайт |
|
Брайт Брайт Брайт Брай |
|
- source_sentence: Nyu-York shahridagi Uol-Strat qayerda joylashgan |
|
sentences: |
|
- >- |
|
Intrinsic factor Intrinsic factor (IF), shuningdek, oshqozon ichki faktor |
|
(GIF) deb ham tanilgan, oshqozonning parietal hujayralari tomonidan ishlab |
|
chiqariladigan glikoproteindir. Bu keyinchalik kichik ichakning iliumida |
|
vitamin B12 (cobalamin) ni sug'orish uchun zarur. |
|
- >- |
|
Biz Millerlarmiz Denverda yashovchi Devid Klark ismli kichik kannabis |
|
savdogari pul va o'tmishdagi o'g'ir o'g'riliklarini o'g'irlaydi. Ulardan |
|
ba'zilari uning boy giyohvandlik lordlari yetkazib beruvchi Brad |
|
Gurdlingerga qarzdor. Devid unga olib kelinganidan so'ng Gurdlinger Dovudni |
|
qarzini to'xtatish uchun Meksikadan marixuana "smirchasi"ni burishtirishga |
|
majbur qiladi. Bojxona orqali o'tishga harakat qilayotgan bir kishi juda |
|
shubhali ekanligini anglab, u o'z stripperining Ros, o'smir qochqin va |
|
kichkina o'g'ri Keysi va o'n sakkiz yoshli Keni bilan birga "Dollar" deb |
|
nomlangan yolg'on oila sifatida suratga chiqaradi. |
|
- >- |
|
Wall Street - bu Nyu-York shahridagi Lower Manhattan moliyaviy tumanidagi |
|
East Riverda Broadwaydan Janubiy ko'chig'gacha shimoli-g'arbiydan |
|
janubi-sharbiygacha o'tgan sakkiz blok uzunlikdagi ko'cha. [1] Vaqt o'tishi |
|
bilan, ushbu atama butun AQShning moliyaviy bozorlari, Amerika moliyaviy |
|
xizmatlari sanoati (agar moliyaviy firmalar jismoniy joylashtirilmasa ham) |
|
yoki Nyu-Yorkda joylashgan moliyaviy manfaatlar uchun metonimga aylandi. [2] |
|
- source_sentence: '"Mening orzuim bor" qo''shiqni kim yozgan' |
|
sentences: |
|
- >- |
|
Birma temir yo'li Tailandda joylashgan Hellfire Toursga ko'ra, "ikki ko'prik |
|
1945 yil 13 fevral kuni Royal Air Force (RAF) bombardiruvchi samolyotlari |
|
tomonidan muvaffaqiyatli bombardimon qilingan va zararlangan. Qozog'a |
|
poydevori tufayli tuzatishlar amalga oshirildi va aprel oyida yog'och temir |
|
yo'l trestli ko'prik qayta ish bilan ta'mirlandi. 3 aprel kuni AQSh armiyasi |
|
havo kuchlarining (USAAF) Liberator og'ir bombachilari tomonidan ikkinchi |
|
bombardimon reyd qilindi. |
|
- >- |
|
"I Have a Dream" qo'shiqini Benny Andersson va Bjorn Ulvaeus yozgan va |
|
guruhning 1979 yilgi Voulez-Vous albumiga olingan. Anni-Frid Lyngstad bosh |
|
qo'shiqlarni kuylagan. 1979 yil dekabr oyida "Take a Chance on Me" ning |
|
jonli versiyasi bilan B-qarshi sifatida chiqarilib chiqdi. Qopishtirilgan |
|
qo'shiq to'rtta guruh a'zosidan tashqari boshqa vokalchilarni o'z ichiga |
|
olgan yagona ABBA qo'shig'i bo'lib tan olingan. Yakuniy chorusda Stokholm |
|
xalqaro maktabi bolalar xori mavjud. Buyuk Britaniyada "I Have a Dream" |
|
musiqasi "Another Brick in the Wall" tomonidan 1 o'rinni egalladi. |
|
- >- |
|
To'g'ri, o'lim bizni qilmaydi qismida (NCIS) Gibs Ryanning Dearingni |
|
tuzog'iga tushirish uchun hukm qilingan sobiq ofitser Jonatan Kolni ishga |
|
qabul qilishga qaror qiladi. Dastlab Dearing Colega uni uchratishni aytganda |
|
ishlashi mumkin edi, lekin Dearing uchrashuvga kelmaydi va uning o'rniga |
|
Cole uchun telefon qoldiradi. Oldingi qo'ng'iroqlar va Colega Gibsga |
|
direktor Vance bilan hech qachon qiziqmaganligini va adolat bilan chindan |
|
ham qiziqishini bildiradi. Bosh qoshida, qo'ng'iroqni tahlil qilish jamoasi |
|
uni tuzoqqa jalb qilish uchun uning mashinasida Vance avtopusxasi borligini |
|
tushunadi, u o'g'irilganida o'rnatilgan, NCIS Bosh Qoshxonasiga qayiq qilish |
|
va butun bino evakuatsiya qilinadi. Cole Tonyni deaktiv qilishga urinyapti, |
|
ammo uning terma-tush ustida (qoshiq ustida) bor, chunki o'limga sabab |
|
bo'lganidan so'ng, Bob Gibbsning telefon qo'ng'iroqidan qo'ng'iroq qildi va |
|
uning tanasi va odamlari bilan birga qo'rqib, kompyuterda urilgan va |
|
kompyuterda urilgan, ammo "Qo'ng'riqchi" bilan birga qo'ng'riqchixonaga |
|
tushadi. |
|
- source_sentence: Lady antebellum ismi qayerdan kelib chiqqan ? |
|
sentences: |
|
- >- |
|
Lady Antebellum 2010 yil 9 avgust kuni BBC Radio 2 Drivetime Show-da guruh |
|
uy egasiga Liza Tarbuqqa Antebellum nomi guruh "avval" uylarini suratga |
|
olganida kelib chiqqanligini tushuntirdi. Avval urushdan oldingi arxitektura |
|
usuli Amerika Janubiyidagi katta plantatsiya uylarini tasvirlaydi. Latindagi |
|
bellum so'zi " urush" degani; "avval" demak " urushdan oldin " degani. |
|
- >- |
|
Necrotising fasciitis B.C. 5-asrda Hippokrates necrotising yumshoq to'qima |
|
infektsiyasini Streptococcal infeksiyaning komplikasiyasi bo'lgan kasallik |
|
deb tasvirlagan. Bu kasallik "tanamizning barcha qismida eritsipellalarga |
|
ega bo'lgan, sababi esa oddiy hodisa edi. Suyaklar, go'sht va suyaklar (qut, |
|
tendon yoki nerv) tanadan tushib, ko'plab o'limlar yuz berdi". Necrotising |
|
yumshoq to'qima infektsiyasini birinchi marta ingliz shifokor Leonard |
|
Gillespie va ingliz shifokor Gilbert Blaine va Tomas Trotter tomonidan 18 |
|
asrda tavsiflab berilgan edi. O'sha paytda necrotising yumshoq to'qima |
|
infektsiyasi pedaenik (g'irni-qizish yoki g'angrenni bosish) deb nomlangan. |
|
- >- |
|
Sutro yo'li Quyosh Orion qo'li ichki chekkasi yaqinida, Mahalliy Bubble |
|
mahalliy Fluff ichida va Gould Beltda, Galaktik markazidan 26,4 ± 1,0 kly |
|
(8,09 ± 0,31 kpc) masofada joylashgan. Quyosh hozirda Galaktik diskning |
|
markaziy toshidan 530 parsek (1698 ly) uzoqlikda joylashgan. |
|
pipeline_tag: sentence-similarity |
|
library_name: sentence-transformers |
|
metrics: |
|
- cosine_accuracy@1 |
|
- cosine_accuracy@3 |
|
- cosine_accuracy@5 |
|
- cosine_accuracy@10 |
|
- cosine_precision@1 |
|
- cosine_precision@3 |
|
- cosine_precision@5 |
|
- cosine_precision@10 |
|
- cosine_recall@1 |
|
- cosine_recall@3 |
|
- cosine_recall@5 |
|
- cosine_recall@10 |
|
- cosine_ndcg@10 |
|
- cosine_mrr@10 |
|
- cosine_map@100 |
|
model-index: |
|
- name: SentenceTransformer |
|
results: |
|
- task: |
|
type: information-retrieval |
|
name: Information Retrieval |
|
dataset: |
|
name: Unknown |
|
type: unknown |
|
metrics: |
|
- type: cosine_accuracy@1 |
|
value: 0.598 |
|
name: Cosine Accuracy@1 |
|
- type: cosine_accuracy@3 |
|
value: 0.762 |
|
name: Cosine Accuracy@3 |
|
- type: cosine_accuracy@5 |
|
value: 0.811 |
|
name: Cosine Accuracy@5 |
|
- type: cosine_accuracy@10 |
|
value: 0.865 |
|
name: Cosine Accuracy@10 |
|
- type: cosine_precision@1 |
|
value: 0.598 |
|
name: Cosine Precision@1 |
|
- type: cosine_precision@3 |
|
value: 0.254 |
|
name: Cosine Precision@3 |
|
- type: cosine_precision@5 |
|
value: 0.16219999999999998 |
|
name: Cosine Precision@5 |
|
- type: cosine_precision@10 |
|
value: 0.0865 |
|
name: Cosine Precision@10 |
|
- type: cosine_recall@1 |
|
value: 0.598 |
|
name: Cosine Recall@1 |
|
- type: cosine_recall@3 |
|
value: 0.762 |
|
name: Cosine Recall@3 |
|
- type: cosine_recall@5 |
|
value: 0.811 |
|
name: Cosine Recall@5 |
|
- type: cosine_recall@10 |
|
value: 0.865 |
|
name: Cosine Recall@10 |
|
- type: cosine_ndcg@10 |
|
value: 0.7329033295091333 |
|
name: Cosine Ndcg@10 |
|
- type: cosine_mrr@10 |
|
value: 0.6903722222222224 |
|
name: Cosine Mrr@10 |
|
- type: cosine_map@100 |
|
value: 0.6946029442201882 |
|
name: Cosine Map@100 |
|
datasets: |
|
- sentence-transformers/natural-questions |
|
language: |
|
- uz |
|
base_model: |
|
- google/embeddinggemma-300m |
|
--- |
|
|
|
# SentenceTransformer |
|
|
|
This is a [sentence-transformers](https://www.SBERT.net) model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. |
|
|
|
## Model Details |
|
|
|
### Model Description |
|
- **Model Type:** Sentence Transformer |
|
<!-- - **Base model:** [Unknown](https://huggingface.co/unknown) --> |
|
- **Maximum Sequence Length:** 2048 tokens |
|
- **Output Dimensionality:** 768 dimensions |
|
- **Similarity Function:** Cosine Similarity |
|
<!-- - **Training Dataset:** Unknown --> |
|
<!-- - **Language:** Unknown --> |
|
<!-- - **License:** Unknown --> |
|
|
|
### Model Sources |
|
|
|
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net) |
|
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) |
|
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) |
|
|
|
### Full Model Architecture |
|
|
|
``` |
|
SentenceTransformer( |
|
(0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'Gemma3TextModel'}) |
|
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) |
|
(2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'}) |
|
(3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'}) |
|
(4): Normalize() |
|
) |
|
``` |
|
|
|
## Usage |
|
|
|
### Direct Usage (Sentence Transformers) |
|
|
|
First install the Sentence Transformers library: |
|
|
|
```bash |
|
pip install -U sentence-transformers |
|
``` |
|
|
|
Then you can load this model and run inference. |
|
```python |
|
from sentence_transformers import SentenceTransformer |
|
|
|
# Download from the 🤗 Hub |
|
model = SentenceTransformer("Saidakmal/uz_embeddinggemma-300m") |
|
# Run inference |
|
queries = [ |
|
"Lady antebellum ismi qayerdan kelib chiqqan ?", |
|
] |
|
documents = [ |
|
'Lady Antebellum 2010 yil 9 avgust kuni BBC Radio 2 Drivetime Show-da guruh uy egasiga Liza Tarbuqqa Antebellum nomi guruh "avval" uylarini suratga olganida kelib chiqqanligini tushuntirdi. Avval urushdan oldingi arxitektura usuli Amerika Janubiyidagi katta plantatsiya uylarini tasvirlaydi. Latindagi bellum so\'zi " urush" degani; "avval" demak " urushdan oldin " degani.', |
|
'Necrotising fasciitis B.C. 5-asrda Hippokrates necrotising yumshoq to\'qima infektsiyasini Streptococcal infeksiyaning komplikasiyasi bo\'lgan kasallik deb tasvirlagan. Bu kasallik "tanamizning barcha qismida eritsipellalarga ega bo\'lgan, sababi esa oddiy hodisa edi. Suyaklar, go\'sht va suyaklar (qut, tendon yoki nerv) tanadan tushib, ko\'plab o\'limlar yuz berdi". Necrotising yumshoq to\'qima infektsiyasini birinchi marta ingliz shifokor Leonard Gillespie va ingliz shifokor Gilbert Blaine va Tomas Trotter tomonidan 18 asrda tavsiflab berilgan edi. O\'sha paytda necrotising yumshoq to\'qima infektsiyasi pedaenik (g\'irni-qizish yoki g\'angrenni bosish) deb nomlangan.', |
|
"Sutro yo'li Quyosh Orion qo'li ichki chekkasi yaqinida, Mahalliy Bubble mahalliy Fluff ichida va Gould Beltda, Galaktik markazidan 26,4 ± 1,0 kly (8,09 ± 0,31 kpc) masofada joylashgan. Quyosh hozirda Galaktik diskning markaziy toshidan 530 parsek (1698 ly) uzoqlikda joylashgan.", |
|
] |
|
query_embeddings = model.encode_query(queries) |
|
document_embeddings = model.encode_document(documents) |
|
print(query_embeddings.shape, document_embeddings.shape) |
|
# [1, 768] [3, 768] |
|
|
|
# Get the similarity scores for the embeddings |
|
similarities = model.similarity(query_embeddings, document_embeddings) |
|
print(similarities) |
|
# tensor([[ 0.6160, 0.1431, -0.0269]]) |
|
``` |
|
|
|
<!-- |
|
### Direct Usage (Transformers) |
|
|
|
<details><summary>Click to see the direct usage in Transformers</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Downstream Usage (Sentence Transformers) |
|
|
|
You can finetune this model on your own dataset. |
|
|
|
<details><summary>Click to expand</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Out-of-Scope Use |
|
|
|
*List how the model may foreseeably be misused and address what users ought not to do with the model.* |
|
--> |
|
|
|
## Evaluation |
|
|
|
### Metrics |
|
|
|
#### Information Retrieval |
|
|
|
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) |
|
|
|
| Metric | Value | |
|
|:--------------------|:-----------| |
|
| cosine_accuracy@1 | 0.598 | |
|
| cosine_accuracy@3 | 0.762 | |
|
| cosine_accuracy@5 | 0.811 | |
|
| cosine_accuracy@10 | 0.865 | |
|
| cosine_precision@1 | 0.598 | |
|
| cosine_precision@3 | 0.254 | |
|
| cosine_precision@5 | 0.1622 | |
|
| cosine_precision@10 | 0.0865 | |
|
| cosine_recall@1 | 0.598 | |
|
| cosine_recall@3 | 0.762 | |
|
| cosine_recall@5 | 0.811 | |
|
| cosine_recall@10 | 0.865 | |
|
| **cosine_ndcg@10** | **0.7329** | |
|
| cosine_mrr@10 | 0.6904 | |
|
| cosine_map@100 | 0.6946 | |
|
|
|
<!-- |
|
## Bias, Risks and Limitations |
|
|
|
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.* |
|
--> |
|
|
|
<!-- |
|
### Recommendations |
|
|
|
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.* |
|
--> |
|
|
|
## Training Details |
|
|
|
### Training Dataset |
|
|
|
#### Unnamed Dataset |
|
|
|
* Size: 18,000 training samples |
|
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, <code>sentence_2</code>, and <code>sentence_3</code> |
|
* Approximate statistics based on the first 1000 samples: |
|
| | sentence_0 | sentence_1 | sentence_2 | sentence_3 | |
|
|:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------| |
|
| type | string | string | string | string | |
|
| details | <ul><li>min: 7 tokens</li><li>mean: 18.8 tokens</li><li>max: 55 tokens</li></ul> | <ul><li>min: 27 tokens</li><li>mean: 162.4 tokens</li><li>max: 985 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 159.54 tokens</li><li>max: 945 tokens</li></ul> | <ul><li>min: 26 tokens</li><li>mean: 158.32 tokens</li><li>max: 754 tokens</li></ul> | |
|
* Samples: |
|
| sentence_0 | sentence_1 | sentence_2 | sentence_3 | |
|
|:----------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| |
|
| <code>koʻchada oʻtirganlarni kuylagan</code> | <code>(Sittin' On) The Dock of the Bay "Sittin' On) The Dock of the Bay" - soul qo'shiqchisi Otis Redding va gitarochi Steve Cropper tomonidan birgalikda yozilgan qo'shiq. Redding tomonidan 1967 yilda ikki marta, shu jumladan u samolyot halok bo'lishidan bir necha kun oldin, yozib olingan. Qo'shiq 1968 yilda Stax Recordsning Volt kompaniyasida chiqarilgan, [1] AQShda reytinglar safida birinchi o'limdan keyingi singl bo'lib chiqdi.</code> | <code>Sidney Harbour Bridge Ko'prikning umumiy moliyaviy qiymati 6,25 million funt funtligidan iborat edi, bu 1988 yilgacha to'liq to'lanmagan. [1]</code> | <code>Saudiya Arabistonining siyosati Saudiya Arabistonining siyosati ayrim islom yo'nalishlari bo'lgan mutlaq monarxiya kontestida amalga oshiriladi, unda shoh davlat va hukumat rahbari bo'lib xizmat qiladi. Qarorlar katta darajada shoh oilasi va diniy muassasalarning katta ruhoniylari o'rtasida maslahatlashuv asosida qabul qilinadi. Qur'on mamlakat konstitutsiyasi deb e'lon qilinadi, u islom qonuni asosida boshqaradi (Shari'a). Yangi shoh va yangi nasl prinsi tayinlash uchun sodiqlik kengashi mas'ul. To'liq yoshdagi barcha fuqarolar majlis deb nomlangan an'anaviy qabilaviy majlis orqali to'g'ridan-to'g'ri shohga tashrif buyurish, uchrashish va iltimos qilish huquqiga ega.[1]</code> | |
|
| <code>Hindistondagi yer buzilishining sabablarini tushuntiring</code> | <code>Yerni buzish O'tkir cho'chqachilik - chorva mollarini ko'tarib oluvchi quvvatdan ortiq darajada chorvachilik bilan tabiiy o'tlar o'tishi; natijada o'simlik qoplamasining pasayishi shamol va suv eroziyasining asosiy sababidir. Bu Afg'onistonda muhim omil hisoblanadi. 1980-1990 yillarda aholi bosimining oshishi, sakkiz mamlakatdan oltida har bir kishiga nisbatan qishloq xo'jaligi yerlarining allaqachon kichik maydonlarida pasayishlarga olib keldi (14% Hindiston uchun va 21% Pokiston uchun).</code> | <code>O'q-po'drat texnologiyasining tarixi O'n to'rtinchi asr o'rtalarida Hindistonga kelgan deb hisoblanadi. Ammo uni Xitoyni ham, Hindistonning ayrim chegara hududlarini ham bosib olgan mo'g'ollar ancha oldin, ehtimol XIII asr o'rtalarida ham joriy etgan bo'lishi mumkin. Katta bir mo'g'ol imperiyasining birlashishi Xitoy texnologiyasining Hindistonning mo'g'ollar tomonidan bosib olingan qismlariga erkin o'tkazilishiga olib keldi. Shunga qaramay, mo'g'ollar Hindistonga bostirib kirganlarida Xitoyga o'q-po'drat qurollaridan foydalangan deb hisoblanadi. Tarix-i Firishta (16061607) da mo'g'ollar hukmron Huligu elchiga 1258 yilda Dehliga kelganida ajoyib pyrotexnika taqdim etilganligi yozilgan. Birinchi o'q-po'drat texnologiyasini mo'g'ollar tomonidan Hindistonga o'q-po'drat qo'yishdi.</code> | <code>1765 yil Stamp Act (qisqa nom Amerika koloniyalarida majburiyatlar to'g'risidagi qonun 1765; 5 George III, c. 12) - Buyuk Britaniya parlamenti qonunidir, u Britaniya Amerika koloniyalariga to'g'ridan-to'g'ri soliq solgan va koloniyalardagi ko'plab bosma materiallar Londonda ishlab chiqarilgan bosma qog'ozda ishlab chiqarilishi kerak edi, bu bosma qog'ozda daromad sumkasi bor edi.[1][2] Bosma materiallar yuridik hujjatlar, jurnallar, o'yin kartalari, gazetalar va ko'plab boshqa qog'ozlarni o'z ichiga olgan. Oldingi soliqlar kabi, bosma soliq to'lovning maqsadi kolonial qog'oz pulda emas, balki amalda Britaniya valyutasida to'lanishi kerak edi.</code> | |
|
| <code>qonun va tartib boʻyicha oʻldirilgan Ada kim edi?</code> | <code>Aleksandra Borgiya Borgiya Law & Order franchisasi tarixidagi eng qisqa ishtirok etgan yordamchi tuman prokurori edi, u faqat 33 ta epizodda ko'rinadi. Oila qotilligini tekshirishda prokurorlik idorasi er Frank Andreasga e'tibor qaratadi, u qotillarga uyga bostirib kiruvchi talon-torojlarni sodir etish uchun ishlatiladigan soxta DEA belgilari bilan ta'minlaydi. Borgiya Andreasga uning sheriklarini tashlashga bosim o'tkazadi va keyinchalik o'z xonadoniga o'g'irlandi. Uning jasadi keyinchalik tashlab qo'yilgan mashinaning bagazida topilgan, bog'langan, shafqatsiz urilgan va o'zini bo'g'ib qo'yganidan so'ng asfiksiyadan o'lgan. Ajablanayotgan McCoy o'zining qotillarini qamoq qilish uchun soxta ayblovni tashkil etadi, qonuniy axloqiy ahlakni o'zgartiradi.</code> | <code>Harry Potter (qarakteri) Harry Potter va o'lim marosimlarida Harry, Ron va Hermione Hogwartsdan chiqib, Dumbledore vazifasini bajaradilar: Voldemortning qolgan to'rtta Horcruxini qidirish va yo'q qilish, keyin Qorong'i Lordni topish va o'ldirish. Uch kishi Voldemortning yangi tashkil etilgan totalitar politsiya davlatiga qarshi o'zlarini qo'yishadi, bu harakat Xarrining jasorati va axloqiy xarakterini sinaydi. Voldemortning sehr vazirligini egallashi propaganda va qo'rquv bilan rag'batlantirilgan Muggle-bo'ralarga qarshi diskriminatorlik va genotsid siyosatiga olib keladi. J. K. Rowlingning aytishicha, Harri Cruciatus va Imperius Curse, azob-uqubat va ongni nazorat qilish uchun kechirilmas la'natlardan foydalanadi.</code> | <code>2018 yilgi kollej futboli playofflari milliy chempionati 2018 yilgi kollej futboli playofflari milliy chempionati - bu 2017 yilgi mavsum uchun NCAA I futbol Bowl bo'limidagi milliy chempionni belgilaydigan kollej futboli bo'l o'yinidir. Bu o'yin 2018 yil 8 yanvar kuni Georgia shtatining Atlanta shahridagi Mercedes-Benz stadionida o'ynatiladi. Uch yillik aylanish doirasida o'yin 2018 yil 1 yanvar kuni o'ynaydigan ikki yarim final bo'l o'yinlarining g'oliblari o'rtasida o'ynatiladi: Rose Bowl o'yin va Sugar Bowl. Ushbu ikki o'yinda ishtirokchilar 2017 yilgi muntazam mavsum yakunidan so'ng aniqlanadi.</code> | |
|
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: |
|
```json |
|
{ |
|
"scale": 20.0, |
|
"similarity_fct": "cos_sim", |
|
"gather_across_devices": false |
|
} |
|
``` |
|
|
|
### Training Hyperparameters |
|
#### Non-Default Hyperparameters |
|
|
|
- `eval_strategy`: steps |
|
- `fp16`: True |
|
- `multi_dataset_batch_sampler`: round_robin |
|
|
|
#### All Hyperparameters |
|
<details><summary>Click to expand</summary> |
|
|
|
- `overwrite_output_dir`: False |
|
- `do_predict`: False |
|
- `eval_strategy`: steps |
|
- `prediction_loss_only`: True |
|
- `per_device_train_batch_size`: 8 |
|
- `per_device_eval_batch_size`: 8 |
|
- `per_gpu_train_batch_size`: None |
|
- `per_gpu_eval_batch_size`: None |
|
- `gradient_accumulation_steps`: 1 |
|
- `eval_accumulation_steps`: None |
|
- `torch_empty_cache_steps`: None |
|
- `learning_rate`: 5e-05 |
|
- `weight_decay`: 0.0 |
|
- `adam_beta1`: 0.9 |
|
- `adam_beta2`: 0.999 |
|
- `adam_epsilon`: 1e-08 |
|
- `max_grad_norm`: 1 |
|
- `num_train_epochs`: 3 |
|
- `max_steps`: -1 |
|
- `lr_scheduler_type`: linear |
|
- `lr_scheduler_kwargs`: {} |
|
- `warmup_ratio`: 0.0 |
|
- `warmup_steps`: 0 |
|
- `log_level`: passive |
|
- `log_level_replica`: warning |
|
- `log_on_each_node`: True |
|
- `logging_nan_inf_filter`: True |
|
- `save_safetensors`: True |
|
- `save_on_each_node`: False |
|
- `save_only_model`: False |
|
- `restore_callback_states_from_checkpoint`: False |
|
- `no_cuda`: False |
|
- `use_cpu`: False |
|
- `use_mps_device`: False |
|
- `seed`: 42 |
|
- `data_seed`: None |
|
- `jit_mode_eval`: False |
|
- `use_ipex`: False |
|
- `bf16`: False |
|
- `fp16`: True |
|
- `fp16_opt_level`: O1 |
|
- `half_precision_backend`: auto |
|
- `bf16_full_eval`: False |
|
- `fp16_full_eval`: False |
|
- `tf32`: None |
|
- `local_rank`: 0 |
|
- `ddp_backend`: None |
|
- `tpu_num_cores`: None |
|
- `tpu_metrics_debug`: False |
|
- `debug`: [] |
|
- `dataloader_drop_last`: False |
|
- `dataloader_num_workers`: 0 |
|
- `dataloader_prefetch_factor`: None |
|
- `past_index`: -1 |
|
- `disable_tqdm`: False |
|
- `remove_unused_columns`: True |
|
- `label_names`: None |
|
- `load_best_model_at_end`: False |
|
- `ignore_data_skip`: False |
|
- `fsdp`: [] |
|
- `fsdp_min_num_params`: 0 |
|
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} |
|
- `fsdp_transformer_layer_cls_to_wrap`: None |
|
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} |
|
- `parallelism_config`: None |
|
- `deepspeed`: None |
|
- `label_smoothing_factor`: 0.0 |
|
- `optim`: adamw_torch_fused |
|
- `optim_args`: None |
|
- `adafactor`: False |
|
- `group_by_length`: False |
|
- `length_column_name`: length |
|
- `ddp_find_unused_parameters`: None |
|
- `ddp_bucket_cap_mb`: None |
|
- `ddp_broadcast_buffers`: False |
|
- `dataloader_pin_memory`: True |
|
- `dataloader_persistent_workers`: False |
|
- `skip_memory_metrics`: True |
|
- `use_legacy_prediction_loop`: False |
|
- `push_to_hub`: False |
|
- `resume_from_checkpoint`: None |
|
- `hub_model_id`: None |
|
- `hub_strategy`: every_save |
|
- `hub_private_repo`: None |
|
- `hub_always_push`: False |
|
- `hub_revision`: None |
|
- `gradient_checkpointing`: False |
|
- `gradient_checkpointing_kwargs`: None |
|
- `include_inputs_for_metrics`: False |
|
- `include_for_metrics`: [] |
|
- `eval_do_concat_batches`: True |
|
- `fp16_backend`: auto |
|
- `push_to_hub_model_id`: None |
|
- `push_to_hub_organization`: None |
|
- `mp_parameters`: |
|
- `auto_find_batch_size`: False |
|
- `full_determinism`: False |
|
- `torchdynamo`: None |
|
- `ray_scope`: last |
|
- `ddp_timeout`: 1800 |
|
- `torch_compile`: False |
|
- `torch_compile_backend`: None |
|
- `torch_compile_mode`: None |
|
- `include_tokens_per_second`: False |
|
- `include_num_input_tokens_seen`: False |
|
- `neftune_noise_alpha`: None |
|
- `optim_target_modules`: None |
|
- `batch_eval_metrics`: False |
|
- `eval_on_start`: False |
|
- `use_liger_kernel`: False |
|
- `liger_kernel_config`: None |
|
- `eval_use_gather_object`: False |
|
- `average_tokens_across_devices`: False |
|
- `prompts`: None |
|
- `batch_sampler`: batch_sampler |
|
- `multi_dataset_batch_sampler`: round_robin |
|
- `router_mapping`: {} |
|
- `learning_rate_mapping`: {} |
|
|
|
</details> |
|
|
|
### Training Logs |
|
| Epoch | Step | Training Loss | cosine_ndcg@10 | |
|
|:------:|:----:|:-------------:|:--------------:| |
|
| 0.2222 | 500 | 0.4649 | 0.6259 | |
|
| 0.4444 | 1000 | 0.5086 | 0.5681 | |
|
| 0.6667 | 1500 | 0.5243 | 0.6237 | |
|
| 0.8889 | 2000 | 0.5062 | 0.6097 | |
|
| 1.0 | 2250 | - | 0.5946 | |
|
| 1.1111 | 2500 | 0.3389 | 0.6567 | |
|
| 1.3333 | 3000 | 0.1844 | 0.6175 | |
|
| 1.5556 | 3500 | 0.1605 | 0.6577 | |
|
| 1.7778 | 4000 | 0.144 | 0.6864 | |
|
| 2.0 | 4500 | 0.1451 | 0.6871 | |
|
| 2.2222 | 5000 | 0.0263 | 0.7154 | |
|
| 2.4444 | 5500 | 0.0312 | 0.7324 | |
|
| 2.6667 | 6000 | 0.0279 | 0.7329 | |
|
|
|
|
|
### Framework Versions |
|
- Python: 3.13.5 |
|
- Sentence Transformers: 5.1.0 |
|
- Transformers: 4.56.1 |
|
- PyTorch: 2.8.0+cu128 |
|
- Accelerate: 1.9.0 |
|
- Datasets: 2.19.1 |
|
- Tokenizers: 0.22.0 |
|
|
|
## Citation |
|
|
|
### BibTeX |
|
|
|
#### Sentence Transformers |
|
```bibtex |
|
@inproceedings{reimers-2019-sentence-bert, |
|
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", |
|
author = "Reimers, Nils and Gurevych, Iryna", |
|
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", |
|
month = "11", |
|
year = "2019", |
|
publisher = "Association for Computational Linguistics", |
|
url = "https://arxiv.org/abs/1908.10084", |
|
} |
|
``` |
|
|
|
#### MultipleNegativesRankingLoss |
|
```bibtex |
|
@misc{henderson2017efficient, |
|
title={Efficient Natural Language Response Suggestion for Smart Reply}, |
|
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil}, |
|
year={2017}, |
|
eprint={1705.00652}, |
|
archivePrefix={arXiv}, |
|
primaryClass={cs.CL} |
|
} |
|
``` |
|
|
|
<!-- |
|
## Glossary |
|
|
|
*Clearly define terms in order to be accessible across audiences.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Authors |
|
|
|
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Contact |
|
|
|
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.* |
|
--> |