yoriis commited on
Commit
271169e
·
verified ·
1 Parent(s): 537f30d

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,493 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:23589
8
+ - loss:CosineSimilarityLoss
9
+ - dataset_size:10128
10
+ - dataset_size:13476
11
+ base_model: omarelshehy/Arabic-Retrieval-v1.0
12
+ widget:
13
+ - source_sentence: متى تم اغتيال شكري بالعيد؟
14
+ sentences:
15
+ - كان إنريكو فيرمي أول من قام بتصويب النيوترونات على اليورانيوم عام 1934 ولكنه لم
16
+ ينجح في تفسير النتائج. وقام العالم الكيميائي الألماني أوتو هان وزميلته ليز مايتنر
17
+ وزميلهما فريتز شتراسمان بتلك الأبحاث وقاموا بتحليل المواد الناتجة عن التفاعل.
18
+ وكانت مفاجأة لم يستطيعوا تفسيرها أولاً، إذ أنهم وجدوا عناصر جديدة تكونت من خلال
19
+ التفاعل. وكان أن أعادوا التجربة باستخدام يورانيوم عالي النقاء، فكانت النتيجة هي
20
+ ما وجدوه من قبل وتكوّن عنصر الباريوم. والعدد الذري للباريوم نصف العدد الذري لليورانيوم
21
+ تقريباً. كان ذلك عام 1938 وبعدها بدأت الحرب العالمية الثانية واضطرت ليزا مايتنر
22
+ إلى مغادرة ألمانيا نظراً لاضطهاد النازية لليهود. وسافرت ليزا إلى السويد حيث كان
23
+ أحد أقربائها يعمل هناك وهو روبرت فريتش. وقصت عليه نتائج تجربة اليورانيوم.
24
+ - ولاية سيدي بوزيد هي إحدى ولايات الجمهورية التونسية الـ24 من سنة1973, مساحتها 6994
25
+ كم مربع. وبلغ عدد سكان الولاية 912 429 ساكن حسب إحصائيات رسمية لسنة 2014[1], بها
26
+ 12 معتمدية أكبرها سيدي بوزيد الغربية وسيدي بوزيد الشرقية والمكناسي والرقاب وجلمة
27
+ والمزونة، هي ولاية فلاحية من أهم إنتاجها الخضر وزيت الزيتون. مركز الولاية مدينة
28
+ سيدي بوزيد.
29
+ - في ديسمبر 1800 أعلن جورج أوستن على غير توقع قرار تقاعده من عمله ككاهن، وغادر ستيفنتون
30
+ وانتقل بالعائلة إلى باث. على الرغم من أن قرار التقاعد والسفر جيدًا للأشقاء الكبار،
31
+ صدمت جين لمعرفتها أنها ستغادر المنزل الوحيد الذي طالما عرفته.[53] عدم قدرتها على
32
+ الإنتاج كان دلالة على ارتباك عقلها عندما عاشت في باث. قامت ببعض المراجعات لرواية
33
+ "سوزان"، وبدأت ثم ترطت رواية جديدة تدعى "آل واتسون" ، لكن لم يكن هناك ما يضاهي
34
+ الإنتاج المثمر ما بين 1795 و1799.[54] اقترحت تومالين أن ذلك يعكس اكتئابًا عميقًا
35
+ يعجزها ككاتبة. عارضها هونان وقال أن أوستن كتبت أو راجعت كتاباتها الخام طوال حياتها
36
+ ماعدا بضعة أشهر عقب وفاة والدها.[55]
37
+ - source_sentence: ما هو عدد ممالك إسكندنافيا؟
38
+ sentences:
39
+ - يهتم هذا العلم فعليا بدراسة الشروط الضرورية لنشأة الحياة، والآليات التي يمكن بها
40
+ تحول ما ليس بحي إلى حي لكن هذه الاليات لا تزال غير مؤكدة حتى الآن. ومع ذلك، توجد
41
+ العديد من النظريات العلمية لتفسير ظهور الحياة كما نعرفها اليوم، الذي يعتقد أنه
42
+ يعود تاريخها إلى حوالي 3،5 إلى 3،8 مليارات سنة.
43
+ - تم اغتيال الرئيس ماكينلي في سبتمبر 1901، وخلفه روزفلت إلى المنصب وهو بعمر 42 عاما،
44
+ ليصبح أصغر رئيس للبلاد في تاريخها. وقاد الحزب والبلاد في الحقبة التقدمية، ودافع
45
+ عن سياسته المحلية التي سميت "الاتفاق العادل"، واعدا بإنصاف المواطن العادي، وسحب
46
+ الديون، وتنظيم سكك الحديد والغذاء النقي والعقاقير. كما جعل الحفاظ على الطبيعة
47
+ من رأس أولوياته، وأنشأ عددا كبيرا من الحدائق الوطنية الجديدة والغابات والآثار
48
+ بهدف الحفاظ على الموارد الطبيعية للبلاد. ركز روزفلت في سياسته الخارجية على أمريكا
49
+ الوسطى، حيث بدأ بناء قناة بنما. وقام بتوسعة القوات البحرية للولايات المتحدة، وأرسل
50
+ الأسطول الأبيض العظيم في جولة حول العالم لإبراز القوة البحرية للولايات المتحدة
51
+ في جميع أنحاء العالم. كما نجح في إنهاء الحرب الروسية اليابانية، فأكسبته جهوده
52
+ جائزة نوبل للسلام عام 1906.
53
+ - ولدت آشانتي في حي جلين-كوف بولاية نيويورك بالولايات المتحدة الأمريكية، وهي أمريكية
54
+ من أصل أفريقي. وقد ورثت آشانتي شغفها للموسيقى من والدتها تينا دوجلاس والتي عملت
55
+ سابقا كمدرسة للرقص، كذلك من أبيها كين-كيد توماس دوجلاس والذي عمل سابقا كمغني.
56
+ ولها اخت صغرى تسمى كيناشيا.عمها، فوفو لاندفور، شغل منصب عمدة آتلانتيك سيتي بولاية
57
+ نيو جيرزي. وقد قامت والدة آشانتي بتسميتها بهذا الاسم تيمنا بإمبراطورية "آشانتي"
58
+ في التي وجدت يوما في "غانا". في تلك الإمبراطورية تمتعت النساء بالقوة والنفوذ،
59
+ وذلك ما تمنته الأم لابنتها.جدها، جيمس، كان ناشطا في مجال الحقوق المدنية، وساعد
60
+ السيد مارتن لوثر كينج خلال فترة الستينيات. وعندما كبرت آشانتي، بدأت في تلقى دروس
61
+ الرقص كما انضمت لجوقة الكنيسة. ذهبت آشانتي لمركز بيرنيس جونسون للفنون الثقافية،
62
+ حيث درست أنماط الرقص المختلفة، بما في ذلك النقر، الجاز، الباليه، الرقص الأفريقي،
63
+ الرقص الحديث والهيب هوب. رقصت مع فرقة برو (للكبار) بأماكن مختلفة مثل قاعة كارنيجي،
64
+ مسرح أبولو، أكاديمية بروكلين للموسيقى، قاعة آفري فيشر ومسرح الطيف الأسود. كما
65
+ قامت بالأداء أيضا في حفل الجوائز الكاريبية، ورقصت مع جوديث جاميسون من شركة آلفين
66
+ آيلي للرقص. وبقيادة الممثلة ومصممة الرقصات ديبي آلين، قامت آشانتي بالآداء في فيلم
67
+ ديزني التلفزيوني "بولي" Polly, بجانب نجوم كبار مثل كيشيا نايت بوليام وفيليشيا
68
+ رشاد.
69
+ - source_sentence: ما هي الحركة الصهيونية؟
70
+ sentences:
71
+ - كانت هذه الحروب الأهلية قد أنهكت اليثربيين أوسهم وخزرجهم , وبعد يوم بعاث قرر عقلاء
72
+ الطرفين وضع حد لهذه الحال فاتفقوا على تنصيب رجل واحد منهم يقبله الطرفان فوقع الاختيار
73
+ على عبد الله بن أبي بن سلول , وفيما كانا يُجهزان له ملكه حدثت بيعة العقبة الأولى
74
+ والثانية ودخل الإسلام يثرب ثم هاجر إليها النبي , فزال مُلك ابن أبي قبل أن يهنأ
75
+ به ولو ليوم واحد فعاش عبدالله بن أُبي تحت سيادة النبي كأكبر منافق ومعادٍ للنبي
76
+ عرفه التاريخ الإسلامي , والسبب في هذا واضحٌ فهو كان يرى أن النبي قد انتزعه ملكه
77
+ الذي كان يُجهز له . وكان يوم بعاث نهاية لحروب يثرب بين الأوس والخزرج حيث أنهم
78
+ اصطلحوا على ايقاف الحرب ثم دخلوا في الإسلام جميعاً وأصبحت سيوفهم تُسل على عدو
79
+ واحد دفاعاً عن عقيدتهم .
80
+ - شريف كواشي (1982-2015) وهو أحد المنفذين لحادثة الهجوم على صحيفة شارلي إبدو في
81
+ 7 يناير 2015 رفقة شقيقه الأكبر سعيد كواشي.
82
+ - أهم الأنهار التي تصب في البحر الأسود هو نهر الدانوب في الشمال الغربي و نهر الدنيستر
83
+ و الدنييبر في الشمال و نهر الكوبان في الشرق و نهر سقاريا في الجنوب و لا يوجد فيه
84
+ سوى ثلاث جزر صغيرة مهمة مميزة و هي زميني و بيرتيران و كفكن . مساحة المسطح المائي
85
+ للبحر الأسود تزيد عن 420 ألف كم مربع وأقصى عمق له 2210 م و أقصر عرض له يقع فيما
86
+ بين رأس سارتيش في شبه جزيرة القرم شمالا و رأس سارتيش جنوبا و لا يزيد على 263 كم
87
+ .
88
+ - source_sentence: ما هي كونشيرتو دي آرانخويث؟
89
+ sentences:
90
+ - زلزال سيتشوان 2008 هو زلزال حدث في مقاطعة سيشوان جنوب غرب جمهورية الصين الشعبية
91
+ في 12 مايو 2008 بالتوقيت المحلي 14:28:04، 06:28:04 غرينيتش. حسب نشرة للمسح الجيولوجي
92
+ الأمريكي أن شدة الزلزال بلغت 7.8 حسب مقياس ريختر.[1]. شعر بالزلزال سكان بكين،
93
+ شانغهاي، بانكوك، هونغ كونغ، هانوي، وتايبيه.[2]
94
+ - 'البصمة الوراثية أو الطبعة الوراثية أو بصمة الحمض النووي هي أحد وسائل التعرف على
95
+ الشخص عن طريق مقارنة مقاطع من الحمض النووي الريبوزي منقوص الأكسجين.[1][2][3] وتعتبر
96
+ البصمة الوراثية أهم تقدم للبشرية ضمن مجال البحث الجنائي من أجل محاربة الجريمة.
97
+ إن كل ما يحتاج إليه المحققون لتحديد البصمة الوراثية هو العثور على دليل بشري في
98
+ مكان الجريمة، مثل: قطرات العرق، السائل المنوي، الشعر، واللعاب. فكل ما يلمس المرء،
99
+ ومهما بلغت بساطة اللمسة، سيترك أثراً لبصمة وراثية فريدة.'
100
+ - حَقلُ الغَوَّار هو حقل نفط يقع بمحافظة الأحساء، بالمنطقة الشرقية، في السعودية[1].
101
+ يبلغ اتساعه 280 في 30 كلم، وهو أكبر حقل نفط معروف في العالم[1]، وهو السبب في أكثر
102
+ من نصف إنتاج نصف كمية البترول التراكمية في السعودية. تمتلك أرامكو السعودية حقل
103
+ الغوّار وتديره بالكامل، هناك معلومات قليلة نسبياً عن الحقل، بسبب تحفظ الحكومة
104
+ السعودية على بيانات الأداء والإنتاج، ولكن تتوفر عنه بعض المعلومات السابقة أثناء
105
+ الدولة السعودية الثالثة من المنشورات الطارئة أو القولية[1].
106
+ - source_sentence: متى ولد زين الدين زيدان ؟
107
+ sentences:
108
+ - الدرفلة هي عملية صناعية تعتبر إحدى طرق تشكيل المعادن. وتعتمد فكرتها على تمرير
109
+ المعدن على البارد أو الساخن عبر أجسام أسطوانية ثقيلة وذات صلادة عالية (تسمى الدرافيل)
110
+ وذلك بهدف تقليل سمك الصفائح أو قطر القضبان.[1][2]
111
+ - والرئيس الحالي للبرتغال هو مارسيلو ريبيلو دي سوزا، الذي تولى منصبه في 9 مارس 2016.
112
+ - هو أبو عبد الله حمود عقلا الشعيبي (ولد عام 1346هـ - توفي عام 1422 هـ) اسمه بالكامل
113
+ حمود بن عبد الله بن عقلاء بن محمد بن علي بن عقلاء الشعيبي الخالدي من آل جناح من
114
+ بني خالد ولد في بلدة الشقة من أعمال القصيم، نشأ في بيت دين وكرم فلما كان عمره
115
+ ست سنوات التحق بالكتّاب فتعلم القراءة والكتابة والحساب، وفي عام 1352 هـ أصيب الشعيبي
116
+ بمرض الجدري مما أدى إلى فقده بصره، وقد حرص عليه والده منذ نعومة أظفاره وكان والده
117
+ عبد الله صاحب زراعة وفلاحة فتعلم الشعيبي منه مع فقده لبصره الزراعة والسقي وغيرها.
118
+ pipeline_tag: sentence-similarity
119
+ library_name: sentence-transformers
120
+ ---
121
+
122
+ # SentenceTransformer based on omarelshehy/Arabic-Retrieval-v1.0
123
+
124
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [omarelshehy/Arabic-Retrieval-v1.0](https://huggingface.co/omarelshehy/Arabic-Retrieval-v1.0). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
125
+
126
+ ## Model Details
127
+
128
+ ### Model Description
129
+ - **Model Type:** Sentence Transformer
130
+ - **Base model:** [omarelshehy/Arabic-Retrieval-v1.0](https://huggingface.co/omarelshehy/Arabic-Retrieval-v1.0) <!-- at revision 899f6e1b765915a72d5e4ace6bb2b221715550d8 -->
131
+ - **Maximum Sequence Length:** 512 tokens
132
+ - **Output Dimensionality:** 768 dimensions
133
+ - **Similarity Function:** Cosine Similarity
134
+ <!-- - **Training Dataset:** Unknown -->
135
+ <!-- - **Language:** Unknown -->
136
+ <!-- - **License:** Unknown -->
137
+
138
+ ### Model Sources
139
+
140
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
141
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
142
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
143
+
144
+ ### Full Model Architecture
145
+
146
+ ```
147
+ SentenceTransformer(
148
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
149
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
150
+ )
151
+ ```
152
+
153
+ ## Usage
154
+
155
+ ### Direct Usage (Sentence Transformers)
156
+
157
+ First install the Sentence Transformers library:
158
+
159
+ ```bash
160
+ pip install -U sentence-transformers
161
+ ```
162
+
163
+ Then you can load this model and run inference.
164
+ ```python
165
+ from sentence_transformers import SentenceTransformer
166
+
167
+ # Download from the 🤗 Hub
168
+ model = SentenceTransformer("yoriis/BGE-M3-QUQA-cosine")
169
+ # Run inference
170
+ sentences = [
171
+ 'متى ولد زين الدين زيدان ؟',
172
+ 'الدرفلة هي عملية صناعية تعتبر إحدى طرق تشكيل المعادن. وتعتمد فكرتها على تمرير المعدن على البارد أو الساخن عبر أجسام أسطوانية ثقيلة وذات صلادة عالية (تسمى الدرافيل) وذلك بهدف تقليل سمك الصفائح أو قطر القضبان.[1][2]',
173
+ 'هو أبو عبد الله حمود عقلا الشعيبي (ولد عام 1346هـ - توفي عام 1422 هـ) اسمه بالكامل حمود بن عبد الله بن عقلاء بن محمد بن علي بن عقلاء الشعيبي الخالدي من آل جناح من بني خالد ولد في بلدة الشقة من أعمال القصيم، نشأ في بيت دين وكرم فلما كان عمره ست سنوات التحق بالكتّاب فتعلم القراءة والكتابة والحساب، وفي عام 1352 هـ أصيب الشعيبي بمرض الجدري مما أدى إلى فقده بصره، وقد حرص عليه والده منذ نعومة أظفاره وكان والده عبد الله صاحب زراعة وفلاحة فتعلم الشعيبي منه مع فقده لبصره الزراعة والسقي وغيرها.',
174
+ ]
175
+ embeddings = model.encode(sentences)
176
+ print(embeddings.shape)
177
+ # [3, 768]
178
+
179
+ # Get the similarity scores for the embeddings
180
+ similarities = model.similarity(embeddings, embeddings)
181
+ print(similarities.shape)
182
+ # [3, 3]
183
+ ```
184
+
185
+ <!--
186
+ ### Direct Usage (Transformers)
187
+
188
+ <details><summary>Click to see the direct usage in Transformers</summary>
189
+
190
+ </details>
191
+ -->
192
+
193
+ <!--
194
+ ### Downstream Usage (Sentence Transformers)
195
+
196
+ You can finetune this model on your own dataset.
197
+
198
+ <details><summary>Click to expand</summary>
199
+
200
+ </details>
201
+ -->
202
+
203
+ <!--
204
+ ### Out-of-Scope Use
205
+
206
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
207
+ -->
208
+
209
+ <!--
210
+ ## Bias, Risks and Limitations
211
+
212
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
213
+ -->
214
+
215
+ <!--
216
+ ### Recommendations
217
+
218
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
219
+ -->
220
+
221
+ ## Training Details
222
+
223
+ ### Training Dataset
224
+
225
+ #### Unnamed Dataset
226
+
227
+ * Size: 13,476 training samples
228
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
229
+ * Approximate statistics based on the first 1000 samples:
230
+ | | sentence_0 | sentence_1 | label |
231
+ |:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------|
232
+ | type | string | string | float |
233
+ | details | <ul><li>min: 5 tokens</li><li>mean: 22.14 tokens</li><li>max: 105 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 39.06 tokens</li><li>max: 308 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.26</li><li>max: 1.0</li></ul> |
234
+ * Samples:
235
+ | sentence_0 | sentence_1 | label |
236
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
237
+ | <code>من رفض تنفيذ المشروع ( أول مرة ) فهو غير مؤهل لتكملة مشروعك، أذكر الآية التي دلت على هذا المعنى؟.</code> | <code>فإن رجعك الله إلى طائفة منهم فاستأذنوك للخروج فقل لن تخرجوا معي أبدا ولن تقاتلوا معي عدوا إنكم رضيتم بالقعود أول مرة فاقعدوا مع الخالفين{83} التوبة</code> | <code>1.0</code> |
238
+ | <code>ما الآية التي تدل على أن ما أصابك -أيها الإنسان- مِن خير ونعمة فهو من الله تعالى وحده, فضلا وإحسانًا, وما أصابك من جهد وشدة فبسبب عملك السيئ ؟</code> | <code>قال فإنا قد فتنا قومك من بعدك وأضلهم السامري{85} طه</code> | <code>0.0</code> |
239
+ | <code>ما هو الشرك الأكبر؟</code> | <code>وإذ قلنا ادخلوا هـذه القرية فكلوا منها حيث شئتم رغدا وادخلوا الباب سجدا وقولوا حطة نغفر لكم خطاياكم وسنزيد المحسنين{58} فبدل الذين ظلموا قولا غير الذي قيل لهم فأنزلنا على الذين ظلموا رجزا من السماء بما كانوا يفسقون{59}البقرة..</code> | <code>0.0</code> |
240
+ * Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
241
+ ```json
242
+ {
243
+ "loss_fct": "torch.nn.modules.loss.MSELoss"
244
+ }
245
+ ```
246
+
247
+ ### Training Hyperparameters
248
+ #### Non-Default Hyperparameters
249
+
250
+ - `per_device_train_batch_size`: 4
251
+ - `per_device_eval_batch_size`: 4
252
+ - `fp16`: True
253
+ - `multi_dataset_batch_sampler`: round_robin
254
+
255
+ #### All Hyperparameters
256
+ <details><summary>Click to expand</summary>
257
+
258
+ - `overwrite_output_dir`: False
259
+ - `do_predict`: False
260
+ - `eval_strategy`: no
261
+ - `prediction_loss_only`: True
262
+ - `per_device_train_batch_size`: 4
263
+ - `per_device_eval_batch_size`: 4
264
+ - `per_gpu_train_batch_size`: None
265
+ - `per_gpu_eval_batch_size`: None
266
+ - `gradient_accumulation_steps`: 1
267
+ - `eval_accumulation_steps`: None
268
+ - `torch_empty_cache_steps`: None
269
+ - `learning_rate`: 5e-05
270
+ - `weight_decay`: 0.0
271
+ - `adam_beta1`: 0.9
272
+ - `adam_beta2`: 0.999
273
+ - `adam_epsilon`: 1e-08
274
+ - `max_grad_norm`: 1
275
+ - `num_train_epochs`: 3
276
+ - `max_steps`: -1
277
+ - `lr_scheduler_type`: linear
278
+ - `lr_scheduler_kwargs`: {}
279
+ - `warmup_ratio`: 0.0
280
+ - `warmup_steps`: 0
281
+ - `log_level`: passive
282
+ - `log_level_replica`: warning
283
+ - `log_on_each_node`: True
284
+ - `logging_nan_inf_filter`: True
285
+ - `save_safetensors`: True
286
+ - `save_on_each_node`: False
287
+ - `save_only_model`: False
288
+ - `restore_callback_states_from_checkpoint`: False
289
+ - `no_cuda`: False
290
+ - `use_cpu`: False
291
+ - `use_mps_device`: False
292
+ - `seed`: 42
293
+ - `data_seed`: None
294
+ - `jit_mode_eval`: False
295
+ - `use_ipex`: False
296
+ - `bf16`: False
297
+ - `fp16`: True
298
+ - `fp16_opt_level`: O1
299
+ - `half_precision_backend`: auto
300
+ - `bf16_full_eval`: False
301
+ - `fp16_full_eval`: False
302
+ - `tf32`: None
303
+ - `local_rank`: 0
304
+ - `ddp_backend`: None
305
+ - `tpu_num_cores`: None
306
+ - `tpu_metrics_debug`: False
307
+ - `debug`: []
308
+ - `dataloader_drop_last`: False
309
+ - `dataloader_num_workers`: 0
310
+ - `dataloader_prefetch_factor`: None
311
+ - `past_index`: -1
312
+ - `disable_tqdm`: False
313
+ - `remove_unused_columns`: True
314
+ - `label_names`: None
315
+ - `load_best_model_at_end`: False
316
+ - `ignore_data_skip`: False
317
+ - `fsdp`: []
318
+ - `fsdp_min_num_params`: 0
319
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
320
+ - `fsdp_transformer_layer_cls_to_wrap`: None
321
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
322
+ - `deepspeed`: None
323
+ - `label_smoothing_factor`: 0.0
324
+ - `optim`: adamw_torch
325
+ - `optim_args`: None
326
+ - `adafactor`: False
327
+ - `group_by_length`: False
328
+ - `length_column_name`: length
329
+ - `ddp_find_unused_parameters`: None
330
+ - `ddp_bucket_cap_mb`: None
331
+ - `ddp_broadcast_buffers`: False
332
+ - `dataloader_pin_memory`: True
333
+ - `dataloader_persistent_workers`: False
334
+ - `skip_memory_metrics`: True
335
+ - `use_legacy_prediction_loop`: False
336
+ - `push_to_hub`: False
337
+ - `resume_from_checkpoint`: None
338
+ - `hub_model_id`: None
339
+ - `hub_strategy`: every_save
340
+ - `hub_private_repo`: None
341
+ - `hub_always_push`: False
342
+ - `hub_revision`: None
343
+ - `gradient_checkpointing`: False
344
+ - `gradient_checkpointing_kwargs`: None
345
+ - `include_inputs_for_metrics`: False
346
+ - `include_for_metrics`: []
347
+ - `eval_do_concat_batches`: True
348
+ - `fp16_backend`: auto
349
+ - `push_to_hub_model_id`: None
350
+ - `push_to_hub_organization`: None
351
+ - `mp_parameters`:
352
+ - `auto_find_batch_size`: False
353
+ - `full_determinism`: False
354
+ - `torchdynamo`: None
355
+ - `ray_scope`: last
356
+ - `ddp_timeout`: 1800
357
+ - `torch_compile`: False
358
+ - `torch_compile_backend`: None
359
+ - `torch_compile_mode`: None
360
+ - `include_tokens_per_second`: False
361
+ - `include_num_input_tokens_seen`: False
362
+ - `neftune_noise_alpha`: None
363
+ - `optim_target_modules`: None
364
+ - `batch_eval_metrics`: False
365
+ - `eval_on_start`: False
366
+ - `use_liger_kernel`: False
367
+ - `liger_kernel_config`: None
368
+ - `eval_use_gather_object`: False
369
+ - `average_tokens_across_devices`: False
370
+ - `prompts`: None
371
+ - `batch_sampler`: batch_sampler
372
+ - `multi_dataset_batch_sampler`: round_robin
373
+
374
+ </details>
375
+
376
+ ### Training Logs
377
+ | Epoch | Step | Training Loss |
378
+ |:------:|:-----:|:-------------:|
379
+ | 0.0848 | 500 | 0.0371 |
380
+ | 0.1695 | 1000 | 0.0317 |
381
+ | 0.2543 | 1500 | 0.0302 |
382
+ | 0.3391 | 2000 | 0.0304 |
383
+ | 0.4239 | 2500 | 0.0295 |
384
+ | 0.5086 | 3000 | 0.0263 |
385
+ | 0.5934 | 3500 | 0.0271 |
386
+ | 0.6782 | 4000 | 0.0278 |
387
+ | 0.7630 | 4500 | 0.0263 |
388
+ | 0.8477 | 5000 | 0.0271 |
389
+ | 0.9325 | 5500 | 0.0253 |
390
+ | 1.0173 | 6000 | 0.022 |
391
+ | 1.1021 | 6500 | 0.0085 |
392
+ | 1.1868 | 7000 | 0.0115 |
393
+ | 1.2716 | 7500 | 0.0127 |
394
+ | 1.3564 | 8000 | 0.0111 |
395
+ | 1.4412 | 8500 | 0.011 |
396
+ | 1.5259 | 9000 | 0.0124 |
397
+ | 1.6107 | 9500 | 0.0116 |
398
+ | 1.6955 | 10000 | 0.0112 |
399
+ | 1.7803 | 10500 | 0.0131 |
400
+ | 1.8650 | 11000 | 0.0127 |
401
+ | 1.9498 | 11500 | 0.011 |
402
+ | 2.0346 | 12000 | 0.0094 |
403
+ | 2.1194 | 12500 | 0.0051 |
404
+ | 2.2041 | 13000 | 0.0042 |
405
+ | 2.2889 | 13500 | 0.0044 |
406
+ | 2.3737 | 14000 | 0.0048 |
407
+ | 2.4585 | 14500 | 0.0065 |
408
+ | 2.5432 | 15000 | 0.0055 |
409
+ | 2.6280 | 15500 | 0.0055 |
410
+ | 2.7128 | 16000 | 0.0049 |
411
+ | 2.7976 | 16500 | 0.0049 |
412
+ | 2.8823 | 17000 | 0.0045 |
413
+ | 2.9671 | 17500 | 0.0053 |
414
+ | 0.1975 | 500 | 0.0366 |
415
+ | 0.3949 | 1000 | 0.0155 |
416
+ | 0.5924 | 1500 | 0.0143 |
417
+ | 0.7899 | 2000 | 0.012 |
418
+ | 0.9874 | 2500 | 0.0119 |
419
+ | 1.1848 | 3000 | 0.006 |
420
+ | 1.3823 | 3500 | 0.0052 |
421
+ | 1.5798 | 4000 | 0.005 |
422
+ | 1.7773 | 4500 | 0.0048 |
423
+ | 1.9747 | 5000 | 0.0037 |
424
+ | 2.1722 | 5500 | 0.0023 |
425
+ | 2.3697 | 6000 | 0.0018 |
426
+ | 2.5671 | 6500 | 0.0016 |
427
+ | 2.7646 | 7000 | 0.0018 |
428
+ | 2.9621 | 7500 | 0.0023 |
429
+ | 0.1484 | 500 | 0.1158 |
430
+ | 0.2968 | 1000 | 0.1153 |
431
+ | 0.4452 | 1500 | 0.1063 |
432
+ | 0.5936 | 2000 | 0.0976 |
433
+ | 0.7421 | 2500 | 0.0971 |
434
+ | 0.8905 | 3000 | 0.0985 |
435
+ | 1.0389 | 3500 | 0.0885 |
436
+ | 1.1873 | 4000 | 0.062 |
437
+ | 1.3357 | 4500 | 0.0582 |
438
+ | 1.4841 | 5000 | 0.0635 |
439
+ | 1.6325 | 5500 | 0.0618 |
440
+ | 1.7809 | 6000 | 0.0596 |
441
+ | 1.9294 | 6500 | 0.0626 |
442
+ | 2.0778 | 7000 | 0.0482 |
443
+ | 2.2262 | 7500 | 0.0397 |
444
+ | 2.3746 | 8000 | 0.0376 |
445
+ | 2.5230 | 8500 | 0.0432 |
446
+ | 2.6714 | 9000 | 0.0397 |
447
+ | 2.8198 | 9500 | 0.0413 |
448
+ | 2.9682 | 10000 | 0.0403 |
449
+
450
+
451
+ ### Framework Versions
452
+ - Python: 3.11.13
453
+ - Sentence Transformers: 4.1.0
454
+ - Transformers: 4.54.0
455
+ - PyTorch: 2.6.0+cu124
456
+ - Accelerate: 1.9.0
457
+ - Datasets: 4.0.0
458
+ - Tokenizers: 0.21.2
459
+
460
+ ## Citation
461
+
462
+ ### BibTeX
463
+
464
+ #### Sentence Transformers
465
+ ```bibtex
466
+ @inproceedings{reimers-2019-sentence-bert,
467
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
468
+ author = "Reimers, Nils and Gurevych, Iryna",
469
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
470
+ month = "11",
471
+ year = "2019",
472
+ publisher = "Association for Computational Linguistics",
473
+ url = "https://arxiv.org/abs/1908.10084",
474
+ }
475
+ ```
476
+
477
+ <!--
478
+ ## Glossary
479
+
480
+ *Clearly define terms in order to be accessible across audiences.*
481
+ -->
482
+
483
+ <!--
484
+ ## Model Card Authors
485
+
486
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
487
+ -->
488
+
489
+ <!--
490
+ ## Model Card Contact
491
+
492
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
493
+ -->
added_tokens.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "<passage>": 64001,
3
+ "<query>": 64000
4
+ }
config.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "BertModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "classifier_dropout": null,
7
+ "hidden_act": "gelu",
8
+ "hidden_dropout_prob": 0.1,
9
+ "hidden_size": 768,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 3072,
12
+ "layer_norm_eps": 1e-12,
13
+ "max_position_embeddings": 512,
14
+ "model_type": "bert",
15
+ "num_attention_heads": 12,
16
+ "num_hidden_layers": 12,
17
+ "pad_token_id": 0,
18
+ "position_embedding_type": "absolute",
19
+ "torch_dtype": "float32",
20
+ "transformers_version": "4.54.0",
21
+ "type_vocab_size": 2,
22
+ "use_cache": true,
23
+ "vocab_size": 64002
24
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.54.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:033eb8e259132b4ab4ac60174ffe6d4d8bd16ac053cff133cf28350642bc0da1
3
+ size 540801896
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,110 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "5": {
44
+ "content": "[رابط]",
45
+ "lstrip": false,
46
+ "normalized": true,
47
+ "rstrip": false,
48
+ "single_word": true,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[بريد]",
53
+ "lstrip": false,
54
+ "normalized": true,
55
+ "rstrip": false,
56
+ "single_word": true,
57
+ "special": true
58
+ },
59
+ "7": {
60
+ "content": "[مستخدم]",
61
+ "lstrip": false,
62
+ "normalized": true,
63
+ "rstrip": false,
64
+ "single_word": true,
65
+ "special": true
66
+ },
67
+ "64000": {
68
+ "content": "<query>",
69
+ "lstrip": false,
70
+ "normalized": false,
71
+ "rstrip": false,
72
+ "single_word": false,
73
+ "special": true
74
+ },
75
+ "64001": {
76
+ "content": "<passage>",
77
+ "lstrip": false,
78
+ "normalized": false,
79
+ "rstrip": false,
80
+ "single_word": false,
81
+ "special": true
82
+ }
83
+ },
84
+ "clean_up_tokenization_spaces": false,
85
+ "cls_token": "[CLS]",
86
+ "do_basic_tokenize": true,
87
+ "do_lower_case": false,
88
+ "extra_special_tokens": {},
89
+ "mask_token": "[MASK]",
90
+ "max_len": 512,
91
+ "max_length": 256,
92
+ "model_max_length": 512,
93
+ "never_split": [
94
+ "[بريد]",
95
+ "[مستخدم]",
96
+ "[رابط]"
97
+ ],
98
+ "pad_to_multiple_of": null,
99
+ "pad_token": "[PAD]",
100
+ "pad_token_type_id": 0,
101
+ "padding_side": "right",
102
+ "sep_token": "[SEP]",
103
+ "stride": 0,
104
+ "strip_accents": null,
105
+ "tokenize_chinese_chars": true,
106
+ "tokenizer_class": "BertTokenizer",
107
+ "truncation_side": "right",
108
+ "truncation_strategy": "longest_first",
109
+ "unk_token": "[UNK]"
110
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff