yoriis commited on
Commit
82c1e13
·
verified ·
1 Parent(s): d401d17

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,572 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:40000
8
+ - loss:CosineSimilarityLoss
9
+ - dataset_size:10128
10
+ - loss:ContrastiveLoss
11
+ - dataset_size:13476
12
+ base_model: NAMAA-Space/AraModernBert-Base-STS
13
+ widget:
14
+ - source_sentence: أين يقع مقر الاتحاد الدولي للاسكواش؟
15
+ sentences:
16
+ - و يقع مقره قي سانت ليوناردز-أون-سي قي إنجلترا. اعتبارا من عام 2009 فقد ضم الاتحاد
17
+ الدولي 147 عضوا من الاتحادات الوطنية. وقد قام الاتحاد الدولي للاسكواش بتقديم طلب
18
+ لأضافة لعبة الاسكواش إلى الألعاب الأولمبية قي الألعاب الأولمبية الصيفية المقرر
19
+ أقامتها قي ريو دي جانيرو عام 2016. ورئيس الاتحاد الدولي للإسكواش هو السعودي زياد
20
+ التركي
21
+ - 'الأم الجافية تتكون من طبقتين: طبقة خارجية ليفية تلتصق بالعظام fibrous layer،
22
+ وطبقة داخلية ناعمة serous layer.[1][2][3] والطبقة الناعمة تمشي معا مع الطبقة الليفية
23
+ لكنها تنفصل عنها في الأماكن التي يجب أن تكون فيها الأوردة والحواجز. يأتي تجهيز
24
+ الدم لهذه الطبقة من شرايين كثيرة صغيرة ومن شريان كبير واحد هو الشريان الغلافي
25
+ الوسطي middle meningeal artery، وهو فرع من شريان الفك العلوي maxillary artery
26
+ ويدخل الجمجمة من الثقب الشائك foramen spinosum. عندها يكون قد أصبح في الحفرة القحفية
27
+ الوسطية يجري إلى الأمام والخارج ثم يصعد وينقسم إلى قسم أمامي وقسم خلفي.'
28
+ - إنَّ دراسة السنوات الأولى من عُمر الدولة العُثمانيَّة والرجوع إلى أصلها الأوَّل
29
+ هو من الأمور الجدليَّة التي يخوض فيها الباحثون والمؤرخون، وذلك بسبب اختلاط الأحداث
30
+ الواقعيَّة بالأساطير والروايات المنقولة عبر الأجيال؛ لكن عمومًا، يتَّفق أغلب الباحثين
31
+ أنَّ الدولة العُثمانيَّة ظهرت ككيان سياسي فعليّ قُرابة عام 1299م، وأنَّها كانت
32
+ في بداية عهدها إمارة تابعة للسلطنة السلجوقيَّة الروميَّة ثُمَّ استقلَّت عنها بعد
33
+ انهيار تلك الأخيرة وتفتتها، وأنَّ أوَّل زُعمائها كان عُثمان بن أرطغرل من قبيلة
34
+ قايي التُركيَّة الغُزيَّة.[2] وبهذا فهو يُعتبر مؤسس هذه السُلالة الملكيَّة، وهي
35
+ تُنسب إليه.
36
+ - source_sentence: متى حصلت المرأة على حق التصويت في امريكا ؟
37
+ sentences:
38
+ - إلا أن الغالبية العظمى من السكان تفضل استخدام اللغة العربية؛ لارتباطها بالدين
39
+ والتراث الإسلامي؛ حيث أن أغلب سكان إرتريا مسلمون، كما أنها لا تزال اللغة الرسمية
40
+ في دواوين الدولة والإذاعة والتلفزيون والصحيفة الرسمية الناطقة باسم الدولة، وهي
41
+ صحيفة إرتريا الحديثة.
42
+ - تورينو (Torino Football Club SpA) هو نادي كرة قدم معروف من تورينو، إيطاليا. يلقب
43
+ الفريق "غراناتا" (الكستنائيون، إشارة إلى لون زي الفريق) و"تورو" (الثور، إشارة
44
+ لشعار مدينة تورينو). كان الفريق منذ تأسيسه حتى عام 1970 يعرف باسم "A.C. Torino"،
45
+ وبعد ذلك "Torino Calcio" حتى عام 2005، حينما أخذ مسماه الحالي. صعد الفريق للدوري
46
+ الإيطالي الدرجة الأولى (سيري آ) بعدما احتل المركز الثالث الموسم الماضي في الدرجة
47
+ الثانية. في عام 1992 وصل إلى المباراة النهائية من كأس الاتحاد الأوروبي التي خسرها
48
+ أمام نادي أياكس أمستردام الهولندي.
49
+ - في يناير من عام 1996، كانت بداية شركة جوجل في صورة مشروع بحثي بدأه لاري بيج وسرعان
50
+ ما شارك فيه سيرجي برن، وذلك حينما كانا طالبين يقومان بتحضير رسالة الدكتوراه في
51
+ جامعة ستانفورد بولاية كاليفورنيا.[8] وقد افترضا أن محرك البحث الذي يقوم بتحليل
52
+ العلاقات بين مواقع الشبكة من ش��نه أن يوفر ترتيبًا لنتائج البحث أفضل من ذلك الذي
53
+ توفره أي أساليب متبعة بالفعل والتي تقوم بترتيب النتائج حسب عدد مرات ظهور المصطلح
54
+ الذي يتم البحث عنه داخل الصفحة.[9] وكان قد أطلق على محرك البحث الذي قاما بإنشائه
55
+ اسم باك رب لأن النظام الخاص به كان يفحص روابط العودة الموجودة بالموقع من أجل
56
+ تقييم درجة أهمية الموقع[10][11]، وكان هناك محرك بحث صغير اسمه "Rankdex" يحاول
57
+ بالفعل البحث عن تقنية مماثلة.[12] ومن منطلق اقتناع "بيدج" و"برن" بأن الصفحات التي
58
+ تتضمن روابط تشير لصفحات أخرى ذات صلة هي الصفحات الأكثر ارتباطًا بعملية البحث.
59
+ قام كلاهما باختبار فرضيتهما كجزء من الدراسة التي يقومان بها، ومن ثم وضعا أساس
60
+ محرك البحث الخاص بهما. ولقد استخدم محرك البحث آنذاك موقع الويب الخاص في جامعة
61
+ "ستانفورد" مستخدمين النطاق google.stanford.edu.[13] وفي 15 سبتمبر 1997 تم تسجيل
62
+ ملكية جوجل دوت كوم، وفي 4 سبتمبر عام 1998 تم تسجيل الشركة بإسم جوجل. وكان مقرها
63
+ مرآب سيارات بمنزل أحد أصدقاء "برن" و"بيدج" في مدينة "مينلو بارك بولاية كاليفورنيا.
64
+ وقد بلغ إجمالي المبالغ المبدئية التي تم جمعها لتأسيس الشركة الجديدة 1.1 مليون
65
+ دولار أمريكي تقريبًا، ويشمل هذا المبلغ الإجمالي شيكًا مصرفيًا قيمته 100,000 دولار
66
+ أمريكي حرره آندي بيكتولشيم أحد مؤسسي شركة صن ميكروسيستمز.[14]. وفي مارس عام 1999،
67
+ نقلت الشركة مقرها إلى مدينة بالو ألتو وهي المدينة التي شهدت بداية العديد من التقنيات
68
+ الأخرى البارزة التي ظهرت في منطقة وادي السيليكون.[15].[15] وبعد أن اتسعت الشركة
69
+ بسرعة بحيث لم يكفها امتلاكها لمقرين، قامت في عام 2003 بتأجير مجموعة من المباني
70
+ من شركة سيليكون غرافيكس في مدينة ماونتن فيو.[16].[16] ومنذ ذلك الوقت تسكن الشركة
71
+ في هذا المكان وعُرف المقر باسم جوجل بليكس المستمد من المصطلح الرياضي "جوجل بلكس"
72
+ وهو الرقم واحد متبوع بعدد غوغول من الأصفار. وفي عام 2006، اشترت شركة جوجل مجموعة
73
+ المباني من شركة سيليكون غرافيكس مقابل 319 مليون دولار أمريكي.[17]. وقد لاقى محرك
74
+ البحث جوجل إقبالًا هائلًا من مستخدمي شبكة الإنترنت الذين أعجبهم تصميمه البسيط
75
+ ونتائجه المفيدة.[18].[18] وفي عام 2000، بدأت شركة جوجل تبيع الإعلانات ومعها الكلمات
76
+ المفتاحية للبحث[8] وكانت الإعلانات تعتمد على النصوص لكي لا تكون الصفحات مكدسة
77
+ ويتم تحميلها بأقصى سرعة.[8] وكانت الكلمات المفتاحية يتم بيعها اعتمادًا على كل
78
+ من عروض الأسعار وتقدير مدى فاعلية الإعلانات، وبدأت عروض الأسعار بسعر 0.05 دولار
79
+ أمريكي لكل مرة نقر يقوم بها المستخدم على الإعلان.[8] ولقد كانت شركة ياهو! للتسويق
80
+ المستحوذة على الشركة المعروفة سابقا باسم "جو تو" الشركة الرائدة في هذا الأمر وقد
81
+ أعيد تسميتها مؤخرًا باسم شركة "أوفرتشر للخدمات" قبل أن تستحوذ عليها شركة ياهو!
82
+ وتعيد تسميتها باسم "بحث ياهو! للتسويق".[19].[20].[21][22] أما شركة جو تو عبارة
83
+ هي عن شركة إعلانات تابعة أنشأها "بيل جروس" وكانت أولى الشركات التي نجحت في تقديم
84
+ خدمة البحث المعتمدة على سداد مبلغ مالي مقابل تحديد ما يتم البحث عنه. وكانت شركة
85
+ "أوفرتشر للخدمات" قد قامت في وقت لاحق بمقاضاة شركة جوجل بسبب قيامها من خلال خدمة
86
+ جوجل أدووردز بانتهاك براءة اختراعها لخاصيتي المزايدة وسداد مبلغ مالي معين مقابل
87
+ كل مرة نقر على الإعلانات. وقد تم تسوية القضية خارج ساحة القضاء، حيث اتفقت شركة
88
+ جوجل على أن تخصص لشركة ياهو أسهم عادية بها مقابل الحصول على ترخيص استخدام دائم
89
+ للخصائص السابقة[23]. وبالتالي ازدهرت شركة جوجل في استقرار محققة الأرباح والإيرادات
90
+ في الوقت الذي فشل فيه منافسوها في سوق الإنترنت الجديد[8].
91
+ - source_sentence: متى عاش مروان حديد؟
92
+ sentences:
93
+ - هاري ترومان ؛ (8 مايو 1884 - 26 ديسمبر 1972)، هو الرئيس الثالث والثلاثون للولايات
94
+ المتحدة الأمريكية، تولى المنصب من 12 أبريل 1945 حتى 20 يناير 1953، كان ترومان
95
+ يشغل منصب نائب الرئيس الأمريكي لمدة 82 يومًا ثم تولى الرئاسة خلفاً للرئيس فرانكلين
96
+ روزفلت الذي توفي في المنصب، وكان عضواً في مجلس الشيوخ الأمريكي عن ولاية ميسوري
97
+ (1935-1945)، أشرف ترومان على إنهاء الحرب العالمية الثانية واستسلام كلٍ من ألمانيا
98
+ النازية واليابان، كما أمر بإطلاق قنبلتي هيروشيما وناجازاكي في أغسطس 1945، وعمل
99
+ على إنشاء منظمة حلف شمال الأطلسي في عام 1949، كذلك بدأت في عهده الحرب الباردة
100
+ بين الولايات المتحدة والاتحاد السوفيتي، كما ساهم في التدخل العسكري في الحرب الكورية
101
+ عام 1950.
102
+ - اللغات الكنعانية، هي عبارة عن مجموعة من اللغات السامية التي تنتمي إلى اللغات السامية
103
+ الشمالية الغربية - الفرع الكنعاني. وقد انتشرت اللغات الكنعانية في أرض كنعان التي
104
+ تشمل أساساً فلسطين والساحل الغربي للبنان والجنوب الغربي من سوريا على لسان الكنعانيين
105
+ بعد هجرتهم إليها، وكانت هذه اللغات عبارة عن مجموعة من اللهجات المتقاربة من بعضها
106
+ البعض في الصفات اللغوية.
107
+ - تقع أردبيل على بعد حوالي 70 كم من بحر قزوين، 210 كم عن مدينة تبريز. وعلى متوسط
108
+ إرتفاع 1263 متر وتصل مساحتها إلى 18.011 كم².
109
+ - source_sentence: ما هي نسبة السكر في الدم عند الإنسان السليم؟
110
+ sentences:
111
+ - الذبحة الصدرية (خُناق الصدر) هي الإحساس بالألم أو الضغط في الصدر، الناتج عن
112
+ إقفار (نقص في الإمداد الدموي وبالتالي في الأكسجين الوارد) في عضل القلب، عادة نتيجة
113
+ انسداد أو تشنج في الشرايين التاجية (الأوعية المغذية لعضلة القلب).[1] في حين أن
114
+ الذبحة الصدرية قد تنبع من فقر الدم، اضطراب النظم القلبي أو قصور القلب إلا أن السبب
115
+ الرئيسي للذبحة هو الداء القلبي الإكليلي وينتج عن تصلب عصيدي في الشرايين القلبية.
116
+ - البروستاغلاندين هي عبارة عن مستقلبات حمض الأراكيدونيك، تنتج من فعل الفوسفوليباز
117
+ (توجد عدة أنواع من هذا الأنزيم) على الدهن الفسفوري الغشائي، وتلعب دورا هاما في
118
+ الكائنات الحية.
119
+ - زامبيا أو رسميا جمهورية زامبيا هي بلد غير ساحلي في جنوب القارة الأفريقية،[1] المجاورة
120
+ جمهورية الكونغو الديمقراطية في الشمال، وتنزانيا من الشمال الشرقي، ملاوي من الشرق
121
+ وموزمبيق وزيمبابوي وبوتسوانا وناميبيا إلى الجنوب، وأنغولا إلى الغرب . العاصمة
122
+ هي لوساكا، في الجزء الجنوبي الأوسط من زامبيا. ويتركز السكان أساسا حول لوساكا في
123
+ الجنوب ومقاطعة حزام النحاس في الشمال الغربي، والمحاور الاقتصادية الأساسية للبلد.
124
+ - source_sentence: متى بدأت حروب الهند الصينية؟
125
+ sentences:
126
+ - 'لم يكن لينين يهتم كثيرا بالشؤون الدينية ونادرا ماكان يتحدث عن الأديان لكنه أعطى
127
+ حرية العبادة للمتدينين وقد تبين ذلك في نص ورسالة وجهها إلى المسلمين في 24 نوفمبر
128
+ 1917 جاء فيها: يا أيها المسلمون بروسيا وسيبيريا وتركستا�� والقوقاز … يا أيها الذين
129
+ هدم القياصرة مساجدهم وعبث الطغاة بمعتقداتهم وعاداتهم أن معتقداتكم وعاداتكم ومؤسساتكم
130
+ القومية والثقافية أصبحت اليوم حرة مقدسة، نظموا حياتكم القومية بكامل الحرية وبدون
131
+ قيد فهي حق لكم. وأعلموا أن الثورة العظيمة وسوفياتات النواب والعمال والجنود والفلاحيين
132
+ تحمي حقوقكم وحقوق جميع شعوب روسيا. وقد تم وضع برنامج ضخم لما يمكن أن يطلق عليه
133
+ اليوم “التمييز المضـــاد”، سُمي بالكورنيزاتسيا، أي إحلال السكان المحليين محل المستوطنين
134
+ الروس. وقد بدأ بطرد المستعمرين الروس والقوزاق والمتحدثين باسمهم من الكنيسة الأرثوذكسية
135
+ الروسية في تلك المناطق. وتوقفت اللغة الروسية عن الهيمنة، وعادت اللغات المحلية
136
+ إلى المدارس وإلى الحكومة وإلى المطبوعات. وقد تمت ترقية السكان المحليين ليشغلوا
137
+ مناصب في الدولة وفي الأحزاب الشيوعية المحلية وأعطوا أولوية حتى عن الروس في التعيينات.
138
+ وقد أُنشئت جامعات لتدريب جيل جديد من القادة غير الروس.'
139
+ - تصغير|يسار|لوحة فسيفساء أثرية في مدينة زليتن مدينة زليتن تقع على الساحل الغربي
140
+ لليبيا، على مسافة 150 كم تقريبًا شرق العاصمة طرابلس، تحدها من الغرب مدينة الخمس،
141
+ مصراتة شرقاَ، بني وليد جنوبًا، والبحر المتوسط شمالاً. بلغ عدد سكانها حسب إحصاء
142
+ 2006 حوالي "184 ألف" نسمة، ووفقا لأخر إحصاء(2012م)طبقا للسجل المدني فإن عدد سكان
143
+ زليتن هو "231 ألف" نسمة واشتهرت المدينة بكونها المركز الأبرز في البلاد لتعليم
144
+ الفقه المالكي وتحفيظ القرآن في واحدة من أهم المؤسسات التعليمية في البلاد على مر
145
+ 500 عام، وهي زاوية سيدي عبد السلام.
146
+ - 'على الرغم من التعاون التكتيكي بين الفرنسيين وفيت مين، إلا أن سياساتهم كانت متناقضة:
147
+ فيهدّف الفرنسيين إلى إعادة تأسيس قاعدة استعمارية، بينما أرادت هانوي استقلالا كليّا.
148
+ كشفت النوايا الفرنسية في قرار جورج تييري داجينلي، المندوب الأعلى للهند الصينية،
149
+ بإعلان كوتشينصين كجمهورية مستقلة ذاتيا في يونيو/حزيران عام 1946. المفاوضات الأخرى
150
+ لم تحل الخلافات الأساسية بين الفرنسيين وفيت مين. في أواخر نوفمبر/تشرين الثّاني
151
+ عام 1946، قصفت سفينة بحرية فرنسية هيفونج، أصيب فيها عدّة آلاف من المدنيين؛ ردت
152
+ فيت مين بمحاولة غمر القوّات الفرنسية في هانوي في ديسمبر/كانون الأول لتبدأ الحرب
153
+ الهندوصينية الأولى.'
154
+ pipeline_tag: sentence-similarity
155
+ library_name: sentence-transformers
156
+ ---
157
+
158
+ # SentenceTransformer based on NAMAA-Space/AraModernBert-Base-STS
159
+
160
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [NAMAA-Space/AraModernBert-Base-STS](https://huggingface.co/NAMAA-Space/AraModernBert-Base-STS). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
161
+
162
+ ## Model Details
163
+
164
+ ### Model Description
165
+ - **Model Type:** Sentence Transformer
166
+ - **Base model:** [NAMAA-Space/AraModernBert-Base-STS](https://huggingface.co/NAMAA-Space/AraModernBert-Base-STS) <!-- at revision cc3cb850a251f28b99b69bfe4c5332d21dc82c08 -->
167
+ - **Maximum Sequence Length:** 512 tokens
168
+ - **Output Dimensionality:** 768 dimensions
169
+ - **Similarity Function:** Cosine Similarity
170
+ <!-- - **Training Dataset:** Unknown -->
171
+ <!-- - **Language:** Unknown -->
172
+ <!-- - **License:** Unknown -->
173
+
174
+ ### Model Sources
175
+
176
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
177
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
178
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
179
+
180
+ ### Full Model Architecture
181
+
182
+ ```
183
+ SentenceTransformer(
184
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: ModernBertModel
185
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
186
+ )
187
+ ```
188
+
189
+ ## Usage
190
+
191
+ ### Direct Usage (Sentence Transformers)
192
+
193
+ First install the Sentence Transformers library:
194
+
195
+ ```bash
196
+ pip install -U sentence-transformers
197
+ ```
198
+
199
+ Then you can load this model and run inference.
200
+ ```python
201
+ from sentence_transformers import SentenceTransformer
202
+
203
+ # Download from the 🤗 Hub
204
+ model = SentenceTransformer("yoriis/NAMAA-retriever-tydi-tafseer-quqa-cos")
205
+ # Run inference
206
+ sentences = [
207
+ 'متى بدأت حروب الهند الصينية؟',
208
+ 'على الرغم من التعاون التكتيكي بين الفرنسيين وفيت مين، إلا أن سياساتهم كانت متناقضة: فيهدّف الفرنسيين إلى إعادة تأسيس قاعدة استعمارية، بينما أرادت هانوي استقلالا كليّا. كشفت النوايا الفرنسية في قرار جورج تييري داجينلي، المندوب الأعلى للهند الصينية، بإعلان كوتشينصين كجمهورية مستقلة ذاتيا في يونيو/حزيران عام 1946. المفاوضات الأخرى لم تحل الخلافات الأساسية بين الفرنسيين وفيت مين. في أواخر نوفمبر/تشرين الثّاني عام 1946، قصفت سفينة بحرية فرنسية هيفونج، أصيب فيها عدّة آلاف من المدنيين؛ ردت فيت مين بمحاولة غمر القوّات الفرنسية في هانوي في ديسمبر/كانون الأول لتبدأ الحرب الهندوصينية الأولى.',
209
+ 'تصغير|يسار|لوحة فسيفساء أثرية في مدينة زليتن مدينة زليتن تقع على الساحل الغربي لليبيا، على مسافة 150 كم تقريبًا شرق العاصمة طرابلس، تحدها من الغرب مدينة الخمس، مصراتة شرقاَ، بني وليد جنوبًا، والبحر المتوسط شمالاً. بلغ عدد سكانها حسب إحصاء 2006 حوالي "184 ألف" نسمة، ووفقا لأخر إحصاء(2012م)طبقا للسجل المدني فإن عدد سكان زليتن هو "231 ألف" نسمة واشتهرت المدينة بكونها المركز الأبرز في البلاد لتعليم الفقه المالكي وتحفيظ القرآن في واحدة من أهم المؤسسات التعليمية في البلاد على مر 500 عام، وهي زاوية سيدي عبد السلام.',
210
+ ]
211
+ embeddings = model.encode(sentences)
212
+ print(embeddings.shape)
213
+ # [3, 768]
214
+
215
+ # Get the similarity scores for the embeddings
216
+ similarities = model.similarity(embeddings, embeddings)
217
+ print(similarities.shape)
218
+ # [3, 3]
219
+ ```
220
+
221
+ <!--
222
+ ### Direct Usage (Transformers)
223
+
224
+ <details><summary>Click to see the direct usage in Transformers</summary>
225
+
226
+ </details>
227
+ -->
228
+
229
+ <!--
230
+ ### Downstream Usage (Sentence Transformers)
231
+
232
+ You can finetune this model on your own dataset.
233
+
234
+ <details><summary>Click to expand</summary>
235
+
236
+ </details>
237
+ -->
238
+
239
+ <!--
240
+ ### Out-of-Scope Use
241
+
242
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
243
+ -->
244
+
245
+ <!--
246
+ ## Bias, Risks and Limitations
247
+
248
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
249
+ -->
250
+
251
+ <!--
252
+ ### Recommendations
253
+
254
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
255
+ -->
256
+
257
+ ## Training Details
258
+
259
+ ### Training Dataset
260
+
261
+ #### Unnamed Dataset
262
+
263
+ * Size: 13,476 training samples
264
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
265
+ * Approximate statistics based on the first 1000 samples:
266
+ | | sentence_0 | sentence_1 | label |
267
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------|
268
+ | type | string | string | float |
269
+ | details | <ul><li>min: 5 tokens</li><li>mean: 23.8 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 36.94 tokens</li><li>max: 303 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.26</li><li>max: 1.0</li></ul> |
270
+ * Samples:
271
+ | sentence_0 | sentence_1 | label |
272
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
273
+ | <code>من رفض تنفيذ المشروع ( أول مرة ) فهو غير مؤهل لتكملة مشروعك، أذكر الآية التي دلت على هذا المعنى؟.</code> | <code>فإن رجعك الله إلى طائفة منهم فاستأذنوك للخروج فقل لن تخرجوا معي أبدا ولن تقاتلوا معي عدوا إنكم رضيتم بالقعود أول مرة فاقعدوا مع الخالفين{83} التوبة</code> | <code>1.0</code> |
274
+ | <code>ما الآية التي تدل على أن ما أصابك -أيها الإنسان- مِن خير ونعمة فهو من الله تعالى وحده, فضلا وإحسانًا, وما أصابك من جهد وشدة فبسبب عملك السيئ ؟</code> | <code>قال فإنا قد فتنا قومك من بعدك وأضلهم السامري{85} طه</code> | <code>0.0</code> |
275
+ | <code>ما هو الشرك الأكبر؟</code> | <code>وإذ قلنا ادخلوا هـذه القرية فكلوا منها حيث شئتم رغدا وادخلوا الباب سجدا وقولوا حطة نغفر لكم خطاياكم وسنزيد المحسنين{58} فبدل الذين ظلموا قولا غير الذي قيل لهم فأنزلنا على الذين ظلموا رجزا من السماء بما كانوا يفسقون{59}البقرة..</code> | <code>0.0</code> |
276
+ * Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
277
+ ```json
278
+ {
279
+ "loss_fct": "torch.nn.modules.loss.MSELoss"
280
+ }
281
+ ```
282
+
283
+ ### Training Hyperparameters
284
+ #### Non-Default Hyperparameters
285
+
286
+ - `per_device_train_batch_size`: 4
287
+ - `per_device_eval_batch_size`: 4
288
+ - `fp16`: True
289
+ - `multi_dataset_batch_sampler`: round_robin
290
+
291
+ #### All Hyperparameters
292
+ <details><summary>Click to expand</summary>
293
+
294
+ - `overwrite_output_dir`: False
295
+ - `do_predict`: False
296
+ - `eval_strategy`: no
297
+ - `prediction_loss_only`: True
298
+ - `per_device_train_batch_size`: 4
299
+ - `per_device_eval_batch_size`: 4
300
+ - `per_gpu_train_batch_size`: None
301
+ - `per_gpu_eval_batch_size`: None
302
+ - `gradient_accumulation_steps`: 1
303
+ - `eval_accumulation_steps`: None
304
+ - `torch_empty_cache_steps`: None
305
+ - `learning_rate`: 5e-05
306
+ - `weight_decay`: 0.0
307
+ - `adam_beta1`: 0.9
308
+ - `adam_beta2`: 0.999
309
+ - `adam_epsilon`: 1e-08
310
+ - `max_grad_norm`: 1
311
+ - `num_train_epochs`: 3
312
+ - `max_steps`: -1
313
+ - `lr_scheduler_type`: linear
314
+ - `lr_scheduler_kwargs`: {}
315
+ - `warmup_ratio`: 0.0
316
+ - `warmup_steps`: 0
317
+ - `log_level`: passive
318
+ - `log_level_replica`: warning
319
+ - `log_on_each_node`: True
320
+ - `logging_nan_inf_filter`: True
321
+ - `save_safetensors`: True
322
+ - `save_on_each_node`: False
323
+ - `save_only_model`: False
324
+ - `restore_callback_states_from_checkpoint`: False
325
+ - `no_cuda`: False
326
+ - `use_cpu`: False
327
+ - `use_mps_device`: False
328
+ - `seed`: 42
329
+ - `data_seed`: None
330
+ - `jit_mode_eval`: False
331
+ - `use_ipex`: False
332
+ - `bf16`: False
333
+ - `fp16`: True
334
+ - `fp16_opt_level`: O1
335
+ - `half_precision_backend`: auto
336
+ - `bf16_full_eval`: False
337
+ - `fp16_full_eval`: False
338
+ - `tf32`: None
339
+ - `local_rank`: 0
340
+ - `ddp_backend`: None
341
+ - `tpu_num_cores`: None
342
+ - `tpu_metrics_debug`: False
343
+ - `debug`: []
344
+ - `dataloader_drop_last`: False
345
+ - `dataloader_num_workers`: 0
346
+ - `dataloader_prefetch_factor`: None
347
+ - `past_index`: -1
348
+ - `disable_tqdm`: False
349
+ - `remove_unused_columns`: True
350
+ - `label_names`: None
351
+ - `load_best_model_at_end`: False
352
+ - `ignore_data_skip`: False
353
+ - `fsdp`: []
354
+ - `fsdp_min_num_params`: 0
355
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
356
+ - `fsdp_transformer_layer_cls_to_wrap`: None
357
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
358
+ - `deepspeed`: None
359
+ - `label_smoothing_factor`: 0.0
360
+ - `optim`: adamw_torch
361
+ - `optim_args`: None
362
+ - `adafactor`: False
363
+ - `group_by_length`: False
364
+ - `length_column_name`: length
365
+ - `ddp_find_unused_parameters`: None
366
+ - `ddp_bucket_cap_mb`: None
367
+ - `ddp_broadcast_buffers`: False
368
+ - `dataloader_pin_memory`: True
369
+ - `dataloader_persistent_workers`: False
370
+ - `skip_memory_metrics`: True
371
+ - `use_legacy_prediction_loop`: False
372
+ - `push_to_hub`: False
373
+ - `resume_from_checkpoint`: None
374
+ - `hub_model_id`: None
375
+ - `hub_strategy`: every_save
376
+ - `hub_private_repo`: None
377
+ - `hub_always_push`: False
378
+ - `hub_revision`: None
379
+ - `gradient_checkpointing`: False
380
+ - `gradient_checkpointing_kwargs`: None
381
+ - `include_inputs_for_metrics`: False
382
+ - `include_for_metrics`: []
383
+ - `eval_do_concat_batches`: True
384
+ - `fp16_backend`: auto
385
+ - `push_to_hub_model_id`: None
386
+ - `push_to_hub_organization`: None
387
+ - `mp_parameters`:
388
+ - `auto_find_batch_size`: False
389
+ - `full_determinism`: False
390
+ - `torchdynamo`: None
391
+ - `ray_scope`: last
392
+ - `ddp_timeout`: 1800
393
+ - `torch_compile`: False
394
+ - `torch_compile_backend`: None
395
+ - `torch_compile_mode`: None
396
+ - `include_tokens_per_second`: False
397
+ - `include_num_input_tokens_seen`: False
398
+ - `neftune_noise_alpha`: None
399
+ - `optim_target_modules`: None
400
+ - `batch_eval_metrics`: False
401
+ - `eval_on_start`: False
402
+ - `use_liger_kernel`: False
403
+ - `liger_kernel_config`: None
404
+ - `eval_use_gather_object`: False
405
+ - `average_tokens_across_devices`: False
406
+ - `prompts`: None
407
+ - `batch_sampler`: batch_sampler
408
+ - `multi_dataset_batch_sampler`: round_robin
409
+
410
+ </details>
411
+
412
+ ### Training Logs
413
+ <details><summary>Click to expand</summary>
414
+
415
+ | Epoch | Step | Training Loss |
416
+ |:------:|:-----:|:-------------:|
417
+ | 0.05 | 500 | 0.0417 |
418
+ | 0.1 | 1000 | 0.0346 |
419
+ | 0.15 | 1500 | 0.0366 |
420
+ | 0.2 | 2000 | 0.0326 |
421
+ | 0.25 | 2500 | 0.0297 |
422
+ | 0.3 | 3000 | 0.0309 |
423
+ | 0.35 | 3500 | 0.0313 |
424
+ | 0.4 | 4000 | 0.0314 |
425
+ | 0.45 | 4500 | 0.028 |
426
+ | 0.5 | 5000 | 0.0261 |
427
+ | 0.55 | 5500 | 0.0272 |
428
+ | 0.6 | 6000 | 0.0293 |
429
+ | 0.65 | 6500 | 0.0294 |
430
+ | 0.7 | 7000 | 0.0272 |
431
+ | 0.75 | 7500 | 0.0287 |
432
+ | 0.8 | 8000 | 0.0283 |
433
+ | 0.85 | 8500 | 0.0278 |
434
+ | 0.9 | 9000 | 0.0249 |
435
+ | 0.95 | 9500 | 0.025 |
436
+ | 1.0 | 10000 | 0.0259 |
437
+ | 1.05 | 10500 | 0.0101 |
438
+ | 1.1 | 11000 | 0.0085 |
439
+ | 1.15 | 11500 | 0.0079 |
440
+ | 1.2 | 12000 | 0.0095 |
441
+ | 1.25 | 12500 | 0.0087 |
442
+ | 1.3 | 13000 | 0.0088 |
443
+ | 1.35 | 13500 | 0.0104 |
444
+ | 1.4 | 14000 | 0.0102 |
445
+ | 1.45 | 14500 | 0.0099 |
446
+ | 1.5 | 15000 | 0.0084 |
447
+ | 1.55 | 15500 | 0.0108 |
448
+ | 1.6 | 16000 | 0.0114 |
449
+ | 1.65 | 16500 | 0.01 |
450
+ | 1.7 | 17000 | 0.0103 |
451
+ | 1.75 | 17500 | 0.0099 |
452
+ | 1.8 | 18000 | 0.01 |
453
+ | 1.85 | 18500 | 0.0097 |
454
+ | 1.9 | 19000 | 0.0112 |
455
+ | 1.95 | 19500 | 0.0097 |
456
+ | 2.0 | 20000 | 0.0111 |
457
+ | 2.05 | 20500 | 0.0039 |
458
+ | 2.1 | 21000 | 0.0032 |
459
+ | 2.15 | 21500 | 0.0035 |
460
+ | 2.2 | 22000 | 0.0029 |
461
+ | 2.25 | 22500 | 0.0034 |
462
+ | 2.3 | 23000 | 0.0035 |
463
+ | 2.35 | 23500 | 0.0034 |
464
+ | 2.4 | 24000 | 0.0034 |
465
+ | 2.45 | 24500 | 0.0031 |
466
+ | 2.5 | 25000 | 0.0027 |
467
+ | 2.55 | 25500 | 0.0032 |
468
+ | 2.6 | 26000 | 0.0035 |
469
+ | 2.65 | 26500 | 0.0029 |
470
+ | 2.7 | 27000 | 0.0029 |
471
+ | 2.75 | 27500 | 0.0032 |
472
+ | 2.8 | 28000 | 0.0033 |
473
+ | 2.85 | 28500 | 0.0034 |
474
+ | 2.9 | 29000 | 0.004 |
475
+ | 2.95 | 29500 | 0.0037 |
476
+ | 3.0 | 30000 | 0.0038 |
477
+ | 0.1975 | 500 | 0.0013 |
478
+ | 0.3949 | 1000 | 0.0004 |
479
+ | 0.5924 | 1500 | 0.0003 |
480
+ | 0.7899 | 2000 | 0.0002 |
481
+ | 0.9874 | 2500 | 0.0002 |
482
+ | 1.1848 | 3000 | 0.0001 |
483
+ | 1.3823 | 3500 | 0.0 |
484
+ | 1.5798 | 4000 | 0.0001 |
485
+ | 1.7773 | 4500 | 0.0001 |
486
+ | 1.9747 | 5000 | 0.0 |
487
+ | 2.1722 | 5500 | 0.0 |
488
+ | 2.3697 | 6000 | 0.0 |
489
+ | 2.5671 | 6500 | 0.0 |
490
+ | 2.7646 | 7000 | 0.0 |
491
+ | 2.9621 | 7500 | 0.0 |
492
+ | 0.1975 | 500 | 0.0115 |
493
+ | 0.3949 | 1000 | 0.0085 |
494
+ | 0.5924 | 1500 | 0.0076 |
495
+ | 0.7899 | 2000 | 0.0065 |
496
+ | 0.9874 | 2500 | 0.0063 |
497
+ | 1.1848 | 3000 | 0.0029 |
498
+ | 1.3823 | 3500 | 0.0024 |
499
+ | 1.5798 | 4000 | 0.0025 |
500
+ | 1.7773 | 4500 | 0.0022 |
501
+ | 1.9747 | 5000 | 0.0021 |
502
+ | 2.1722 | 5500 | 0.0011 |
503
+ | 2.3697 | 6000 | 0.0009 |
504
+ | 2.5671 | 6500 | 0.0007 |
505
+ | 2.7646 | 7000 | 0.0008 |
506
+ | 2.9621 | 7500 | 0.0007 |
507
+ | 0.1484 | 500 | 0.1063 |
508
+ | 0.2968 | 1000 | 0.1079 |
509
+ | 0.4452 | 1500 | 0.0959 |
510
+ | 0.5936 | 2000 | 0.089 |
511
+ | 0.7421 | 2500 | 0.0911 |
512
+ | 0.8905 | 3000 | 0.0853 |
513
+ | 1.0389 | 3500 | 0.0783 |
514
+ | 1.1873 | 4000 | 0.0455 |
515
+ | 1.3357 | 4500 | 0.0452 |
516
+ | 1.4841 | 5000 | 0.0505 |
517
+ | 1.6325 | 5500 | 0.0452 |
518
+ | 1.7809 | 6000 | 0.046 |
519
+ | 1.9294 | 6500 | 0.0479 |
520
+ | 2.0778 | 7000 | 0.0331 |
521
+ | 2.2262 | 7500 | 0.0232 |
522
+ | 2.3746 | 8000 | 0.0211 |
523
+ | 2.5230 | 8500 | 0.0254 |
524
+ | 2.6714 | 9000 | 0.0242 |
525
+ | 2.8198 | 9500 | 0.0257 |
526
+ | 2.9682 | 10000 | 0.0237 |
527
+
528
+ </details>
529
+
530
+ ### Framework Versions
531
+ - Python: 3.11.13
532
+ - Sentence Transformers: 4.1.0
533
+ - Transformers: 4.53.3
534
+ - PyTorch: 2.6.0+cu124
535
+ - Accelerate: 1.9.0
536
+ - Datasets: 4.0.0
537
+ - Tokenizers: 0.21.2
538
+
539
+ ## Citation
540
+
541
+ ### BibTeX
542
+
543
+ #### Sentence Transformers
544
+ ```bibtex
545
+ @inproceedings{reimers-2019-sentence-bert,
546
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
547
+ author = "Reimers, Nils and Gurevych, Iryna",
548
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
549
+ month = "11",
550
+ year = "2019",
551
+ publisher = "Association for Computational Linguistics",
552
+ url = "https://arxiv.org/abs/1908.10084",
553
+ }
554
+ ```
555
+
556
+ <!--
557
+ ## Glossary
558
+
559
+ *Clearly define terms in order to be accessible across audiences.*
560
+ -->
561
+
562
+ <!--
563
+ ## Model Card Authors
564
+
565
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
566
+ -->
567
+
568
+ <!--
569
+ ## Model Card Contact
570
+
571
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
572
+ -->
config.json ADDED
@@ -0,0 +1,49 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens_ids": [],
3
+ "architectures": [
4
+ "ModernBertModel"
5
+ ],
6
+ "attention_bias": false,
7
+ "attention_dropout": 0.0,
8
+ "bos_token_id": null,
9
+ "classifier_activation": "gelu",
10
+ "classifier_bias": false,
11
+ "classifier_dropout": 0.0,
12
+ "classifier_pooling": "mean",
13
+ "cls_token_id": 3,
14
+ "decoder_bias": true,
15
+ "deterministic_flash_attn": false,
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": null,
18
+ "global_attn_every_n_layers": 3,
19
+ "global_rope_theta": 160000.0,
20
+ "gradient_checkpointing": false,
21
+ "hidden_activation": "gelu",
22
+ "hidden_size": 768,
23
+ "initializer_cutoff_factor": 2.0,
24
+ "initializer_range": 0.02,
25
+ "intermediate_size": 1152,
26
+ "layer_norm_eps": 1e-05,
27
+ "local_attention": 128,
28
+ "local_rope_theta": 10000.0,
29
+ "mask_token_id": 6,
30
+ "max_position_embeddings": 8192,
31
+ "mlp_bias": false,
32
+ "mlp_dropout": 0.0,
33
+ "model_type": "modernbert",
34
+ "norm_bias": false,
35
+ "norm_eps": 1e-05,
36
+ "num_attention_heads": 12,
37
+ "num_hidden_layers": 22,
38
+ "pad_token_id": 5,
39
+ "position_embedding_type": "absolute",
40
+ "repad_logits_with_grad": false,
41
+ "sep_token_id": 4,
42
+ "sparse_pred_ignore_index": -100,
43
+ "sparse_prediction": false,
44
+ "tokenizer_class": "PreTrainedTokenizerFast",
45
+ "torch_dtype": "float32",
46
+ "transformers_version": "4.53.3",
47
+ "unk_token_id": 2,
48
+ "vocab_size": 50280
49
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.53.3",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2e74d659f94a977ec0803e7be3d707b9493e81e388310cd58a02e5052cc6f913
3
+ size 595799800
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": true,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,80 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<|padding|>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<|endoftext|>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[UNK]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[CLS]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[SEP]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "5": {
44
+ "content": "[PAD]",
45
+ "lstrip": false,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[MASK]",
53
+ "lstrip": true,
54
+ "normalized": false,
55
+ "rstrip": false,
56
+ "single_word": false,
57
+ "special": true
58
+ }
59
+ },
60
+ "clean_up_tokenization_spaces": true,
61
+ "cls_token": "[CLS]",
62
+ "extra_special_tokens": {},
63
+ "mask_token": "[MASK]",
64
+ "max_length": 512,
65
+ "model_input_names": [
66
+ "input_ids",
67
+ "attention_mask"
68
+ ],
69
+ "model_max_length": 512,
70
+ "pad_to_multiple_of": null,
71
+ "pad_token": "[PAD]",
72
+ "pad_token_type_id": 0,
73
+ "padding_side": "right",
74
+ "sep_token": "[SEP]",
75
+ "stride": 0,
76
+ "tokenizer_class": "PreTrainedTokenizerFast",
77
+ "truncation_side": "right",
78
+ "truncation_strategy": "longest_first",
79
+ "unk_token": "[UNK]"
80
+ }