RoBERTa Amharic Text Embedding Medium

This is a sentence-transformers model finetuned from rasyosef/roberta-medium-amharic on the json dataset. It maps sentences & paragraphs to a 512-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: rasyosef/roberta-medium-amharic
  • Maximum Sequence Length: 510 tokens
  • Output Dimensionality: 512 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 510, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 512, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/roberta-amharic-embed-medium")
# Run inference
sentences = [
    'አቶ ደመቀ መኮንን ከፕሬዚዳንት ዩዌሪ ሙሴቬኒ ጋር ተወያዩ',
    'የኡጋንዳው ፕሬዚ ዳንት ዩዌሪ ካጉታ ሙሴቬኒ ኢንቴቤ ከተማ በሚገኘው ጽሕፈት ቤታቸው ምክትል ጠቅላይ ሚኒስትር አቶ ደመቀ መኮንንን ተቀብለው በቀጣናዊ ትብብር እና በሁለትዮሽ ግንኙነት ዙሪያ አነጋግረዋል። አቶ ደመቀ እና ፕሬዚዳንት ሙሴቬኒ ውይይታቸው በቀጣናዊ ትብብር እና በሁለትዮሽ ግንኙነት ዙሪያ ያተኮረ እንደነበር ከምክትል ጠቅላይ ሚኒስትር ጽሕፈት ቤት የተገኘው መረጃ ያመለክታል። በተለያዩ መስኮች ለረጅም ዓመታት የዘለቀው የኢትዮጵያ እና የዑጋንዳ የሁለትዮሽ ግንኙነት የበለጠ ተጠናክሮ እንዲቀጥል መግባባት ላይ መድረሳቸውም መረጃው ጠቁሟል፡፡ ሁለቱ አገራት በቀጣናው በሚስተዋሉ ወቅታዊ ጉዳዮች ላይም የተወያዩ ሲሆን በቀጣይ በቀጣናው ትብብራቸውን ለማጥበቅ በሚችሉበት አግባብ ዙሪያም ተስማምተዋል። በመጨረሻም ከኢፌዴሪ ጠቅላይ ሚኒስትር ዶክተር አብይ አህመድ የተላከውን የትብብር መልዕክት ፕሬዚዳንት ሙሴቬኒ ከምክትል ጠቅ ላይ ሚኒስትር አቶ ደመቀ እጅ ተቀብለዋል።አዲስ ዘመን ግንቦት 7/2011',
    '. በአምስት ክፍለ ከተሞች 121 ሚሊዮን 365ሺ 398 ብር ጉድለት ተመዝግቧልአዲስ አበባ፡- በተጠናቀቀው በጀት ዓመት የመጀመሪያው ስድስት ወራት የሂሳብ ጉድለት ከነበረባቸው\n59 ተቋማት ውስጥ 32ቱ 66 ነጥብ 7ሚሊዮን ብር ለአስተዳደሩ ተመላሽ ማድረጋቸውን የአዲስ አበባ ከተማ አስተዳደር ዋና ኦዲተር\nአስታወቀ። በ2011 በጀት ዓመት በሁለተኛው ግማሽ ዓመት በተሰራው ልዩ ኦዲት በአምስት ክፍለ ከተሞች በድምሩ 121 ሚሊዮን\n365 ሺ 398 ብር ጉድለት መመዝገቡ ተገለጸ ። የአስተዳደሩ ዋና ኦዲተር ወይዘሮ ፅጌወይን ካሳ ለአዲስ ዘመን እንዳስታወቁት፤ በ2011 ዓ.ም የመጀመሪያው\nስድስት ወራት በተከናወነው የኦዲት ሥራ በ59 ተቋማት ላይ የሂሳብ ጉድለት ተገኝቷል። ዋና ኦዲተሩ ያገኘውን ግኝት መሰረት በማድረግ\nየከተማዋ ዓቃቢ ህግ ተቋማቱን ተጠያቂ ለማድረግ አቅጣጫ የተላለፈ ቢሆንም በሁለተኛው መንፈቀ ዓመት 32ቱ ተቋማት 66 ሚሊዮን\n774 ሺ 741 ብር ከ75 ሳንቲም ተመላሽ ተደርገዋል። እንደ ዋና ኦዲተሯ ማብራሪያ፤ ተቋማቱ የጥሬ ገንዘብ ጉድለት፣ ውዝፍ ሂሳብ፣ ተመላሽ ያልተደረገ ቅድመ\nክፍያ፣ የተሰብሳቢ ክፍያ፣ ከመመሪያ ውጭ የተከፈለ፣ አበልና ደመወዝ በብልጫ የተከፈለ፣ ያለአግባብ ግዥ ፈፅመው ተመላሽ የተደረጉ\nመሆናቸው በተደረገው ምርመራ ለማወቅ ተችሏል። በዚህ መሰረትም አስተዳደሩ የተጠያቂነት አሰራር በመዘርጋት ጥብቅ አቅጣጫ በማስተላለፉ\nአብዛኞቹ ተቋማት ስህተቶቻቸውን በማረም የተሻለ አፈፃፀም አስመዝግበዋል። ይሁንና ቀሪዎቹ 27 ተቋማት ዋና ኦዲተሩ ላቀረበው ጥሪ እስካሁን ምንም አይነት ምላሽ አለመስጠታቸውን\nወይዘሮ ፅጌወይን አመልክተው፣ ከእነዚህ ተቋማት መካከልም 40/60 የቤቶች ኢንተርፕራይዝ፣ መንገዶች ባለስልጣን፣ ዳግማዊ ሚኒሊክ\nሪፈራል ሆስፒታል፣ ዘውዲቱ ሪፈራል ሆስፒታልን ጠቅሰዋል። በአሁኑ ወቅት ጠቅላይ ዓቃቢ ህግ ተቋማቱ ምላሽ እንዲሰጡ ጥያቄ ያቀረበላቸው\nመሆኑን ጠቁመው፣ በተቀመጠው የጊዜ ገደብ ምላሽ የማይሰጡ ከሆነ በህግ ተጠያቂ ይሆናሉ ብለዋል። «በህግ ተጠያቂ የማድረጉ ሥራ እንዳለ\nሆኖ ተቋማቱ በዋናነት ወደ ህጋዊና ዘመናዊ ስርዓት እንዲገቡ ማድረግ ትኩረት አድርገን እየሰራን ነው» በማለትም አክለዋል። እንደ ዋና ኦዲተሯ ማብራሪያ፤ በ2011 በጀት ዓመት በሁለተኛው ግማሽ ዓመት ልዩ ኦዲት የተሰራ ሲሆን\nበተለይም በአምስት ክፍለ ከተሞች ላይ የክዋኔ ኦዲት ሥራ በማከናወን በድምሩ 121 ሚሊዮን 365ሺ 398 ብር ጉድለት መኖሩን ለማወቅ\nተችሏል። ከእነዚህም መካከል ኮልፎ ቀራኒዮ ክፍለከተማ ያልተከፈለ የቅድመ ክፍያ 69ሺ563 ብር ከ35 ሳንቲም ጉድለት እንዲሁም\nያልተከፈለ የሊዝ እዳ የወቅቱን የወለድ ምጣኔ ጨምሮ ወደ 40 ሚሊዮን 115ሺ 610 ብር ከ58 ሳንቲም ተገኝቶበታል። በተመሳሳይም\nበቦሌ ክፍለ ከተማ ያልተከፈለ ቅድመ ክፍያ 17 ሚሊዮን 110ሺ23 ብር ከ91 ሳንቲም ሲገኝበት ያልተከፈለ የሊዝ ክፍያ ደግሞ የወቅቱን\nወለድ ጨምሮ ወደ 26 ሚሊዮን 806ሺ ብር ከ95 ሳንቲም የሚጠጋ ገንዘብ ጉድለት ታይቷል። ከአምስቱ ክፍለ ከተሞች ውስጥ አዲስ\nከተማ ክፍለ ከተማ የተሻለ አፈፃፀም የታየበት ሲሆን፣ የተገኘበትም ያልተከፈለ የሊዝ እዳ 40ሺ 342 ብር ከ50 ሳንቲም ብቻ ነው።\nበክዋኔ ኦዲቱ ዝርዝር ኦዲት መሰራቱን ያመለከቱት ወይዘሮ ፅጌ፣ በተለይም በአምስቱ ክፍለ ከተሞች\nታጥረው የተቀመጡ፥ የግንባታ አፈፃፀማቸው ከ30 በመቶ በታች የሆነ ተቋማት ላይም የአፈፃፀም ምርመራ መካሄዱን አስገንዝበዋል። ለአብነት\nያህልም ኮልፌ ቀራኒዮ ክፍለ ከተማ 57 ባለይዞታዎች ግንባታቸው ያልተጀመረና ከ30 በመቶ በታች ሆነው የተገኙ መሆኑን በኦዲቱ ማጣራት\nመቻሉን አመልክተዋል። በተመሳሳይም በቦሌ ክፍለ ከተማ 60፣ በንፋስ ስልክ ላፍቶ ክፍለከተማ 106 ፣ በአቃቂ ቃሊቲ ክፍለ ከተማ\nወደ 15፣ አዲስ ከተማ ክፍለከተማ 24 የሚሆኑ ባለይዞታዎች ግንባታቸው ሳይጀመርና አፈፃፀማቸው ከ30 በመቶ በታች መሆኑን እንደታወቀ\nአስረድተዋል። በመሆኑም\nአጠቃላይ የኦዲት ግኝቱን ለአስተዳደሩም ሆነ ለሚመለከታቸው አካላት የተላከ መሆኑን ወይዘሮ ፅጌ ወይን አመልክተው፣ ጉድለት የታየባቸው\nተቋማትና ክፍለከተሞች ሪፖርቱን መሰረት አድርገው አጭር ጊዜ ውስጥ አሰራራቸውን ያስተካክላሉ ተብሎ እንደሚጠበቅ ተናግረዋል። ጎን\nለጎንም በህግ ተጠያቂ የማድረጉ ሥራ የሚቀጥል መሆኑን አስገንዝበዋል።አዲስ ዘመን ቅዳሜ፣ ነሀሴ 4/2011ማህሌት አብዱል ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 512]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_512 dim_256 dim_128
cosine_accuracy@1 0.6064 0.5998 0.5849
cosine_accuracy@3 0.7597 0.7562 0.7395
cosine_accuracy@5 0.8057 0.8013 0.7857
cosine_accuracy@10 0.8531 0.8503 0.8398
cosine_precision@1 0.6064 0.5998 0.5849
cosine_precision@3 0.2532 0.2521 0.2465
cosine_precision@5 0.1611 0.1603 0.1571
cosine_precision@10 0.0853 0.085 0.084
cosine_recall@1 0.6064 0.5998 0.5849
cosine_recall@3 0.7597 0.7562 0.7395
cosine_recall@5 0.8057 0.8013 0.7857
cosine_recall@10 0.8531 0.8503 0.8398
cosine_ndcg@10 0.7316 0.7271 0.7132
cosine_mrr@10 0.6925 0.6874 0.6726
cosine_map@100 0.697 0.6918 0.6774

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 54,900 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 4 tokens
    • mean: 16.66 tokens
    • max: 73 tokens
    • min: 34 tokens
    • mean: 321.89 tokens
    • max: 510 tokens
  • Samples:
    anchor positive
    የተመድ ልማት ፕሮግራም ኃላፊ ‹‹ርካሽ ጉልበት›› ብዝበዛ ማለት አይደለም ሲሉ አሳሰቡ ዓመታዊው የተባበሩት መንግሥታት ድርጅት (ተመድ) የሰብዓዊ ልማት ሪፖርትን ለመላው ዓለም ከኢትዮጵያ ይፋ ለማድረግ በአፍሪካ ኢኮኖሚክ ኮሚሽን አዳራሽ ለጋዜጠኞች በሰጡት መግለጫ፣ አገሮች ርካሽ ጉልበትን እንደ መልካም የኢንቨስትመንት ዕድል ሲያስተዋውቁ የጉልበት ብዝበዛ እንዳይፈጸም መጠንቀቅ እንዳለባቸው የፕሮግራሙ ኃላፊ አሳሰቡ፡፡  በተመድ የልማት ፕሮግራም አድሚንስትሬተር ሔለን ክላርክ በአዲስ አበባ ተገኝተው ከጠቅላይ ሚኒስትር ኃይለ ማርያም ደሳለኝ ጋር በመሆን፣ እ.ኤ.አ. የ2015 የሰብዓዊ ልማት ሪፖርትን ይፋ አድርገዋል፡፡ ሪፖርቱን በ25ኛ ዓመቱ መባቻ ላይ ‹‹ሥራ›› ላይ ያተኮረው የተመድ ልማት ፕሮግራም፣ እንደ ኢትዮጵያ ባሉ አገሮች የውጭ ኢንቨስትመንትን ለመሳብ በማለት ርካሽ ጉልበትን መስህብ ሲያደርጉት ይታያል ብሏል፡፡ የኢትዮጵያ ኢንቨስትመንት ኮሚሽን ደግሞ በወር ከሃምሳ ዶላር ያልበለጠ ደመወዝ እየተከፈላቸው የሚሠሩ ሠራተኞች ያሉባት አገር በመሆኗ፣ ለኢንቨስትመንት ምቹ ከሚያደርጓት መካከል አንዱ እንደሆነ ይገልጻል፡፡በአንፃሩ የተመድ የሰብዓዊ ልማት ‹‹ሥራ ለሰብዓዊ ልማት›› በሚል ርዕስ ይፋ ባደረገው ሪፖርት ለሰው ልጅ ተስማሚ የኑሮ ከባቢ ሁኔታ ለመፍጠር የሚያስችል ሥራ የደመወዝ ክፍያ እንዲከፈል የሚያሳስበው የተመድ የልማት ፕሮግራም፣ በቀን ከሁለት ዶላር በታች የሚያገኙ ሰዎች ከ830 ሚሊዮን በላይ እንደሆኑ፣ 200 ሚሊዮን ሰዎች (74 ሚሊዮን ወጣቶችን ጨምሮ) ሥራ አጥ እንደሆኑና 21 ሚሊዮን ሰዎች በመላው ዓለም በግዳጅ ጉልበታቸው እየተበዘበዘ እንደሚሠሩ በሪፖርቱ ጠቁሟል፡፡ሔለን ክላርክ ከሪፖርተር ለቀረበላቸው ጥያቄ በሰጡት ማብራሪያ፣ እንደ ኢትዮጵያ ያሉ አገሮች ለልማት ካላቸው ፍላጎትና ዓላማ በመነሳት፣ ሀብታቸውን በመጠቀም ለማደግ የሚያደርጉት እ...
    ሦስት የወጣት ማዕከላትለወረዳ አስተዳደር ቢሮነት እያገለገሉ ነው ፡- በአዲስ አበባ የሚገኙ የሦስት ወረዳዎች የወጣት ማዕከላት ለወረዳ አስተዳደር ቢሮነት በመዋላቸው ለወጣቱ ተገቢውን አገልግሎት እየሰጡ አለመሆኑ ተገለጸ። በአዲስ አበባ
    ከተማ የወጣቶችና በጎ ፈቃድ ማስተባበሪያ ቢሮ የወጣት ማዕከላት አገልግሎት ማስተባበሪያ ክትትል ቡድን መሪ አቶ ጤናዬ ታምሩ ለጋዜጣው ሪፖርተር እንዳሉት፤ የካ ክፍለከተማ ወረዳ አራት፣ ቦሌ ክፍለከተማ ወረዳ ዘጠኝ እና ኮልፌ ቀራንዮ ክፍለከተማ ወረዳ ሁለት የሚገኙ ወጣት ማዕከላት ለወረዳ አስተዳደሩ ቢሮነት እያለገሉ ይገኛሉ። በዚህም ለወጣቱ የተፈለገውን አገልግሎት እየሰጡ አይደለም። እንደ አቶ ጤናዬ ገለፃ፤ ወረዳዎቹ የሥልጠና፣ የሥራና የቢሮ ጥበት ሲኖር ወጣት ማዕከል ውስጥ የሚገኙ ክፍሎችን ይወስዳሉ።ችግሩን ለመፍታት ለወረዳ አስተዳደሮቹ ደብዳቤ በመፃፍና በአካል ተገናኝቶ ውይይት ተደርጓል። ወረዳዎቹ እድሳት ላይ ስላለን ታገሱን የሚል መልስ ብቻ በመስጠት እስካሁን ሊለቁ አልቻሉም። በኮልፌ ቀራንዮ ወረዳ ሁለት ወጣት ማዕከሉን የወረዳው አስተዳደር ለቢሮነት እየተጠቀመበት ይገኛል። እንዲወጡ ሲጠየቁ አዲስ ሕንፃ እያስገነባን በመሆኑ እስኪያልቅ ጠብቁ የሚል ምላሽ ሰጥተዋል። እነዚህ ችግሮች ወጣት ማዕከላቱ ቀልጣፋ አገልግሎት እንዳይሰጡ አድርጓቸው። ወጣት ማዕከላት ሲገነቡ በዋነኛነት ለወጣቱ አገልግሎት ለመስጠት ነው የሚሉት አቶ ጤናዬ፤ ነገር ግን ከባለሙያ እጥረትና በግብዓት ችግር ምክንያት በአግባቡ አገልግሎት የማይሰጥባቸው አካባቢዎች እንዳሉ አመልክተዋል። ማዕከላቱ ሲመሰረቱ ለወጣቱ አገልግሎት ለመስጠት ታስቦ በመሆኑ ባላቸው ሀብት አገልግሎት እየሰጡ መሆናቸውን ተናግረዋል። እንደ አቶ ጤናዬ አባባል፤ ወጣት ማዕከላት መዝናኛ ቦታዎች አይደሉም። በማዕከላቱ የሚሰጡ አገልግሎቶች የወጣቱን ሰብዕና የሚገነቡ፣ ክ...
    ፍርድ ቤቱ አቃቤ ህግ በአቶ እስክንድር ነጋ፣ ስንታየሁ ቸኮልና ቀለብ ስዩም ላይ በ15 ቀናት ውስጥ ክስ እንዲመሰርት ብይን ሰጠ አዲስ አበባ ፣ ነሀሴ 12 ፣ 2012 (ኤፍ.ቢ.ሲ) በፌደራል የመጀመሪያ ደረጃ ፍርድ ቤት አራዳ ምድብ የጊዜ ቀጠሮ ተረኛ ችሎት አቃቤ ህግ በአቶ እስክንድር ነጋ፣ ስንታየሁ ቸኮልና ቀለብ ስዩም ላይ በ15 ቀናት ውስጥ ክስ እንዲመሰርት ብይን ሰጠ። አቃቤ ህግ ሁለት የቅድመ ምርመራ ምስክሮችን አሰምቶ አጠናቋል። ስልጣን ባለው ፍርድ ቤት ክስ እስከምመሰርት ድረስም ተጠርጣሪዎች በማረፊያ ቤት ይቆዩልኝ ብሎ አቃቤ ህግ ፍርድ ቤቱን ጠይቋል። ተጠርጣሪዎች በበኩላቸው ክስ እስከሚመሰረትብን ድረስ በዋስ ወጥተን በውጭ እንከታተል ሲሉ ያመለከቱ ሲሆን አቃቤ ህግ ተጠርጣሪዎቹ ስልጣን ባለው ፍርድ ቤት ክስ ሲመሰረት የተጠረጠሩበት ወንጀል ዋስትና የሚያስከለክል በመሆኑ በማረፊያ ቤት እንዲቆዩልኝ ሲል የዋስትና ጥያቄውን ተቃውሟል። ጉዳዩን የተከታተለው ፍርድ ቤትም ተጠርጣሪዎች ክስ እስከሚመሰረት ድረስ በማረፊያ ቤት እንዲቆዩ እና አቃቤ ህግ በ15 ቀናት ውስጥ ክስ እንዲመሰርት ብይን ሰጥቷል።   በታሪክ አዱኛ
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            512,
            256,
            128
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • num_train_epochs: 5
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • warmup_steps: 128
  • seed: 7
  • fp16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 128
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 7
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_512_cosine_ndcg@10 dim_256_cosine_ndcg@10 dim_128_cosine_ndcg@10
0.0233 10 9.1016 - - -
0.0466 20 6.8595 - - -
0.0699 30 3.7458 - - -
0.0932 40 2.1717 - - -
0.1166 50 1.6285 - - -
0.1399 60 1.4191 - - -
0.1632 70 1.3239 - - -
0.1865 80 1.2764 - - -
0.2098 90 1.2911 - - -
0.2331 100 0.9839 - - -
0.2564 110 0.9846 - - -
0.2797 120 0.9378 - - -
0.3030 130 0.9877 - - -
0.3263 140 0.8801 - - -
0.3497 150 0.7835 - - -
0.3730 160 0.9266 - - -
0.3963 170 0.8028 - - -
0.4196 180 0.7941 - - -
0.4429 190 0.9154 - - -
0.4662 200 0.7713 - - -
0.4895 210 0.8394 - - -
0.5128 220 0.6808 - - -
0.5361 230 0.8229 - - -
0.5594 240 0.754 - - -
0.5828 250 0.6846 - - -
0.6061 260 0.654 - - -
0.6294 270 0.6779 - - -
0.6527 280 0.7524 - - -
0.6760 290 0.7035 - - -
0.6993 300 0.7074 - - -
0.7226 310 0.7195 - - -
0.7459 320 0.7114 - - -
0.7692 330 0.7034 - - -
0.7925 340 0.7215 - - -
0.8159 350 0.7972 - - -
0.8392 360 0.6519 - - -
0.8625 370 0.5815 - - -
0.8858 380 0.6173 - - -
0.9091 390 0.7119 - - -
0.9324 400 0.5555 - - -
0.9557 410 0.6487 - - -
0.9790 420 0.5884 - - -
1.0 429 - 0.6765 0.6637 0.6426
1.0023 430 0.5769 - - -
1.0256 440 0.3428 - - -
1.0490 450 0.3752 - - -
1.0723 460 0.3136 - - -
1.0956 470 0.3438 - - -
1.1189 480 0.3555 - - -
1.1422 490 0.3432 - - -
1.1655 500 0.3415 - - -
1.1888 510 0.3693 - - -
1.2121 520 0.378 - - -
1.2354 530 0.376 - - -
1.2587 540 0.3382 - - -
1.2821 550 0.3868 - - -
1.3054 560 0.3229 - - -
1.3287 570 0.3524 - - -
1.3520 580 0.3313 - - -
1.3753 590 0.3217 - - -
1.3986 600 0.3376 - - -
1.4219 610 0.3152 - - -
1.4452 620 0.371 - - -
1.4685 630 0.3504 - - -
1.4918 640 0.3587 - - -
1.5152 650 0.3845 - - -
1.5385 660 0.3603 - - -
1.5618 670 0.4026 - - -
1.5851 680 0.3427 - - -
1.6084 690 0.3474 - - -
1.6317 700 0.3202 - - -
1.6550 710 0.3335 - - -
1.6783 720 0.3546 - - -
1.7016 730 0.2896 - - -
1.7249 740 0.3368 - - -
1.7483 750 0.3252 - - -
1.7716 760 0.3595 - - -
1.7949 770 0.3046 - - -
1.8182 780 0.2953 - - -
1.8415 790 0.3228 - - -
1.8648 800 0.2896 - - -
1.8881 810 0.3256 - - -
1.9114 820 0.3419 - - -
1.9347 830 0.3416 - - -
1.9580 840 0.3574 - - -
1.9814 850 0.3426 - - -
2.0 858 - 0.7042 0.6981 0.6829
2.0047 860 0.2701 - - -
2.0280 870 0.1818 - - -
2.0513 880 0.1507 - - -
2.0746 890 0.1597 - - -
2.0979 900 0.1576 - - -
2.1212 910 0.1624 - - -
2.1445 920 0.1974 - - -
2.1678 930 0.1907 - - -
2.1911 940 0.1719 - - -
2.2145 950 0.1748 - - -
2.2378 960 0.16 - - -
2.2611 970 0.1819 - - -
2.2844 980 0.1779 - - -
2.3077 990 0.1491 - - -
2.3310 1000 0.1912 - - -
2.3543 1010 0.158 - - -
2.3776 1020 0.1599 - - -
2.4009 1030 0.1564 - - -
2.4242 1040 0.1879 - - -
2.4476 1050 0.1704 - - -
2.4709 1060 0.163 - - -
2.4942 1070 0.1787 - - -
2.5175 1080 0.1797 - - -
2.5408 1090 0.1572 - - -
2.5641 1100 0.1649 - - -
2.5874 1110 0.2056 - - -
2.6107 1120 0.159 - - -
2.6340 1130 0.1787 - - -
2.6573 1140 0.1511 - - -
2.6807 1150 0.1838 - - -
2.7040 1160 0.1361 - - -
2.7273 1170 0.1507 - - -
2.7506 1180 0.1661 - - -
2.7739 1190 0.1704 - - -
2.7972 1200 0.166 - - -
2.8205 1210 0.1508 - - -
2.8438 1220 0.1914 - - -
2.8671 1230 0.1508 - - -
2.8904 1240 0.1432 - - -
2.9138 1250 0.1875 - - -
2.9371 1260 0.1695 - - -
2.9604 1270 0.1899 - - -
2.9837 1280 0.1693 - - -
3.0 1287 - 0.7175 0.7098 0.6956
3.0070 1290 0.1361 - - -
3.0303 1300 0.1007 - - -
3.0536 1310 0.0901 - - -
3.0769 1320 0.1143 - - -
3.1002 1330 0.0981 - - -
3.1235 1340 0.0972 - - -
3.1469 1350 0.1046 - - -
3.1702 1360 0.0983 - - -
3.1935 1370 0.1066 - - -
3.2168 1380 0.1119 - - -
3.2401 1390 0.1012 - - -
3.2634 1400 0.0882 - - -
3.2867 1410 0.1068 - - -
3.3100 1420 0.091 - - -
3.3333 1430 0.098 - - -
3.3566 1440 0.1232 - - -
3.3800 1450 0.1024 - - -
3.4033 1460 0.0888 - - -
3.4266 1470 0.1071 - - -
3.4499 1480 0.1158 - - -
3.4732 1490 0.1117 - - -
3.4965 1500 0.1168 - - -
3.5198 1510 0.1 - - -
3.5431 1520 0.1305 - - -
3.5664 1530 0.0898 - - -
3.5897 1540 0.1134 - - -
3.6131 1550 0.1055 - - -
3.6364 1560 0.1135 - - -
3.6597 1570 0.1261 - - -
3.6830 1580 0.1028 - - -
3.7063 1590 0.073 - - -
3.7296 1600 0.1051 - - -
3.7529 1610 0.1117 - - -
3.7762 1620 0.1204 - - -
3.7995 1630 0.093 - - -
3.8228 1640 0.1058 - - -
3.8462 1650 0.1028 - - -
3.8695 1660 0.0978 - - -
3.8928 1670 0.1085 - - -
3.9161 1680 0.1105 - - -
3.9394 1690 0.0873 - - -
3.9627 1700 0.1103 - - -
3.9860 1710 0.1221 - - -
4.0 1716 - 0.7279 0.7239 0.7097
4.0093 1720 0.0859 - - -
4.0326 1730 0.0891 - - -
4.0559 1740 0.0838 - - -
4.0793 1750 0.0931 - - -
4.1026 1760 0.0818 - - -
4.1259 1770 0.0912 - - -
4.1492 1780 0.1031 - - -
4.1725 1790 0.0973 - - -
4.1958 1800 0.0853 - - -
4.2191 1810 0.0843 - - -
4.2424 1820 0.1039 - - -
4.2657 1830 0.1163 - - -
4.2890 1840 0.0748 - - -
4.3124 1850 0.0817 - - -
4.3357 1860 0.0841 - - -
4.3590 1870 0.094 - - -
4.3823 1880 0.0858 - - -
4.4056 1890 0.1025 - - -
4.4289 1900 0.0989 - - -
4.4522 1910 0.0834 - - -
4.4755 1920 0.0674 - - -
4.4988 1930 0.1034 - - -
4.5221 1940 0.0817 - - -
4.5455 1950 0.0763 - - -
4.5688 1960 0.0956 - - -
4.5921 1970 0.0776 - - -
4.6154 1980 0.0961 - - -
4.6387 1990 0.0887 - - -
4.6620 2000 0.0807 - - -
4.6853 2010 0.0771 - - -
4.7086 2020 0.0835 - - -
4.7319 2030 0.0913 - - -
4.7552 2040 0.0866 - - -
4.7786 2050 0.0797 - - -
4.8019 2060 0.091 - - -
4.8252 2070 0.0925 - - -
4.8485 2080 0.0934 - - -
4.8718 2090 0.093 - - -
4.8951 2100 0.0786 - - -
4.9184 2110 0.0862 - - -
4.9417 2120 0.0934 - - -
4.9650 2130 0.097 - - -
4.9883 2140 0.0687 - - -
5.0 2145 - 0.7316 0.7271 0.7132
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.49.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.3.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
37
Safetensors
Model size
42.1M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for yosefw/roberta-amharic-embed-medium

Finetuned
(2)
this model

Evaluation results