Tom Aarsen's picture

Tom Aarsen

tomaarsen

·

https://linkedin.com/in/tomaarsen

AI & ML interests

NLP: text embeddings, information retrieval, named entity recognition, few-shot text classification

Recent Activity

liked a Space about 24 hours ago

Foaster/Werewolf_benchmark

liked a model 1 day ago

asmud/indonesian-embedding-small

replied to s-emanuilov's post 1 day ago

Ran MTEB evaluation on Bulgarian tasks comparing EmbeddingGemma-300M (https://huggingface.co/google/embeddinggemma-300m)) vs Multilingual-E5-Large (https://huggingface.co/intfloat/multilingual-e5-large) EmbeddingGemma-300M scored 71.6% average while E5-Large got 75.9%. Pretty solid results for EmbeddingGemma considering it's half the size and uses way less resources. EmbeddingGemma actually beats E5-Large on sentiment analysis and natural language inference. E5-Large wins on retrieval and bitext mining tasks. The 300M model has 4x longer context window (2048 vs 512 tokens) and lower carbon footprint which is good. Both models work great for Bulgarian but have different strengths depending what you need. Blog article about the usage: https://huggingface.co/blog/embeddinggemma PS: Don't forget to use the recommended libraries versions :D ``` pip install git+https://github.com/huggingface/[email protected] pip install sentence-transformers>=5.0.0 ```

View all activity

Organizations

New activity in google/embeddinggemma-300m 1 day ago

Very bad performances (not gpu time, score)

#3 opened 2 days ago by

New activity in community-spotlight/README 2 days ago

Nominate a tool builder

#3 opened 6 days ago by

Nominate a model creator

#1 opened 6 days ago by

Nominate a community champion

#4 opened 6 days ago by

New activity in sentence-transformers/embeddinggemma-300m-medical 3 days ago

Add `text-embeddings-inference` tag

#1 opened 3 days ago by

New activity in huggingface/documentation-images 3 days ago

Add some data

#541 opened 3 days ago by

New activity in sentence-transformers/all-MiniLM-L6-v2 3 days ago

Updated feature-extraction API URL

#116 opened 4 months ago by

Report

#132 opened 3 days ago by

Report

#133 opened 3 days ago by

API error for model sentence-transformers/all-MiniLM-L6-v2

#131 opened 3 days ago by

New activity in sentence-transformers/all-MiniLM-L6-v2 8 days ago

Update config.json

#130 opened 8 days ago by

New activity in sentence-transformers/static-retrieval-mrl-en-v1 15 days ago

How can i use this with Transformers

#4 opened 15 days ago by

New activity in sentence-transformers/paraphrase-multilingual-mpnet-base-v2 19 days ago

Add `text-embeddings-inference` tag & snippet

#14 opened 26 days ago by

New activity in sentence-transformers/stsb-mpnet-base-v2 19 days ago

Add `text-embeddings-inference` tag & snippet

#3 opened 26 days ago by

New activity in sentence-transformers/paraphrase-mpnet-base-v2 19 days ago

Add `text-embeddings-inference` tag & snippet

#4 opened 26 days ago by

New activity in sentence-transformers/nli-mpnet-base-v2 19 days ago

Add `text-embeddings-inference` tag & snippet

#4 opened 26 days ago by

New activity in sentence-transformers/multi-qa-mpnet-base-dot-v1 19 days ago

Add `text-embeddings-inference` tag & snippet

#8 opened 26 days ago by

New activity in sentence-transformers/multi-qa-mpnet-base-cos-v1 19 days ago

Add `text-embeddings-inference` tag & snippet

#8 opened 26 days ago by

New activity in sentence-transformers/all-mpnet-base-v1 19 days ago

Add `text-embeddings-inference` tag & snippet

#4 opened 26 days ago by

New activity in sentence-transformers/all-mpnet-base-v2 19 days ago

Add `text-embeddings-inference` tag & snippet

#40 opened 27 days ago by