nomic-ai
/

nomic-embed-text-v1.5

@@ -2609,7 +2609,7 @@ language:
 # nomic-embed-text-v1.5: Resizable Production Embeddings with Matryoshka Representation Learning
-[Blog](https://www.nomic.ai/blog/posts/nomic-embed-text-v1) | [Technical Report](https://arxiv.org/abs/2402.01613) | [AWS SageMaker](https://aws.amazon.com/marketplace/seller-profile?id=seller-tpqidcj54zawi) | [Nomic Platform](https://atlas.nomic.ai)
 **Exciting Update!**: `nomic-embed-text-v1.5` is now multimodal! [nomic-embed-vision-v1.5](https://huggingface.co/nomic-ai/nomic-embed-vision-v1.5) is aligned to the embedding space of `nomic-embed-text-v1.5`, meaning any text embedding is multimodal!
@@ -2630,7 +2630,7 @@ This prefix is used for embedding texts as documents, for example as documents f
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['search_document: TSNE is a dimensionality reduction algorithm created by Laurens van Der Maaten']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2645,7 +2645,7 @@ This prefix is used for embedding texts as questions that documents from a datas
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['search_query: Who is Laurens van Der Maaten?']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2660,7 +2660,7 @@ This prefix is used for embedding texts in order to group them into clusters, di
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['clustering: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2675,7 +2675,7 @@ This prefix is used for embedding texts into vectors that will be used as featur
 ```python
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("nomic-ai/nomic-embed-text-v1.5", trust_remote_code=True)
 sentences = ['classification: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
@@ -2737,8 +2737,8 @@ The model natively supports scaling of the sequence length past 2048 tokens. To
 + tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased', model_max_length=8192)
-- model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', trust_remote_code=True)
-+ model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1.5', trust_remote_code=True, rotary_scaling_factor=2)
 ```
 ### Transformers.js

 # nomic-embed-text-v1.5: Resizable Production Embeddings with Matryoshka Representation Learning
+[Blog](https://www.nomic.ai/blog/posts/nomic-embed-text-v1) | [Technical Report](https://arxiv.org/abs/2402.01613) | [AWS SageMaker](https://aws.amazon.com/marketplace/seller-profile?id=seller-tpqidcj54zawi) | [Atlas Embedding and Unstructured Data Analytics Platform](https://atlas.nomic.ai)
 **Exciting Update!**: `nomic-embed-text-v1.5` is now multimodal! [nomic-embed-vision-v1.5](https://huggingface.co/nomic-ai/nomic-embed-vision-v1.5) is aligned to the embedding space of `nomic-embed-text-v1.5`, meaning any text embedding is multimodal!
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1", trust_remote_code=True)
 sentences = ['search_document: TSNE is a dimensionality reduction algorithm created by Laurens van Der Maaten']
 embeddings = model.encode(sentences)
 print(embeddings)
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1", trust_remote_code=True)
 sentences = ['search_query: Who is Laurens van Der Maaten?']
 embeddings = model.encode(sentences)
 print(embeddings)
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1", trust_remote_code=True)
 sentences = ['clustering: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
 ```python
 from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("nomic-ai/nomic-embed-text-v1", trust_remote_code=True)
 sentences = ['classification: the quick brown fox']
 embeddings = model.encode(sentences)
 print(embeddings)
 + tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased', model_max_length=8192)
+- model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1', trust_remote_code=True)
++ model = AutoModel.from_pretrained('nomic-ai/nomic-embed-text-v1', trust_remote_code=True, rotary_scaling_factor=2)
 ```
 ### Transformers.js

config.json CHANGED Viewed

@@ -7,11 +7,7 @@
   "auto_map": {
     "AutoConfig": "nomic-ai/nomic-bert-2048--configuration_hf_nomic_bert.NomicBertConfig",
     "AutoModel": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertModel",
-    "AutoModelForMaskedLM": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForPreTraining",
-    "AutoModelForSequenceClassification": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForSequenceClassification",
-    "AutoModelForMultipleChoice": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForMultipleChoice",
-    "AutoModelForQuestionAnswering": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForQuestionAnswering",
-    "AutoModelForTokenClassification": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForTokenClassification"
   },
   "bos_token_id": null,
   "causal": false,

   "auto_map": {
     "AutoConfig": "nomic-ai/nomic-bert-2048--configuration_hf_nomic_bert.NomicBertConfig",
     "AutoModel": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertModel",
+    "AutoModelForMaskedLM": "nomic-ai/nomic-bert-2048--modeling_hf_nomic_bert.NomicBertForPreTraining"
   },
   "bos_token_id": null,
   "causal": false,