dschulmeist
/

TiME-pt-m

Feature Extraction

text-embeddings-inference

Model card Files Files and versions

dschulmeist commited on Aug 25

Commit

7cb9879

·

verified ·

1 Parent(s): 9dfb35a

add or update model card

Files changed (1) hide show

README.md +50 -0

README.md ADDED Viewed

	@@ -0,0 +1,50 @@

+---
+language:
+- pt
+library_name: transformers
+pipeline_tag: feature-extraction
+tags:
+- BERT
+- encoder
+- embeddings
+- TiME
+- pt
+- size:m
+license: apache-2.0
+teacher_model: FacebookAI/xlm-roberta-large
+datasets:
+- uonlp/CulturaX
+---
+# TiME Portuguese (pt, m)
+Monolingual BERT-style encoder that outputs embeddings for Portuguese.
+Distilled from FacebookAI/xlm-roberta-large.
+## Specs
+- language: Portuguese (pt)
+- size: m
+- architecture: BERT encoder
+- layers: 6
+- hidden size: 768
+- intermediate size: 3072
+## Usage (mean pooled embeddings)
+```python
+from transformers import AutoTokenizer, AutoModel
+import torch
+repo = "dschulmeist/TiME-pt-m"
+tok = AutoTokenizer.from_pretrained(repo)
+mdl = AutoModel.from_pretrained(repo)
+def mean_pool(last_hidden_state, attention_mask):
+    mask = attention_mask.unsqueeze(-1).type_as(last_hidden_state)
+    return (last_hidden_state * mask).sum(1) / mask.sum(1).clamp(min=1e-9)
+inputs = tok(["example sentence"], padding=True, truncation=True, return_tensors="pt")
+outputs = mdl(**inputs)
+emb = mean_pool(outputs.last_hidden_state, inputs['attention_mask'])
+print(emb.shape)
+```