nlpconnect
/

dpr-ctx_encoder_bert_uncased_L-2_H-128_A-2

Feature Extraction

generated_from_keras_callback

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

ankur310794 commited on Dec 28, 2021

Commit

d0a63c1

·

1 Parent(s): 6fdffe1

code added

Files changed (1) hide show

README.md +58 -0

README.md CHANGED Viewed

@@ -35,6 +35,64 @@ evaluation dataset: UKPLab/beir test data but we have used first 2lac passage on
 Note: * means we have evaluated on same eval dataset.
 ### Training hyperparameters
 The following hyperparameters were used during training:

 Note: * means we have evaluated on same eval dataset.
+### Usage (HuggingFace Transformers)
+```python
+passage_encoder = TFAutoModel.from_pretrained("nlpconnect/dpr-ctx_encoder_bert_uncased_L-12_H-128_A-2")
+query_encoder = TFAutoModel.from_pretrained("nlpconnect/dpr-question_encoder_bert_uncased_L-12_H-128_A-2")
+p_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/dpr-ctx_encoder_bert_uncased_L-12_H-128_A-2")
+q_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/dpr-question_encoder_bert_uncased_L-12_H-128_A-2")
+def get_title_text_combined(passage_dicts):
+    res = []
+    for p in passage_dicts:
+        res.append(tuple((p['title'], p['text'])))
+    return res
+processed_passages = get_title_text_combined(passage_dicts)
+def extracted_passage_embeddings(processed_passages, model_config):
+    passage_inputs = tokenizer.batch_encode_plus(
+                    processed_passages,
+                    add_special_tokens=True,
+                    truncation=True,
+                    padding="max_length",
+                    max_length=model_config.passage_max_seq_len,
+                    return_token_type_ids=True
+                )
+    passage_embeddings = passage_encoder.predict([np.array(passage_inputs['input_ids']),
+                                                np.array(passage_inputs['attention_mask']),
+                                                np.array(passage_inputs['token_type_ids'])],
+                                                batch_size=512,
+                                                verbose=1)
+    return passage_embeddings
+passage_embeddings = extracted_passage_embeddings(processed_passages, model_config)
+def extracted_query_embeddings(queries, model_config):
+    query_inputs = tokenizer.batch_encode_plus(
+                    queries,
+                    add_special_tokens=True,
+                    truncation=True,
+                    padding="max_length",
+                    max_length=model_config.query_max_seq_len,
+                    return_token_type_ids=True
+                )
+    query_embeddings = query_encoder.predict([np.array(query_inputs['input_ids']),
+                                                np.array(query_inputs['attention_mask']),
+                                                np.array(query_inputs['token_type_ids'])],
+                                                batch_size=512,
+                                                verbose=1)
+    return query_embeddings
+query_embeddings = extracted_query_embeddings(queries, model_config)
+```
 ### Training hyperparameters
 The following hyperparameters were used during training: