cahya
/

bert2bert-indonesian-summarization

encoder-decoder

text2text-generation

pipeline:summarization

Model card Files Files and versions

cahya commited on Jan 29, 2021

Commit

e346883

·

1 Parent(s): 10b22bf

updated the readme

Files changed (1) hide show

README.md +55 -6

README.md CHANGED Viewed

@@ -1,14 +1,63 @@
 ---
 language: id
-license: apache-2.0
-datasets:
-- id_liputan6
 tags:
 - summarization
 ---
-Bert2Bert Summarization with EncoderDecoder Framework.
-This model is a warm-started *BERT2BERT* model fine-tuned on the *id_liputan6* summarization dataset.
-Detail about this model will be added soon.

 ---
 language: id
 tags:
+- pipeline:summarization
 - summarization
+- bert2bert
+datasets:
+- id_liputan6
+license: apache-2.0
 ---
+# Indonesian BERT2BERT Summarization Model
+Finetuned BERT-base summarization model for Indonesian.
+## Finetuning Corpus
+`bert2bert-indonesian-summarization` model is based on `cahya/bert-base-indonesian-1.5G` by [cahya](https://huggingface.co/cahya), finetuned using [id_liputan6](https://huggingface.co/datasets/id_liputan6) dataset.
+## Load Finetuned Model
+```python
+from transformers import BertTokenizer, EncoderDecoderModel
+tokenizer = BertTokenizer.from_pretrained("cahya/bert2bert-indonesian-summarization")
+tokenizer.bos_token = tokenizer.cls_token
+tokenizer.eos_token = tokenizer.sep_token
+model = EncoderDecoderModel.from_pretrained("cahya/bert2bert-indonesian-summarization")
+```
+## Code Sample
+```python
+from transformers import BertTokenizer, EncoderDecoderModel
+tokenizer = BertTokenizer.from_pretrained("cahya/bert2bert-indonesian-summarization")
+tokenizer.bos_token = tokenizer.cls_token
+tokenizer.eos_token = tokenizer.sep_token
+model = EncoderDecoderModel.from_pretrained("cahya/bert2bert-indonesian-summarization")
+#
+ARTICLE_TO_SUMMARIZE = ""
+# generate summary
+input_ids = tokenizer.encode(ARTICLE_TO_SUMMARIZE, return_tensors='pt')
+summary_ids = model.generate(input_ids,
+            max_length=100,
+            num_beams=2,
+            repetition_penalty=2.5,
+            length_penalty=1.0,
+            early_stopping=True,
+            no_repeat_ngram_size=2,
+            use_cache=True)
+summary_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+print(summary_text)
+```
+Output:
+```
+```