bertin-project
/

bertin-roberta-base-spanish

Model card Files Files and versions

Metrics Training metrics Community

versae commited on Jul 7, 2021

Commit

fe7ff35

·

1 Parent(s): a1f93c9

Adding correct models 10k steps

Files changed (3) hide show

flax_model.msgpack +2 -2
pytorch_model.bin +3 -0
tokens.py +2 -2

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50c50c05859f43aa6a08aa3106a1ca62d225f1ac927d57e0e86e422cff5ee7a7
-size 711588089

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ff31ebb2460dbc41a160cc755d0555bb8c84672563808b968a2a121c1b2414a
+size 711587941

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4265b625a915f8a622926c9be27d6b1f3f2bc44481f81ab5d53eace54a0bc06
+size 1421780139

tokens.py CHANGED Viewed

@@ -3,11 +3,11 @@ from datasets import load_dataset
 from tokenizers import ByteLevelBPETokenizer
 # Load dataset
-dataset = load_dataset("oscar", "unshuffled_deduplicated_es")
 # Instantiate tokenizer
 tokenizer = ByteLevelBPETokenizer()
-def batch_iterator(batch_size=100_000_000):
     for i in range(0, len(dataset), batch_size):
         yield dataset["text"][i: i + batch_size]

 from tokenizers import ByteLevelBPETokenizer
 # Load dataset
+dataset = load_dataset("oscar", "unshuffled_deduplicated_es", split="train")
 # Instantiate tokenizer
 tokenizer = ByteLevelBPETokenizer()
+def batch_iterator(batch_size=1_000_000):
     for i in range(0, len(dataset), batch_size):
         yield dataset["text"][i: i + batch_size]