sentence-transformers
/

static-similarity-mrl-multilingual-v1

Sentence Similarity

sentence-transformers

feature-extraction

Generated from Trainer

dataset_size:62698210

loss:MatryoshkaLoss

loss:MultipleNegativesRankingLoss

Model card Files Files and versions

Tom Aarsen commited on Nov 27, 2024

Commit

f9c9b72

·

1 Parent(s): 6e99faa

Reflect that JW300 was removed

Files changed (1) hide show

train.py +0 -9

train.py CHANGED Viewed

@@ -66,13 +66,6 @@ def main():
     global_voices_eval_dataset: Dataset = global_voices_dataset_dict["test"]
     print("Loaded global voices dataset.")
-    print("Loading jw300 dataset...")
-    jw300_dataset = load_dataset("sentence-transformers/parallel-sentences-jw300", "all", split="train")
-    jw300_dataset_dict = jw300_dataset.train_test_split(test_size=10_000, seed=12)
-    jw300_train_dataset: Dataset = jw300_dataset_dict["train"]
-    jw300_eval_dataset: Dataset = jw300_dataset_dict["test"]
-    print("Loaded jw300 dataset.")
     print("Loading muse dataset...")
     muse_dataset = load_dataset("sentence-transformers/parallel-sentences-muse", split="train")
     muse_dataset_dict = muse_dataset.train_test_split(test_size=10_000, seed=12)
@@ -168,7 +161,6 @@ def main():
         "talks": talks_train_dataset,
         "europarl": europarl_train_dataset,
         "global_voices": global_voices_train_dataset,
-        "jw300": jw300_train_dataset,
         "muse": muse_train_dataset,
         "wikimatrix": wikimatrix_train_dataset,
         "opensubtitles": opensubtitles_train_dataset,
@@ -189,7 +181,6 @@ def main():
         "talks": talks_eval_dataset,
         "europarl": europarl_eval_dataset,
         "global_voices": global_voices_eval_dataset,
-        "jw300": jw300_eval_dataset,
         "muse": muse_eval_dataset,
         "wikimatrix": wikimatrix_eval_dataset,
         "opensubtitles": opensubtitles_eval_dataset,

     global_voices_eval_dataset: Dataset = global_voices_dataset_dict["test"]
     print("Loaded global voices dataset.")
     print("Loading muse dataset...")
     muse_dataset = load_dataset("sentence-transformers/parallel-sentences-muse", split="train")
     muse_dataset_dict = muse_dataset.train_test_split(test_size=10_000, seed=12)
         "talks": talks_train_dataset,
         "europarl": europarl_train_dataset,
         "global_voices": global_voices_train_dataset,
         "muse": muse_train_dataset,
         "wikimatrix": wikimatrix_train_dataset,
         "opensubtitles": opensubtitles_train_dataset,
         "talks": talks_eval_dataset,
         "europarl": europarl_eval_dataset,
         "global_voices": global_voices_eval_dataset,
         "muse": muse_eval_dataset,
         "wikimatrix": wikimatrix_eval_dataset,
         "opensubtitles": opensubtitles_eval_dataset,