tomaarsen
/

ettin-encoder-17m-cmnrl-lr2e-05-bs128

+import argparse
+import logging
+import traceback
+from collections import defaultdict
+from collections.abc import Iterable
+from enum import Enum, auto
+import torch
+from datasets import load_dataset
+from torch import Tensor
+from sentence_transformers import (
+    SentenceTransformer,
+    SentenceTransformerModelCardData,
+    SentenceTransformerTrainer,
+    SentenceTransformerTrainingArguments,
+)
+from sentence_transformers.evaluation import InformationRetrievalEvaluator, NanoBEIREvaluator, SequentialEvaluator
+from sentence_transformers.losses import (
+    CachedMultipleNegativesRankingLoss,
+    DistillKLDivLoss,
+    MarginMSELoss,
+    MultipleNegativesRankingLoss,
+)
+from sentence_transformers.training_args import BatchSamplers
+from sentence_transformers.util import pairwise_dot_score
+# Set the log level to INFO to get more information
+logging.basicConfig(format="%(asctime)s - %(message)s", datefmt="%Y-%m-%d %H:%M:%S", level=logging.INFO)
+class LossType(Enum):
+    MNRL = auto()
+    CMNRL = auto()
+    MARGIN_MSE = auto()
+    KLDIV = auto()
+    MARGIN_MSE_KLDIV = auto()
+    def __str__(self):
+        return self.name.lower()
+class MarginMSEKLDivLoss(torch.nn.Module):
+    def __init__(
+        self,
+        model: SentenceTransformer,
+        similarity_fct=pairwise_dot_score,
+        temperature=1.0,
+        margin_mse_weight=1.0,
+        kldiv_weight=1.0,
+    ) -> None:
+        super().__init__()
+        self.model = model
+        self.similarity_fct = similarity_fct
+        self.temperature = temperature
+        self.margin_mse_weight = margin_mse_weight
+        self.kldiv_weight = kldiv_weight
+        self.margin_mse_loss = MarginMSELoss(self.model, similarity_fct=self.similarity_fct)
+        self.kl_div_loss = DistillKLDivLoss(
+            self.model, similarity_fct=self.similarity_fct, temperature=self.temperature
+        )
+    def forward(self, sentence_features: Iterable[dict[str, Tensor]], labels: Tensor) -> Tensor:
+        embeddings = [self.model(sentence_feature)["sentence_embedding"] for sentence_feature in sentence_features]
+        return self.compute_loss_from_embeddings(embeddings, labels)
+    def compute_loss_from_embeddings(self, embeddings: list[Tensor], labels: Tensor) -> Tensor:
+        return {
+            "margin_mse": self.margin_mse_loss.compute_loss_from_embeddings(embeddings, labels) * self.margin_mse_weight,
+            "kl_div": self.kl_div_loss.compute_loss_from_embeddings(embeddings, labels) * self.kldiv_weight
+        }
+def main(
+    model_name_or_path: str,
+    loss_type: LossType,
+    kldiv_temperature: float,
+    margin_mse_weight: float,
+    kldiv_weight: float,
+    mini_batch_size: int,
+    mnrl_scale: float,
+    num_train_epochs: int,
+    per_device_batch_size: int,
+    learning_rate: float,
+    warmup_ratio: float,
+    fp16: bool,
+    bf16: bool,
+    eval_save_steps: int,
+    save_total_limit: int,
+    logging_steps: int,
+    evaluator_batch_size: int,
+    quick: bool,
+):
+    # 1. Load a model with prompts to finetune with 2. (Optional) model card data
+    model = SentenceTransformer(
+        model_name_or_path,
+        model_card_data=SentenceTransformerModelCardData(
+            language="en",
+            license="apache-2.0",
+            model_name=f"{model_name_or_path} trained on RLHN MS MARCO using {loss_type}",
+        ),
+        prompts={  # prompts with "query" and "document" keys are automatically used in evaluation via model.encode_query/model.encode_document
+            "query": "query: ",
+            "document": "document: ",
+        },
+    )
+    # 3. Load a dataset to finetune on
+    # TODO: Eventually we want this:
+    """
+    train_dataset = load_dataset("mixedbread-ai/rlhn-680k-msmarco-7negs", split="train")
+    eval_dataset = load_dataset("mixedbread-ai/rlhn-680k-msmarco-7negs", split="eval")
+    test_dataset = load_dataset("mixedbread-ai/rlhn-680k-msmarco-7negs", split="test")
+    train_dataset = train_dataset.select_columns([column for column in train_dataset.column_names if column != 'logits'])
+    eval_dataset = eval_dataset.select_columns([column for column in eval_dataset.column_names if column != 'logits'])
+    test_dataset = test_dataset.select_columns([column for column in test_dataset.column_names if column != 'logits'])
+    """
+    # But for now we do it manually:
+    dataset = load_dataset("mixedbread-ai/rlhn-680k-msmarco-7negs-scored", split="train")
+    dataset = dataset.select_columns([column for column in dataset.column_names if column != "logits"])
+    split_dataset = dataset.train_test_split(test_size=3_000)
+    dataset = split_dataset["train"]
+    eval_dataset = split_dataset["test"]
+    split_dataset = dataset.train_test_split(test_size=10_000)
+    train_dataset = split_dataset["train"]
+    test_dataset = split_dataset["test"]
+    # 4. Define a loss function
+    batch_sampler = BatchSamplers.BATCH_SAMPLER
+    gather_across_devices = torch.distributed.is_initialized() if torch.distributed.is_available() else False
+    if loss_type == LossType.MNRL:
+        loss = MultipleNegativesRankingLoss(model, scale=mnrl_scale, gather_across_devices=gather_across_devices)
+        batch_sampler = BatchSamplers.NO_DUPLICATES
+    elif loss_type == LossType.CMNRL:
+        loss = CachedMultipleNegativesRankingLoss(
+            model, scale=mnrl_scale, mini_batch_size=mini_batch_size, gather_across_devices=gather_across_devices
+        )
+        batch_sampler = BatchSamplers.NO_DUPLICATES
+    elif loss_type == LossType.MARGIN_MSE:
+        loss = MarginMSELoss(model)
+    elif loss_type == LossType.KLDIV:
+        loss = DistillKLDivLoss(model, temperature=kldiv_temperature)
+    elif loss_type == LossType.MARGIN_MSE_KLDIV:
+        loss = MarginMSEKLDivLoss(
+            model, temperature=kldiv_temperature, margin_mse_weight=margin_mse_weight, kldiv_weight=kldiv_weight
+        )
+    # 5. (Optional) Specify training arguments
+    short_model_name_or_path = model_name_or_path.split("/")[-1]
+    run_name = f"{short_model_name_or_path}-{loss_type}-lr{learning_rate}-bs{per_device_batch_size}"
+    column_names_to_prompts = {
+        column_name: "query" if column_name == "query" else "document"
+        for column_name in dataset.column_names
+        if column_name != "scores"
+    }
+    args = SentenceTransformerTrainingArguments(
+        # Required parameter:
+        output_dir=f"models/{run_name}",
+        # Optional training parameters:
+        num_train_epochs=0.05 if quick else num_train_epochs,
+        per_device_train_batch_size=per_device_batch_size,
+        per_device_eval_batch_size=per_device_batch_size,
+        learning_rate=learning_rate,
+        warmup_ratio=warmup_ratio,
+        fp16=fp16,  # Set to False if you get an error that your GPU can't run on FP16
+        bf16=bf16,  # Set to True if you have a GPU that supports BF16
+        batch_sampler=batch_sampler,  # (C)MNRL benefits from no duplicate samples in a batch
+        prompts=column_names_to_prompts,  # Let's incorporate prompts for a ~1% improvement
+        # Optional tracking/debugging parameters:
+        eval_strategy="steps",
+        eval_steps=eval_save_steps,
+        save_strategy="steps",
+        save_steps=eval_save_steps,
+        save_total_limit=save_total_limit,
+        logging_steps=logging_steps,
+        run_name=run_name,
+    )
+    # 6. (Optional) Create evaluator & evaluate the base model
+    nano_beir_evaluator = NanoBEIREvaluator(
+        dataset_names=["msmarco", "nfcorpus", "nq"],
+        batch_size=evaluator_batch_size,
+        query_prompts=model.prompts["query"],  # This will be done automatically starting from the next version
+        corpus_prompts=model.prompts["document"],  # This will be done automatically starting from the next version
+    )
+    eval_queries = {}
+    eval_documents = {}
+    eval_relevant_docs = defaultdict(set)
+    for query, positive in zip(eval_dataset["query"], eval_dataset["positive"]):
+        query_id = len(eval_queries)
+        eval_queries[query_id] = query
+        document_id = len(eval_documents)
+        eval_documents[document_id] = positive
+        eval_relevant_docs[query_id].add(document_id)
+    for column_name in test_dataset.column_names:
+        if column_name.startswith("negative"):
+            for negative in test_dataset[column_name]:
+                document_id = len(eval_documents)
+                eval_documents[document_id] = negative
+    eval_ir_evaluator = InformationRetrievalEvaluator(
+        queries=eval_queries,
+        corpus=eval_documents,
+        relevant_docs=eval_relevant_docs,
+        name="rlhn-msmarco-eval",
+        batch_size=evaluator_batch_size,
+        query_prompt_name="query",  # This will be done automatically starting from the next version
+        corpus_prompt_name="document",  # This will be done automatically starting from the next version
+    )
+    eval_evaluator = SequentialEvaluator([nano_beir_evaluator, eval_ir_evaluator])
+    if not quick:
+        eval_evaluator(model)
+    test_queries = {}
+    test_documents = {}
+    test_relevant_docs = defaultdict(set)
+    for query, positive in zip(test_dataset["query"], test_dataset["positive"]):
+        query_id = len(test_queries)
+        test_queries[query_id] = query
+        document_id = len(test_documents)
+        test_documents[document_id] = positive
+        test_relevant_docs[query_id].add(document_id)
+    for column_name in test_dataset.column_names:
+        if column_name.startswith("negative"):
+            for negative in test_dataset[column_name]:
+                document_id = len(test_documents)
+                test_documents[document_id] = negative
+    test_ir_evaluator = InformationRetrievalEvaluator(
+        queries=test_queries,
+        corpus=test_documents,
+        relevant_docs=test_relevant_docs,
+        name="rlhn-msmarco-test",
+        batch_size=evaluator_batch_size,
+        query_prompt_name="query",  # This will be done automatically starting from the next version
+        corpus_prompt_name="document",  # This will be done automatically starting from the next version
+    )
+    test_evaluator = SequentialEvaluator([test_ir_evaluator])
+    if not quick:
+        test_evaluator(model)
+    # 7. Create a trainer & train
+    trainer = SentenceTransformerTrainer(
+        model=model,
+        args=args,
+        train_dataset=train_dataset,
+        eval_dataset=eval_dataset,
+        loss=loss,
+        evaluator=eval_evaluator,
+    )
+    trainer.train()
+    # (Optional) Evaluate the trained model on the eval & test sets again
+    eval_evaluator(model)
+    test_evaluator(model)
+    # 8. Save the final model
+    final_output_dir = f"models/{run_name}/final"
+    model.save_pretrained(final_output_dir)
+    # 9. (Optional) save the model to the Hugging Face Hub!
+    # It is recommended to run `huggingface-cli login` to log into your Hugging Face account first
+    try:
+        model.push_to_hub(run_name, private=True)
+    except Exception:
+        logging.error(
+            f"Error uploading model to the Hugging Face Hub:\n{traceback.format_exc()}To upload it manually, you can run "
+            f"`huggingface-cli login`, followed by loading the model using `model = CrossEncoder({final_output_dir!r})` "
+            f"and saving it using `model.push_to_hub('{run_name}')`."
+        )
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(description="Train a sentence transformer model on RLHN MS MARCO dataset")
+    parser.add_argument(
+        "--model_name_or_path", type=str, default="jhu-clsp/ettin-encoder-17m", help="Model name or path to load"
+    )
+    parser.add_argument(
+        "--loss_type",
+        type=lambda x: LossType[x.upper()],
+        default=LossType.CMNRL,
+        choices=list(LossType),
+        help="Loss function to use",
+    )
+    parser.add_argument("--kldiv_temperature", type=float, default=1.0, help="Temperature for KL divergence loss")
+    parser.add_argument("--margin_mse_weight", type=float, default=1.0, help="Weight for margin MSE in combined loss")
+    parser.add_argument("--kldiv_weight", type=float, default=1.0, help="Weight for KL divergence in combined loss")
+    parser.add_argument("--mini_batch_size", type=int, default=16, help="Mini-batch size for cached MNRL")
+    parser.add_argument("--mnrl_scale", type=float, default=20.0, help="Scale factor for MNRL loss")
+    parser.add_argument("--num_train_epochs", type=int, default=1, help="Number of training epochs")
+    parser.add_argument("--per_device_batch_size", type=int, default=128, help="Batch size per device")
+    parser.add_argument("--evaluator_batch_size", type=int, default=32, help="Batch size for the evaluators")
+    parser.add_argument("--learning_rate", type=float, default=2e-5, help="Learning rate")
+    parser.add_argument("--warmup_ratio", type=float, default=0.1, help="Ratio of warmup steps")
+    parser.add_argument("--fp16", action="store_true", help="Use FP16 precision")
+    parser.add_argument("--bf16", action="store_true", default=True, help="Use BF16 precision")
+    parser.add_argument(
+        "--eval_save_steps",
+        type=float,
+        default=0.2,
+        help="Steps between evaluations and checkpoint saves. If less than 1, "
+        "it will be treated as a fraction of the total steps.",
+    )
+    parser.add_argument("--save_total_limit", type=int, default=3, help="Maximum number of checkpoints to keep")
+    parser.add_argument("--logging_steps", type=int, default=100, help="Steps between logging")
+    parser.add_argument("--quick", action="store_true", help="Run with only 5% of training data for quick testing")
+    args = parser.parse_args()
+    main(
+        model_name_or_path=args.model_name_or_path,
+        loss_type=args.loss_type,
+        kldiv_temperature=args.kldiv_temperature,
+        margin_mse_weight=args.margin_mse_weight,
+        kldiv_weight=args.kldiv_weight,
+        mini_batch_size=args.mini_batch_size,
+        mnrl_scale=args.mnrl_scale,
+        num_train_epochs=args.num_train_epochs,
+        per_device_batch_size=args.per_device_batch_size,
+        learning_rate=args.learning_rate,
+        warmup_ratio=args.warmup_ratio,
+        fp16=args.fp16,
+        bf16=args.bf16,
+        eval_save_steps=args.eval_save_steps,
+        save_total_limit=args.save_total_limit,
+        logging_steps=args.logging_steps,
+        evaluator_batch_size=args.evaluator_batch_size,
+        quick=args.quick,
+    )