Llama 3.1 SPPO Finetunes - a adsabs Collection

adsabs 's Collections

updated Jul 24, 2024

Versions of Llama 3.1 fine-tuned using Self-Play Preference Optimization (SPPO): https://uclaml.github.io/SPPO/

This collection has no items.