Llama 3.1 Instruct SPPO - a jcrpaquin-cfa Collection

jcrpaquin-cfa 's Collections

updated Jul 24, 2024

Llama 3.1 models fine-tuned with Self-Play Preference Optimization (SPPO): https://uclaml.github.io/SPPO/

This collection has no items.