Dongfu Jiang's picture

Dongfu Jiang

DongfuJiang

·

https://jdf-prog.github.io/

AI & ML interests

Large Language Model, Modality Reasoning and their evaluation

Recent Activity

liked a dataset about 10 hours ago

agentica-org/DeepScaleR-Preview-Dataset

upvoted a paper 3 days ago

Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

commented on a paper 3 days ago

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

View all activity

Organizations

DongfuJiang 's models 42

DongfuJiang/vapo_lora_all_data_iter_2

Updated Aug 1, 2024 • 1

DongfuJiang/vapo_lora_all_data_iter_1

Updated Jul 31, 2024 • 1

DongfuJiang/PairRM-V2-phi3-3-mini-unified-feedback

Updated Jul 30, 2024 • 1

DongfuJiang/PairRM-V2-phi3-3-mini-ultra-feedback-binarized-lora

4B • Updated Jul 26, 2024 • 6

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-1600

Text Generation • 4B • Updated Jul 25, 2024 • 4

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-1200

Text Generation • 4B • Updated Jul 25, 2024 • 5

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-2000

Text Generation • 4B • Updated Jul 25, 2024 • 4

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-2400

Text Generation • 4B • Updated Jul 25, 2024 • 4

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-2882

Text Generation • 4B • Updated Jul 25, 2024 • 5

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-400

Text Generation • 4B • Updated Jul 25, 2024 • 4

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-2800

Text Generation • 4B • Updated Jul 25, 2024 • 3

DongfuJiang/PairRM-V2-phi3-3-mini-checkpoint-800

Text Generation • 4B • Updated Jul 25, 2024 • 5