Wenkai Yang's picture

2 7

Wenkai Yang PRO

Keven16

·

https://keven980716.github.io/

keven980716

AI & ML interests

None yet

Recent Activity

published a model 4 days ago

Keven16/Qwen2.5-32B-TOPS-Iter-DPO-Preview

published a model 4 days ago

Keven16/Qwen2.5-32B-TOPS-Iter-DPO

upvoted a paper 5 days ago

Agentic Reinforced Policy Optimization

View all activity

Organizations

None yet

upvoted a paper 5 days ago

Agentic Reinforced Policy Optimization

Paper • 2507.19849 • Published 8 days ago • 115

upvoted 2 papers about 2 months ago

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Paper • 2506.13585 • Published Jun 16 • 260

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 252

upvoted 2 papers 2 months ago

LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

Paper • 2505.16933 • Published May 22 • 33

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Paper • 2505.16410 • Published May 22 • 57

upvoted a paper 3 months ago

DeepCritic: Deliberate Critique with Large Language Models

Paper • 2505.00662 • Published May 1 • 54

upvoted a paper about 1 year ago

Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

Paper • 2406.11431 • Published Jun 17, 2024 • 4