18 26 47

Yang Chen

ychenNLP

https://edchengg.github.io/

AI & ML interests

NLP

Recent Activity

new activity 13 days ago

nvidia/Nemotron-Cascade-2-30B-A3B:[Resolved] Unable to reproduce evals on AIME'25, AIME'26, HMMT Feb25

new activity 13 days ago

nvidia/Nemotron-Cascade-2-30B-A3B:use system prompt for reasoning benchmarks reproduction (IMO-AnswerBench,..)

liked a dataset 15 days ago

ychenNLP/oven

View all activity

Organizations

New activity in nvidia/Nemotron-Cascade-2-30B-A3B 13 days ago

[Resolved] Unable to reproduce evals on AIME'25, AIME'26, HMMT Feb25

👀 2

#8 opened 23 days ago by

chankhavu

use system prompt for reasoning benchmarks reproduction (IMO-AnswerBench,..)

👍 1

#24 opened 13 days ago by

ychenNLP

liked a dataset 15 days ago

ychenNLP/oven

Updated Jul 1, 2024 • 1.02k • 13

liked a model 15 days ago

bartowski/nvidia_Nemotron-Cascade-2-30B-A3B-GGUF

Text Generation • 32B • Updated 25 days ago • 33k • 30

New activity in nvidia/Nemotron-Cascade-2-30B-A3B 18 days ago

187 tok/s on RTX 3090, 625K Context, Agent Coding (IQ4_XS + Hermes Agent)

🤯🔥 3

#20 opened 19 days ago by

ychenNLP

New activity in nvidia/Nemotron-Cascade-2-30B-A3B 19 days ago

Official quantizations?

👍 2

#9 opened 22 days ago by

wijjjj

no quants working

#12 opened 21 days ago by

audioedge

pruned version

🔥👀 1

#16 opened 21 days ago by

pirola

Create jsjsj.py

#11 opened 21 days ago by

Kzksjzki828828

New activity in nvidia/Nemotron-Cascade-2-30B-A3B 21 days ago

modeling_nemotron_h.py: Multiple bugs in HybridMambaAttentionDynamicCache break generation with CUDA fast path

#13 opened 21 days ago by

trohrbaugh

liked 2 models 22 days ago

chankhavu/Nemotron-Cascade-2-30B-A3B-NVFP4

Text Generation • 16B • Updated 22 days ago • 20.8k • 11

chankhavu/Nemotron-Cascade-2-30B-A3B-FP8

Text Generation • 32B • Updated 22 days ago • 10.1k • 1

authored a paper 23 days ago

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Paper • 2603.19220 • Published 27 days ago • 66

liked 2 datasets 27 days ago

nvidia/Nemotron-Cascade-2-SFT-Data

Viewer • Updated 27 days ago • 15.9M • 17.7k • 54

nvidia/Nemotron-Cascade-2-RL-data

Viewer • Updated 27 days ago • 55.7k • 1.25k • 47

upvoted a collection 27 days ago

Nemotron-Cascade 2

Collection

Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation • 4 items • Updated about 14 hours ago • 48

liked a model 27 days ago

nvidia/Nemotron-Cascade-2-30B-A3B

Text Generation • 32B • Updated 6 days ago • 315k • 473

upvoted a paper 27 days ago

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Paper • 2603.19220 • Published 27 days ago • 66

upvoted a paper 2 months ago

Context Forcing: Consistent Autoregressive Video Generation with Long Context

Paper • 2602.06028 • Published Feb 5 • 36

liked a model 4 months ago

nvidia/Nemotron-Cascade-8B-Intermediate-ckpts

Text Generation • Updated Dec 19, 2025 • 13

Yang Chen

AI & ML interests

Recent Activity

Organizations

ychenNLP's activity

[Resolved] Unable to reproduce evals on AIME'25, AIME'26, HMMT Feb25

use system prompt for reasoning benchmarks reproduction (IMO-AnswerBench,..)

187 tok/s on RTX 3090, 625K Context, Agent Coding (IQ4_XS + Hermes Agent)

Official quantizations?

no quants working

pruned version

Create jsjsj.py

modeling_nemotron_h.py: Multiple bugs in HybridMambaAttentionDynamicCache break generation with CUDA fast path