Mingxun Cai's picture

16

Mingxun Cai

mingxuncai

AI & ML interests

None yet

Recent Activity

upvoted a paper 3 days ago

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

upvoted a paper 3 days ago

Articulated Kinematics Distillation from Video Diffusion Models

upvoted a paper 3 days ago

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

View all activity

Organizations

None yet

mingxuncai's activity

upvoted 16 papers 3 days ago

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Paper • 2504.00557 • Published 6 days ago • 15

Articulated Kinematics Distillation from Video Diffusion Models

Paper • 2504.01204 • Published 5 days ago • 18

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

Paper • 2503.21694 • Published 10 days ago • 15

RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy

Paper • 2503.24388 • Published 6 days ago • 29

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

Paper • 2503.19901 • Published 12 days ago • 32

ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Paper • 2504.00502 • Published 6 days ago • 17

PaperBench: Evaluating AI's Ability to Replicate AI Research

Paper • 2504.01848 • Published 4 days ago • 31

ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Paper • 2504.00824 • Published 6 days ago • 37

Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Paper • 2504.00883 • Published 5 days ago • 56

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Paper • 2504.00999 • Published 5 days ago • 72

MoCha: Towards Movie-Grade Talking Character Synthesis

Paper • 2503.23307 • Published 8 days ago • 93

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

Paper • 2503.23461 • Published 7 days ago • 87

GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Paper • 2504.01016 • Published 5 days ago • 26

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Paper • 2504.01724 • Published 5 days ago • 57

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Paper • 2504.01014 • Published 5 days ago • 52

ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Paper • 2504.02507 • Published 4 days ago • 71