8 11 28

Yixiao Ge

yxgeee

https://geyixiao.com/

AI & ML interests

Computer Vision, Foundation Models

Organizations

authored a paper 10 months ago

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Paper • 2506.16141 • Published Jun 19, 2025 • 27

authored a paper 11 months ago

Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

Paper • 2505.21374 • Published May 27, 2025 • 28

authored 3 papers about 1 year ago

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Paper • 2504.01014 • Published Apr 1, 2025 • 70

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

Paper • 2503.24376 • Published Mar 31, 2025 • 38

GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

Paper • 2503.19480 • Published Mar 25, 2025 • 16

authored 3 papers over 1 year ago

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Paper • 2412.04432 • Published Dec 5, 2024 • 16

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Paper • 2412.04445 • Published Dec 5, 2024 • 22

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Paper • 2409.04410 • Published Sep 6, 2024 • 25

authored 6 papers almost 2 years ago

SEED-Story: Multimodal Long Story Generation with Large Language Model

Paper • 2407.08683 • Published Jul 11, 2024 • 24

VoCo-LLaMA: Towards Vision Compression with Large Language Models

Paper • 2406.12275 • Published Jun 18, 2024 • 31

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

Paper • 2405.07990 • Published May 13, 2024 • 20

Making LLaMA SEE and Draw with SEED Tokenizer

Paper • 2310.01218 • Published Oct 2, 2023 • 1

SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension

Paper • 2404.16790 • Published Apr 25, 2024 • 10

SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation

Paper • 2404.14396 • Published Apr 22, 2024 • 19

authored 3 papers about 2 years ago

YOLO-World: Real-Time Open-Vocabulary Object Detection

Paper • 2401.17270 • Published Jan 30, 2024 • 43

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

Paper • 2401.14405 • Published Jan 25, 2024 • 13

Towards A Better Metric for Text-to-Video Generation

Paper • 2401.07781 • Published Jan 15, 2024 • 15

authored 3 papers over 2 years ago

Cached Transformers: Improving Transformers with Differentiable Memory Cache

Paper • 2312.12742 • Published Dec 20, 2023 • 13

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

Paper • 2312.09251 • Published Dec 14, 2023 • 10

Planting a SEED of Vision in Large Language Model

Paper • 2307.08041 • Published Jul 16, 2023 • 12

Yixiao Ge

AI & ML interests

Organizations

yxgeee's activity