1 11

xuhuang

xuhuang87

AI & ML interests

None yet

Recent Activity

upvoted a paper about 1 month ago

A Controllable Examination for Long-Context Language Models

upvoted a paper about 1 month ago

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

upvoted a paper 3 months ago

Could Thinking Multilingually Empower LLM Reasoning?

View all activity

Organizations

None yet

upvoted 2 papers about 1 month ago

A Controllable Examination for Long-Context Language Models

Paper • 2506.02921 • Published Jun 3 • 32

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

Paper • 2505.19897 • Published May 26 • 102

upvoted 2 papers 3 months ago

Could Thinking Multilingually Empower LLM Reasoning?

Paper • 2504.11833 • Published Apr 16 • 29

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

Paper • 2504.08672 • Published Apr 11 • 55

upvoted 2 papers 4 months ago

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era

Paper • 2503.12329 • Published Mar 16 • 25

Process-based Self-Rewarding Language Models

Paper • 2503.03746 • Published Mar 5 • 40

upvoted a collection 5 months ago

BenchMAX

Collection

10 items • Updated Feb 11 • 7

upvoted a paper 5 months ago

BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Paper • 2502.07346 • Published Feb 11 • 54

commented a paper 5 months ago

BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Paper • 2502.07346 • Published Feb 11 • 54 •

authored 3 papers 5 months ago

Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation

Paper • 2401.06568 • Published Jan 12, 2024

BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Paper • 2502.07346 • Published Feb 11 • 54

IMTLab: An Open-Source Platform for Building, Evaluating, and Diagnosing Interactive Machine Translation Systems

Paper • 2310.11163 • Published Oct 17, 2023

upvoted a paper 6 months ago

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Paper • 2412.19723 • Published Dec 27, 2024 • 88

upvoted a paper 8 months ago

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Paper • 2410.23218 • Published Oct 30, 2024 • 51

upvoted a paper 10 months ago

A Controlled Study on Long Context Extension and Generalization in LLMs

Paper • 2409.12181 • Published Sep 18, 2024 • 46

xuhuang

AI & ML interests

Recent Activity

Organizations

xuhuang87's activity