new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Sep 29

Submitted by

Andyson

LongLive: Real-time Interactive Long Video Generation

nvidia

Submitted by

ztwang

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

·
9 authors

Submitted by

junkang0909

Quantile Advantage Estimation for Entropy-Safe Reasoning

·
6 authors

Submitted by

taesiri

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

·
61 authors

Submitted by

P2333

Variational Reasoning for Language Models

sail

Submitted by

P2333

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

sail

3

Submitted by

hyun1905

ReviewScore: Misinformed Peer Review Detection with Large Language Models

kaist-ai

2

Submitted by

xiangan

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

·
22 authors

Submitted by

bltnynk

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

kaist-ai

2

Submitted by

xl-zhao

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

·
5 authors

Submitted by

Wiselnn

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

internlm

Intern Large Models

Submitted by

lxxiao

MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

·
11 authors

Submitted by

feisun-sf

Fine-tuning Done Right in Model Editing

UCAS

ucas

Submitted by

yuna0x0

See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

·
10 authors

Submitted by

LordNoah

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

·
18 authors

Submitted by

scikkk

VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

MathLLMs

LLMs for Reasoning

Submitted by

Owen777

LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

Submitted by

abdo-eldesokey

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

·
4 authors

Submitted by

ammarali32

COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning

MTSAIR

2

Submitted by

luzimu

WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

·
8 authors

Submitted by

yuhangzang

SPARK: Synergistic Policy And Reward Co-Evolving Framework

internlm

Intern Large Models

Submitted by

wuxiaojun

Think-on-Graph 3.0: Efficient and Adaptive LLM Reasoning on Heterogeneous Graphs via Multi-Agent Dual-Evolving Context Retrieval

DataArcTech

DataArcTech Ltd.

Submitted by

JunkaiZ

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

ScaleAI

Submitted by

maksimko123

TUN3D: Towards Real-World Scene Understanding from Unposed Images

·
7 authors

Submitted by

Orannue

UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

CUC-MIPG

Multimedia Intelligent Processing Group in Communication University of China

Submitted by

taesiri

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

·
16 authors

Submitted by

dyong

WoW: Towards a World omniscient World model Through Embodied Interaction

·
36 authors

Submitted by

LordNoah

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

·
13 authors

Submitted by

nielsr

Real-Time Object Detection Meets DINOv3

·
5 authors

Submitted by

taesiri

X-Streamer: Unified Human World Modeling with Audiovisual Interaction

·
10 authors

3

Submitted by

taesiri

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

·
7 authors

Submitted by

je1lee

ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

·
8 authors

2

Submitted by

enisimsar

RefAM: Attention Magnets for Zero-Shot Referral Segmentation

·
7 authors

2

Submitted by

taesiri

Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

·
8 authors

Submitted by

zhilinw

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

nvidia

2

Submitted by

pranjalchitale

The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages

microsoft

2

Submitted by

Aman015

Scale-Wise VAR is Secretly Discrete Diffusion

·
3 authors

2

Submitted by

chen-yingfa

StateX: Enhancing RNN Recall via Post-training State Expansion

·
6 authors

Submitted by

msadat97

HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

·
3 authors

2

Submitted by

prasannareddyp

X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

·
6 authors

Submitted by

s-jse

CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

stanford-oval

Stanford Open Virtual Assistant Lab (OVAL)

2

Submitted by

rywang37

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

microsoft

2

Submitted by

Julppe1

Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences

·
3 authors

2

Submitted by

NikolaiSkripko

Instruction-Following Evaluation in Function Calling for Large Language Models

·
1 authors