Library - a JuanRafap Collection

Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

JuanRafap 's Collections

Memory

Bim

Dataset

Agent

Library

Models

Library

updated about 7 hours ago

lusxvr/nanoVLM-222M

Image-Text-to-Text • 0.2B • Updated May 8 • 275 • 95
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Paper • 2503.09516 • Published Mar 12 • 35
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Paper • 2505.24863 • Published May 30 • 98
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

Paper • 2505.17667 • Published May 23 • 89
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Paper • 2505.24864 • Published May 30 • 136
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Paper • 2505.24298 • Published May 30 • 28
GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

Paper • 2505.20355 • Published May 26 • 36
Interleaved Reasoning for Large Language Models via Reinforcement Learning

Paper • 2505.19640 • Published May 26 • 13
FullFront: Benchmarking MLLMs Across the Full Front-End Engineering Workflow

Paper • 2505.17399 • Published May 23 • 14
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles

Paper • 2505.19914 • Published May 26 • 44
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 60
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

Paper • 2505.14810 • Published May 20 • 63
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Paper • 2505.16410 • Published May 22 • 57
JULI: Jailbreak Large Language Models by Self-Introspection

Paper • 2505.11790 • Published May 17
Optimizing Anytime Reasoning via Budget Relative Policy Optimization

Paper • 2505.13438 • Published May 19 • 36
Reward Reasoning Model

Paper • 2505.14674 • Published May 20 • 37
RM-R1: Reward Modeling as Reasoning

Paper • 2505.02387 • Published May 5 • 79
CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

Paper • 2505.12504 • Published May 18 • 24
Neuro-Symbolic Query Compiler

Paper • 2505.11932 • Published May 17 • 16
Ψ-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models

Paper • 2506.01320 • Published Jun 2 • 16
Aligning Latent Spaces with Flow Priors

Paper • 2506.05240 • Published Jun 5 • 27
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Paper • 2506.00070 • Published May 29 • 29
A Controllable Examination for Long-Context Language Models

Paper • 2506.02921 • Published Jun 3 • 33
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Paper • 2506.01674 • Published Jun 2 • 28
CodeContests+: High-Quality Test Case Generation for Competitive Programming

Paper • 2506.05817 • Published Jun 6 • 9
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Paper • 2506.01111 • Published Jun 1 • 30
Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 260
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

Paper • 2506.08012 • Published Jun 9 • 7
Dreamland: Controllable World Creation with Simulator and Generative Models

Paper • 2506.08006 • Published Jun 9 • 7
Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance

Paper • 2506.06444 • Published Jun 6 • 74
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Paper • 2506.07530 • Published Jun 9 • 20
Solving Inequality Proofs with Large Language Models

Paper • 2506.07927 • Published Jun 9 • 20
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better

Paper • 2506.09040 • Published Jun 10 • 35
Through the Valley: Path to Effective Long CoT Training for Small Language Models

Paper • 2506.07712 • Published Jun 9 • 18
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Paper • 2506.02454 • Published Jun 3 • 6
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

Paper • 2506.04614 • Published Jun 5 • 18
Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

Paper • 2506.06205 • Published Jun 6 • 30
Magistral

Paper • 2506.10910 • Published Jun 12 • 64
Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team

Paper • 2506.14234 • Published Jun 17 • 41
Treasure Hunt: Real-time Targeting of the Long Tail using Training-Time Markers

Paper • 2506.14702 • Published Jun 17 • 4
AR-RAG: Autoregressive Retrieval Augmentation for Image Generation

Paper • 2506.06962 • Published Jun 8 • 29
DoTA-RAG: Dynamic of Thought Aggregation RAG

Paper • 2506.12571 • Published Jun 14 • 51
syftr: Pareto-Optimal Generative AI

Paper • 2505.20266 • Published May 26
Scaling Test-time Compute for LLM Agents

Paper • 2506.12928 • Published Jun 15 • 62
LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Paper • 2506.10082 • Published Jun 11 • 9
General-Reasoner: Advancing LLM Reasoning Across All Domains

Paper • 2505.14652 • Published May 20 • 23
Optimizing Length Compression in Large Reasoning Models

Paper • 2506.14755 • Published Jun 17 • 11
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation

Paper • 2506.17202 • Published Jun 20 • 10
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

Paper • 2506.18896 • Published Jun 23 • 29
Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

Paper • 2506.16035 • Published Jun 19 • 88
Robust Reward Modeling via Causal Rubrics

Paper • 2506.16507 • Published Jun 19 • 9
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

Paper • 2507.02813 • Published Jul 3 • 60
FreeMorph: Tuning-Free Generalized Image Morphing with Diffusion Model

Paper • 2507.01953 • Published Jul 2 • 19
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

Paper • 2506.17930 • Published Jun 22 • 19
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Paper • 2506.24119 • Published Jun 30 • 49
katanemo/Arch-Router-1.5B

Text Generation • 2B • Updated Jun 29 • 2.92k • 97
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

Paper • 2507.03336 • Published Jul 4 • 5
SingLoRA: Low Rank Adaptation Using a Single Matrix

Paper • 2507.05566 • Published Jul 8 • 111
CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization

Paper • 2507.06181 • Published Jul 8 • 42
AutoTriton: Automatic Triton Programming with Reinforcement Learning in LLMs

Paper • 2507.05687 • Published Jul 8 • 26
Coding Triangle: How Does Large Language Model Understand Code?

Paper • 2507.06138 • Published Jul 8 • 20
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

Paper • 2507.05920 • Published Jul 8 • 11
RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs

Paper • 2507.03253 • Published Jul 4 • 18
Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs

Paper • 2507.07996 • Published Jul 10 • 33
Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

Paper • 2507.08801 • Published Jul 11 • 30
A Survey of Context Engineering for Large Language Models

Paper • 2507.13334 • Published Jul 17 • 249
WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization

Paper • 2507.15061 • Published Jul 20 • 54
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

Paper • 2507.12841 • Published Jul 17 • 41
Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

Paper • 2507.16784 • Published Jul 22 • 119
MUR: Momentum Uncertainty guided Reasoning for Large Language Models

Paper • 2507.14958 • Published Jul 20 • 46
Does More Inference-Time Compute Really Help Robustness?

Paper • 2507.15974 • Published Jul 21 • 7
RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

Paper • 2507.15024 • Published Jul 20 • 13
ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting

Paper • 2507.15454 • Published Jul 21 • 7
Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Paper • 2507.14241 • Published Jul 17 • 17
TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

Paper • 2507.18537 • Published Jul 24 • 17
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Paper • 2507.15597 • Published Jul 21 • 33
A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning

Paper • 2507.14295 • Published Jul 18 • 13
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

Paper • 2507.15852 • Published Jul 21 • 38
FLEXITOKENS: Flexible Tokenization for Evolving Language Models

Paper • 2507.12720 • Published Jul 17 • 9
RiemannLoRA: A Unified Riemannian Framework for Ambiguity-Free LoRA Optimization

Paper • 2507.12142 • Published Jul 16 • 36
Replacing thinking with tool usage enables reasoning in small language models

Paper • 2507.05065 • Published Jul 7 • 15
Lizard: An Efficient Linearization Framework for Large Language Models

Paper • 2507.09025 • Published Jul 11 • 17
MemOS: A Memory OS for AI System

Paper • 2507.03724 • Published Jul 4 • 153
Agentic Reinforced Policy Optimization

Paper • 2507.19849 • Published Jul 26 • 148
Deep Researcher with Test-Time Diffusion

Paper • 2507.16075 • Published Jul 21 • 61
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

Paper • 2507.20984 • Published Jul 28 • 56
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Paper • 2507.19478 • Published Jul 25 • 29
Geometric-Mean Policy Optimization

Paper • 2507.20673 • Published Jul 28 • 31
UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities

Paper • 2507.19766 • Published Jul 26 • 14
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning

Paper • 2507.22607 • Published Jul 30 • 46
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Paper • 2508.00819 • Published Aug 1 • 62
Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

Paper • 2508.02150 • Published Aug 4 • 36
Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training

Paper • 2508.00414 • Published Aug 1 • 89
On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

Paper • 2507.23632 • Published Jul 31 • 6
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

Paper • 2507.23726 • Published Jul 31 • 112
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension

Paper • 2508.01959 • Published Aug 3 • 57
Tool-integrated Reinforcement Learning for Repo Deep Search

Paper • 2508.03012 • Published Aug 5 • 19
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Paper • 2508.05731 • Published about 1 month ago • 25
MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

Paper • 2508.01242 • Published Aug 2 • 9
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

Paper • 2508.08221 • Published 27 days ago • 44
Reinforcement Learning in Vision: A Survey

Paper • 2508.08189 • Published 27 days ago • 27
Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Paper • 2508.05954 • Published about 1 month ago • 6
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

Paper • 2508.08791 • Published 26 days ago • 16
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Paper • 2508.03501 • Published Aug 5 • 55
Complex Logical Instruction Generation

Paper • 2508.09125 • Published 26 days ago • 38
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

Paper • 2508.08401 • Published 27 days ago • 42
Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

Paper • 2508.09192 • Published about 1 month ago • 30
Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

Paper • 2508.12466 • Published 21 days ago • 8
Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

Paper • 2508.13142 • Published 20 days ago • 31
VertexRegen: Mesh Generation with Continuous Level of Detail

Paper • 2508.09062 • Published 26 days ago • 35
XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization

Paper • 2508.10395 • Published 24 days ago • 40
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

Paper • 2508.10893 • Published 24 days ago • 30
FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

Paper • 2508.11987 • Published 22 days ago • 66
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Paper • 2508.13186 • Published 24 days ago • 17
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

Paper • 2508.10751 • Published 24 days ago • 27
UI-Venus Technical Report: Building High-performance UI Agents with RFT

Paper • 2508.10833 • Published 24 days ago • 41
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

Paper • 2508.09968 • Published 25 days ago • 15
CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

Paper • 2508.02091 • Published Aug 4 • 13
LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

Paper • 2508.15760 • Published 17 days ago • 44
Deep Think with Confidence

Paper • 2508.15260 • Published 17 days ago • 81
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

Paper • 2508.14460 • Published 18 days ago • 80
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

Paper • 2508.14896 • Published 18 days ago • 21
PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs

Paper • 2508.17188 • Published 14 days ago • 15
Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

Paper • 2508.16949 • Published 15 days ago • 22
Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

Paper • 2508.18032 • Published 13 days ago • 40
Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling

Paper • 2508.16745 • Published 16 days ago • 26
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Paper • 2508.18756 • Published 12 days ago • 36
Do What? Teaching Vision-Language-Action Models to Reject the Impossible

Paper • 2508.16292 • Published 16 days ago • 9
MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

Paper • 2508.17811 • Published 13 days ago • 5
FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

Paper • 2508.19188 • Published 12 days ago • 14
Spacer: Towards Engineered Scientific Inspiration

Paper • 2508.17661 • Published 13 days ago • 31
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Paper • 2508.18773 • Published 12 days ago • 14
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Paper • 2508.19247 • Published 12 days ago • 39
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Paper • 2508.17445 • Published 14 days ago • 78
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

Paper • 2508.20751 • Published 10 days ago • 85
Provable Benefits of In-Tool Learning for Large Language Models

Paper • 2508.20755 • Published 10 days ago • 9
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

Paper • 2508.21365 • Published 9 days ago • 22
Efficient Code Embeddings from Code Generation Models

Paper • 2508.21290 • Published 9 days ago • 17
CLIPSym: Delving into Symmetry Detection with CLIP

Paper • 2508.14197 • Published 19 days ago • 7
Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

Paper • 2509.02522 • Published 5 days ago • 23
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

Paper • 2509.02479 • Published 5 days ago • 76
Universal Deep Research: Bring Your Own Model and Strategy

Paper • 2509.00244 • Published 8 days ago • 11
LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations

Paper • 2509.03405 • Published 4 days ago • 17
Open Data Synthesis For Deep Research

Paper • 2509.00375 • Published 8 days ago • 51
Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

Paper • 2509.04292 • Published 3 days ago • 45
Towards a Unified View of Large Language Model Post-Training

Paper • 2509.04419 • Published 3 days ago • 53
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench

Paper • 2508.20931 • Published 10 days ago • 15
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

Paper • 2509.03059 • Published 4 days ago • 15
NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

Paper • 2509.04011 • Published 3 days ago • 15

Collection guide
Browse collections

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs