Urodoc Oncall's picture

34 42

Urodoc Oncall

UDCAI

·

AI & ML interests

None yet

Recent Activity

upvoted a paper about 11 hours ago

Latent Diffusion Model without Variational Autoencoder

upvoted a paper about 11 hours ago

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

upvoted a paper about 11 hours ago

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

View all activity

Organizations

upvoted 4 papers about 11 hours ago

Latent Diffusion Model without Variational Autoencoder

Paper • 2510.15301 • Published 4 days ago • 30

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

Paper • 2510.15019 • Published 4 days ago • 50

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

Paper • 2510.15444 • Published 4 days ago • 112

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Paper • 2510.15742 • Published 3 days ago • 37

upvoted 2 papers 4 days ago

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

Paper • 2510.14847 • Published 4 days ago • 50

WithAnyone: Towards Controllable and ID Consistent Image Generation

Paper • 2510.14975 • Published 4 days ago • 74

upvoted 2 papers 5 days ago

FlashWorld: High-quality 3D Scene Generation within Seconds

Paper • 2510.13678 • Published 5 days ago • 64

UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

Paper • 2510.13344 • Published 6 days ago • 59

upvoted 4 papers 6 days ago

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

Paper • 2510.12789 • Published 6 days ago • 15

FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

Paper • 2510.12747 • Published 6 days ago • 33

Detect Anything via Next Point Prediction

Paper • 2510.12798 • Published 6 days ago • 42

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

Paper • 2510.12276 • Published 7 days ago • 139

liked 2 models 6 days ago

duongve/NetaYume-Lumina-Image-2.0

Text-to-Image • Updated 11 days ago • 13.7k • 23

duongve/Lumina-Yume-v0.1

Text-to-Image • Updated Apr 23 • 64 • 3

liked a model 7 days ago

tencent/HunyuanImage-3.0-Instruct

Text-to-Image • Updated 7 days ago • 42

upvoted 3 papers 7 days ago

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

Paper • 2510.10666 • Published 8 days ago • 27

Diffusion Transformers with Representation Autoencoders

Paper • 2510.11690 • Published 7 days ago • 152

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper • 2510.11696 • Published 7 days ago • 162

liked 2 models 7 days ago

lightx2v/Wan2.2-I2V-A14B-Moe-Distill-Lightx2v

Image-to-Video • Updated 4 days ago • 63

bytedance-research/MammothModa2-Preview

14B • Updated 7 days ago • 25 • 14