Yolo Y. Tang's picture

1 8 10

Yolo Y. Tang

yunlong10

·

https://yunlong10.github.io/

AI & ML interests

Multimodal Learning, Video Understanding & Generation

Recent Activity

authored a paper 6 days ago

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

upvoted a paper 6 days ago

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

liked a dataset 7 days ago

JunJiaGuo/VidComposition_Benchmark

View all activity

Organizations

None yet

yunlong10's activity

upvoted a paper 6 days ago

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Paper • 2504.05541 • Published 8 days ago • 14

upvoted a paper 8 days ago

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

Paper • 2504.03151 • Published 12 days ago • 12

upvoted 2 papers 12 days ago

FreSca: Unveiling the Scaling Space in Diffusion Models

Paper • 2504.02154 • Published 13 days ago • 17

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Paper • 2504.01014 • Published 15 days ago • 59

upvoted a paper 27 days ago

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

Paper • 2503.11557 • Published Mar 14 • 20

upvoted a paper 3 months ago

Generative AI for Cel-Animation: A Survey

Paper • 2501.06250 • Published Jan 8 • 13

upvoted a paper 6 months ago

MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

Paper • 2410.09733 • Published Oct 13, 2024 • 9

upvoted a paper over 1 year ago

Language Modeling Is Compression

Paper • 2309.10668 • Published Sep 19, 2023 • 83