Huang Qidong

shikiw

https://shikiw.github.io/

AI & ML interests

efficient & trustworthy AI

Recent Activity

authored a paper 1 day ago

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

liked a dataset 2 days ago

long-xing1/ScaleCap-450k

upvoted a paper 2 days ago

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

View all activity

Organizations

None yet

authored a paper 1 day ago

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Paper • 2506.19848 • Published 2 days ago • 24

liked a dataset 2 days ago

long-xing1/ScaleCap-450k

Viewer • Updated 2 days ago • 455k • 3

upvoted a paper 2 days ago

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Paper • 2506.19848 • Published 2 days ago • 24

upvoted 2 papers 3 months ago

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

Paper • 2504.07956 • Published Apr 10 • 47

MM-IFEngine: Towards Multimodal Instruction Following

Paper • 2504.07957 • Published Apr 10 • 34

upvoted 4 papers 4 months ago

upvoted 3 papers 5 months ago

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Paper • 2502.05173 • Published Feb 7 • 65

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

Paper • 2501.12368 • Published Jan 21 • 47

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Paper • 2501.05510 • Published Jan 9 • 44

upvoted 2 papers 6 months ago

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Paper • 2501.03226 • Published Jan 6 • 45

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Paper • 2501.03218 • Published Jan 6 • 37

upvoted a paper 7 months ago

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Paper • 2412.09596 • Published Dec 12, 2024 • 99

upvoted a collection 7 months ago

Qwen2-VL

Collection

Vision-language model series based on Qwen2 • 16 items • Updated Apr 28 • 219

liked 2 models 8 months ago

shikiw/LLaVA-v1.5-MoCa-7B

Image-Text-to-Text • Updated Oct 28, 2024 • 13 • 2

shikiw/LLaVA-v1.5-MoCa-7B-pretrain

Image-Text-to-Text • Updated Oct 28, 2024 • 13 • 1

updated 2 models 8 months ago

shikiw/LLaVA-v1.5-MoCa-7B

Image-Text-to-Text • Updated Oct 28, 2024 • 13 • 2

shikiw/LLaVA-v1.5-MoCa-7B-pretrain

Image-Text-to-Text • Updated Oct 28, 2024 • 13 • 1

Huang Qidong

AI & ML interests

Recent Activity

Organizations

shikiw's activity