Audio - a aslessor Collection

aslessor 's Collections

CoT

Medical

Agents

Text to image papers

Vision

Audio

Video

Speech

RAG

Audio

updated Sep 18, 2024

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Paper • 2407.04051 • Published Jul 4, 2024 • 40
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Paper • 2408.16532 • Published Aug 29, 2024 • 51
PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing

Paper • 2409.10831 • Published Sep 17, 2024 • 5