Text-to-Audio/Make-An-Audio

PyTorch Implementation of Make-An-Audio (ICML'23) with a Text-to-Audio Generative Model

/ 100

Emerging

Implements a latent diffusion architecture combining a learned VAE for audio compression with CLAP text embeddings for conditioning, enabling efficient high-fidelity audio synthesis from text prompts and supporting cross-modal tasks like audio-to-audio editing. The model leverages BigVGAN vocoding for waveform reconstruction and includes evaluation metrics (FAD, IS, CLAP scores) for benchmarking generation quality against datasets like AudioCaps.

669 stars. No commits in the last 6 months.

Stale 6m No Package No Dependents

Maintenance 0 / 25

Adoption 10 / 25

Maturity 16 / 25

Community 21 / 25

How are scores calculated?

Stars

669

Forks

Language

Python

License

MIT

Higher-rated alternatives

PrunaAI/pruna

Pruna is a model optimization framework built for developers, enabling you to deliver faster,...

bytedance/LatentSync

Taming Stable Diffusion for Lip Sync!

haoheliu/AudioLDM-training-finetuning

AudioLDM training, finetuning, evaluation and inference.

sayakpaul/diffusers-torchao

End-to-end recipes for optimizing diffusion models with torchao and diffusers (inference and FP8...

teticio/audio-diffusion

Apply diffusion models using the new Hugging Face diffusers package to synthesize music instead...

Explore Diffusion Models

All categories Trending Diffusion directory Insights