Aratako/Irodori-TTS

A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control

/ 100

Emerging

Employs a Rectified Flow Diffusion Transformer over DACVAE continuous latents for 48kHz synthesis, with joint-attention conditioning for zero-shot voice cloning and emoji-driven style control. Supports distributed multi-GPU training via torchrun with mixed precision (bf16), gradient accumulation, and parameter-efficient LoRA fine-tuning. Provides inference via CLI, Gradio UI, and direct HuggingFace Hub checkpoint loading with configurable guidance modes and DACVAE codec control.

No Package No Dependents

Maintenance 10 / 25

Adoption 7 / 25

Maturity 11 / 25

Community 14 / 25

How are scores calculated?

Stars

Forks

Language

Python

License

MIT

Higher-rated alternatives

PrunaAI/pruna

Pruna is a model optimization framework built for developers, enabling you to deliver faster,...

bytedance/LatentSync

Taming Stable Diffusion for Lip Sync!

haoheliu/AudioLDM-training-finetuning

AudioLDM training, finetuning, evaluation and inference.

Text-to-Audio/Make-An-Audio

PyTorch Implementation of Make-An-Audio (ICML'23) with a Text-to-Audio Generative Model

sayakpaul/diffusers-torchao

End-to-end recipes for optimizing diffusion models with torchao and diffusers (inference and FP8...

Explore Diffusion Models

All categories Trending Diffusion directory Insights