StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

自然性 韵律 计算机科学 语音合成 语音识别 生成语法 话语 生成模型 发声 自然语言处理 自然(考古学) 人工智能 语言学 考古 哲学 物理 历史 量子力学
作者
Yinghao Aaron Li,Cong Han,Nima Mesgarani
出处
期刊:Cornell University - arXiv 被引量:14
标识
DOI:10.48550/arxiv.2205.15439
摘要

Text-to-Speech (TTS) has recently seen great progress in synthesizing high-quality speech owing to the rapid development of parallel TTS systems, but producing speech with naturalistic prosodic variations, speaking styles and emotional tones remains challenging. Moreover, since duration and speech are generated separately, parallel TTS models still have problems finding the best monotonic alignments that are crucial for naturalistic speech synthesis. Here, we propose StyleTTS, a style-based generative model for parallel TTS that can synthesize diverse speech with natural prosody from a reference speech utterance. With novel Transferable Monotonic Aligner (TMA) and duration-invariant data augmentation schemes, our method significantly outperforms state-of-the-art models on both single and multi-speaker datasets in subjective tests of speech naturalness and speaker similarity. Through self-supervised learning of the speaking styles, our model can synthesize speech with the same prosodic and emotional tone as any given reference speech without the need for explicitly labeling these categories.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
充电宝应助dap采纳,获得10
刚刚
愉快的听云关注了科研通微信公众号
刚刚
不吃香菜完成签到,获得积分10
刚刚
英姑应助xu1227采纳,获得10
1秒前
1秒前
Akim应助77采纳,获得10
1秒前
zzm发布了新的文献求助10
2秒前
2秒前
3秒前
小杭76应助伽古拉40k采纳,获得10
3秒前
3秒前
浮游应助文艺的冬卉采纳,获得10
3秒前
3秒前
4秒前
调皮的天真完成签到 ,获得积分10
4秒前
胡天硕完成签到,获得积分10
5秒前
5秒前
嗯哼完成签到 ,获得积分10
5秒前
6秒前
lvxin发布了新的文献求助10
6秒前
陈cj发布了新的文献求助10
7秒前
嘤嘤鹰完成签到,获得积分10
7秒前
Akim应助ohh采纳,获得10
7秒前
朴素的飞丹完成签到 ,获得积分10
7秒前
英吹斯挺发布了新的文献求助30
7秒前
Ther发布了新的文献求助10
9秒前
英俊尔冬完成签到,获得积分10
9秒前
Owen应助十三采纳,获得10
9秒前
李风发布了新的文献求助10
9秒前
酷酷的哈密瓜完成签到,获得积分20
10秒前
10秒前
冷傲汽车完成签到,获得积分10
10秒前
小杭76应助一只小学弱采纳,获得10
10秒前
10秒前
10秒前
123456完成签到,获得积分20
11秒前
Lucas应助坚强的笑天采纳,获得30
11秒前
orixero应助吴金菊采纳,获得10
11秒前
DONGLIANG发布了新的文献求助10
11秒前
11秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Teaching Language in Context (Third Edition) 1000
Identifying dimensions of interest to support learning in disengaged students: the MINE project 1000
Introduction to Early Childhood Education 1000
List of 1,091 Public Pension Profiles by Region 921
Aerospace Standards Index - 2025 800
流动的新传统主义与新生代农民工的劳动力再生产模式变迁 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 遗传学 催化作用 冶金 量子力学 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 5435804
求助须知:如何正确求助?哪些是违规求助? 4548006
关于积分的说明 14211638
捐赠科研通 4468203
什么是DOI,文献DOI怎么找? 2448968
邀请新用户注册赠送积分活动 1439889
关于科研通互助平台的介绍 1416503