语言维基:语音合成软件开发
此项目为本站自主研发的语音合成系统,以深度学习的汉语语音合成为基础,并将逐步拓展至各种方言。初期版本以汉字和拼音为输入,通用系统将支持IPA输入。
研发阶段 编辑
- 确定基础算法和实现
- biLSTM
- Transformer
- WaveNet
- 细化需求
- 支持语言、方言
- 支持输入方式:汉字、拼音、拼音扩展方案、IPA等
- 支持输出格式:wav、mp3 等
- 输出语音特性:男声、女声、特定人声仿真
- 非功能需求:转换速度、延迟、输入长度、是否支持实时处理
- 接口需求:python api, tensorflow server, web service
- 项目阶段
- 里程碑1:支持汉字拼音输入,输出普通话语音
- 里程碑2:支持汉字对应的IPA输入,输出普通话语音
- 里程碑3:支持汉字或拼音输入,输出方言1(待定)语音
- 里程碑4:支持IPA输入(带可选语言标记),输出混合语言语音
- 里程碑1:支持汉字拼音输入,输出普通话语音
经典应用 espeak-ng 维护和升级 编辑
- 编译测试普通话和粤语支持
- 解决开发环境设置、编译运行程序
- 是否支持汉字输入?
- 是否支持拼音输入?
- 了解程序静态数据格式
- 如何定义语言
- 如何定义语言的输入、输出关系