语言维基:语音合成软件开发

From 语言维基
Revision as of 08:35, 21 September 2022 by Wunshans (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

此项目为本站自主研发的语音合成系统,以深度学习的汉语语音合成为基础,并将逐步拓展至各种方言。初期版本以汉字和拼音为输入,通用系统将支持IPA输入。

研发阶段

  • 确定基础算法和实现
    • biLSTM
    • Transformer
    • WaveNet
  • 细化需求
    • 支持语言、方言
    • 支持输入方式:汉字、拼音、拼音扩展方案、IPA等
    • 支持输出格式:wav、mp3 等
    • 输出语音特性:男声、女声、特定人声仿真
    • 非功能需求:转换速度、延迟、输入长度、是否支持实时处理
    • 接口需求:python api, tensorflow server, web service
  • 项目阶段
    • 里程碑1:支持汉字拼音输入,输出普通话语音
      • 语音合成样本1
    • 里程碑2:支持汉字对应的IPA输入,输出普通话语音
    • 里程碑3:支持汉字或拼音输入,输出方言1(待定)语音
    • 里程碑4:支持IPA输入(带可选语言标记),输出混合语言语音

经典应用 espeak-ng 维护和升级

  • 编译测试普通话和粤语支持
    • 解决开发环境设置、编译运行程序
    • 是否支持汉字输入?
    • 是否支持拼音输入?
  • 了解程序静态数据格式
    • 如何定义语言
    • 如何定义语言的输入、输出关系