语言维基:語音合成軟體開發

From 语言维基
Jump to: navigation, search

此項目為本站自主研發的語音合成系統,以深度學習的漢語語音合成為基礎,並將逐步拓展至各種方言。初期版本以漢字和拼音為輸入,通用系統將支持IPA輸入。

研發階段 [edit | edit source]

  • 確定基礎算法和實現
    • biLSTM
    • Transformer
    • WaveNet
  • 細化需求
    • 支持語言、方言
    • 支持輸入方式:漢字、拼音、拼音擴展方案、IPA等
    • 支持輸出格式:wav、mp3 等
    • 輸出語音特性:男聲、女聲、特定人聲仿真
    • 非功能需求:轉換速度、延遲、輸入長度、是否支持實時處理
    • 接口需求:python api, tensorflow server, web service
  • 項目階段
    • 里程碑1:支持漢字拼音輸入,輸出普通話語音
      • 語音合成樣本1
    • 里程碑2:支持漢字對應的IPA輸入,輸出普通話語音
    • 里程碑3:支持漢字或拼音輸入,輸出方言1(待定)語音
    • 里程碑4:支持IPA輸入(帶可選語言標記),輸出混合語言語音

經典應用 espeak-ng 維護和升級 [edit | edit source]

  • 編譯測試普通話和粵語支持
    • 解決開發環境設置、編譯運行程序
    • 是否支持漢字輸入?
    • 是否支持拼音輸入?
  • 了解程序靜態數據格式
    • 如何定義語言
    • 如何定義語言的輸入、輸出關係