语言维基:語音合成軟體開發
出自 语言维基
此項目為本站自主研發的語音合成系統,以深度學習的漢語語音合成為基礎,並將逐步拓展至各種方言。初期版本以漢字和拼音為輸入,通用系統將支持IPA輸入。
研發階段
- 確定基礎算法和實現
- biLSTM
- Transformer
- WaveNet
- 細化需求
- 支持語言、方言
- 支持輸入方式:漢字、拼音、拼音擴展方案、IPA等
- 支持輸出格式:wav、mp3 等
- 輸出語音特性:男聲、女聲、特定人聲仿真
- 非功能需求:轉換速度、延遲、輸入長度、是否支持實時處理
- 接口需求:python api, tensorflow server, web service
- 項目階段
- 里程碑1:支持漢字拼音輸入,輸出普通話語音
- 里程碑2:支持漢字對應的IPA輸入,輸出普通話語音
- 里程碑3:支持漢字或拼音輸入,輸出方言1(待定)語音
- 里程碑4:支持IPA輸入(帶可選語言標記),輸出混合語言語音
- 里程碑1:支持漢字拼音輸入,輸出普通話語音
經典應用 espeak-ng 維護和升級
- 編譯測試普通話和粵語支持
- 解決開發環境設置、編譯運行程序
- 是否支持漢字輸入?
- 是否支持拼音輸入?
- 了解程序靜態數據格式
- 如何定義語言
- 如何定義語言的輸入、輸出關係