小語種OCR程序開發
From 语言维基
語言維基(Langwiki)致力於計算機自然語言處理技術的開發。出於對於語言處理技術的執著追求,我們不僅努力掌握主流NLP算法,還針對NLP領域難以處理的小語種問題,進行人工智慧算法的優化和研發。此項目提出一個新的OCR算法,使OCR系統的訓練時間和所需的數據量大為減少,使計算機OCR技術可以有效的應用於小語種手寫體以及古籍的識別和數位化。小語種OCR應用的領域包括滿文識別、蒙古文識別、基於阿拉伯字母的老維文識別等。
研發計劃 [edit | edit source]
- 數據獲取
- 算法研發
- 高學習率手寫體連續識別算法
- 滿文特殊符號處理
- 長短字牙
- 點和圈
- 字型中間碼
- 模型訓練
- 應用整合
相關研究 [edit | edit source]
- OCR布局識別
- 運用下一代深度學習算法,對文字布局進行非監督學習