小語種OCR程序開發
語言維基(Langwiki)致力於計算機自然語言處理技術的開發。出於對於語言處理技術的執着追求,我們不僅努力掌握主流NLP算法,還針對NLP領域難以處理的小語種問題,進行人工智能算法的優化和研發。此項目提出一個新的OCR算法,使OCR系統的訓練時間和所需的數據量大為減少,使計算機OCR技術可以有效的應用於小語種手寫體以及古籍的識別和數碼化。小語種OCR應用的領域包括滿文識別、蒙古文識別、基於阿拉伯字母的老維文識別等。
研發計劃
- 數據獲取
- 大語種
- 英文(印刷體、手寫體)
- 中文(印刷體、手寫體)
- 小語種
- 阿拉伯文
- 維吾爾文、蒙古文、滿文
- 印刷體
- 古籍手寫體
- 中文篆書(商周大篆、漢小篆)
- 手工標註數據
- 大語種
- 算法研發
- 高學習率手寫體連續識別算法
- 2021年10月,我們語言維基開發了新的基礎算法。我們計劃下一步,用自研的算法用來識別英文和小語種手寫體,驗證算法的有效性和可靠性。
- 滿文特殊符號處理
- 長短字牙
- 點和圈
- 字型中間碼
- 備註:我們在處理滿文和報告準確率時,嚴格註明數據是印刷體還是手寫體。我們不屑於像漢王公司那樣,拿着機器生成的印刷體數據,用模稜兩可的詞語誤導消費者和政府採購部門,謊稱是「楷體」手寫的準確率。我們反對學術不端和經濟腐敗。我們相信我們有實力和漢王公平的較量,並且輕鬆取其首級。
- 高學習率手寫體連續識別算法
- 模型訓練
- IAM離線手寫數據實驗 (EN)
- CASIA 離線手寫數據實驗 (ZH)
- 商周大篆識別(ZH)
- 應用整合
- 商周大篆拍照識別 app
相關研究
- OCR佈局識別
- 運用下一代深度學習算法,對文字佈局進行非監督學習