小語種OCR程序開發

語言維基(Langwiki)致力於計算機自然語言處理技術的開發。出於對於語言處理技術的執着追求,我們不僅努力掌握主流NLP算法,還針對NLP領域難以處理的小語種問題,進行人工智能算法的優化和研發。此項目提出一個新的OCR算法,使OCR系統的訓練時間和所需的數據量大為減少,使計算機OCR技術可以有效的應用於小語種手寫體以及古籍的識別和數碼化。小語種OCR應用的領域包括滿文識別、蒙古文識別、基於阿拉伯字母的老維文識別等。

研發計劃

  • 數據獲取
    • 大語種
      • 英文(印刷體、手寫體)
      • 中文(印刷體、手寫體)
    • 小語種
      • 阿拉伯文
      • 維吾爾文、蒙古文、滿文
        • 印刷體
        • 古籍手寫體
      • 中文篆書(商周大篆、漢小篆)
        • 手工標註數據
  • 算法研發
    • 高學習率手寫體連續識別算法
      • 2021年10月,我們語言維基開發了新的基礎算法。我們計劃下一步,用自研的算法用來識別英文和小語種手寫體,驗證算法的有效性和可靠性。
    • 滿文特殊符號處理
      • 長短字牙
      • 點和圈
      • 字型中間碼
      • 備註:我們在處理滿文和報告準確率時,嚴格註明數據是印刷體還是手寫體。我們不屑於像漢王公司那樣,拿着機器生成的印刷體數據,用模稜兩可的詞語誤導消費者和政府採購部門,謊稱是「楷體」手寫的準確率。我們反對學術不端和經濟腐敗。我們相信我們有實力和漢王公平的較量,並且輕鬆取其首級。
  • 模型訓練
    • IAM離線手寫數據實驗 (EN)
    • CASIA 離線手寫數據實驗 (ZH)
    • 商周大篆識別(ZH)
  • 應用整合
    • 商周大篆拍照識別 app

相關研究

  • OCR佈局識別
    • 運用下一代深度學習算法,對文字佈局進行非監督學習