小語種OCR程序開發

From 语言维基
Jump to: navigation, search

語言維基(Langwiki)致力於計算機自然語言處理技術的開發。出於對於語言處理技術的執着追求,我們不僅努力掌握主流NLP算法,還針對NLP領域難以處理的小語種問題,進行人工智能算法的優化和研發。此項目提出一個新的OCR算法,使OCR系統的訓練時間和所需的數據量大為減少,使計算機OCR技術可以有效的應用於小語種手寫體以及古籍的識別和數字化。小語種OCR應用的領域包括滿文識別、蒙古文識別、基於阿拉伯字母的老維文識別等。

研發計劃 [edit | edit source]

  • 數據獲取
  • 算法研發
    • 高學習率手寫體連續識別算法
    • 滿文特殊符號處理
      • 長短字牙
      • 點和圈
      • 字型中間碼
  • 模型訓練
  • 應用整合

相關研究 [edit | edit source]

  • OCR布局識別
    • 運用下一代深度學習算法,對文字布局進行非監督學習