小语种OCR程序开发

From 语言维基
Revision as of 15:56, 17 October 2021 by Wunshans (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

语言维基(Langwiki)致力于计算机自然语言处理技术的开发。出于对于语言处理技术的执着追求,我们不仅努力掌握主流NLP算法,还针对NLP领域难以处理的小语种问题,进行人工智能算法的优化和研发。此项目提出一个新的OCR算法,使OCR系统的训练时间和所需的数据量大为减少,使计算机OCR技术可以有效的应用于小语种手写体以及古籍的识别和数字化。小语种OCR应用的领域包括满文识别、蒙古文识别、基于阿拉伯字母的老维文识别等。

研发计划 [edit | edit source]

  • 数据获取
    • 大语种
      • 英文(印刷体、手写体)
      • 中文(印刷体、手写体)
    • 小语种
      • 阿拉伯文
      • 维吾尔文、蒙古文、满文
        • 印刷体
        • 古籍手写体
      • 中文篆书(商周大篆、汉小篆)
        • 手工标注数据
  • 算法研发
    • 高学习率手写体连续识别算法
      • 2021年10月,我们语言维基开发了新的基础算法。我们计划下一步,用自研的算法用来识别英文和小语种手写体,验证算法的有效性和可靠性。
    • 满文特殊符号处理
      • 长短字牙
      • 点和圈
      • 字型中间码
      • 备注:我们在处理满文和报告准确率时,严格注明数据是印刷体还是手写体。我们不屑于像汉王公司那样,拿着机器生成的印刷体数据,用模棱两可的词语误导消费者和政府采购部门,谎称是“楷体”手写的准确率。我们反对学术不端和经济腐败。我们相信我们有实力和汉王公平的较量,并且轻松取其首级。
  • 模型训练
    • IAM离线手写数据实验 (EN)
    • CASIA 离线手写数据实验 (ZH)
    • 商周大篆识别(ZH)
  • 应用整合
    • 商周大篆拍照识别 app

相关研究 [edit | edit source]

  • OCR布局识别
    • 运用下一代深度学习算法,对文字布局进行非监督学习