“小语种OCR程序开发”的版本间的差异
来自语言维基
小 |
|||
第3行: | 第3行: | ||
=== 研发计划 === | === 研发计划 === | ||
* 数据获取 | * 数据获取 | ||
+ | ** 大语种 | ||
+ | *** 英文 | ||
+ | *** 中文 | ||
+ | ** 小语种 | ||
+ | *** 阿拉伯文 | ||
+ | *** 维吾尔文、蒙古文、满文 | ||
* 算法研发 | * 算法研发 | ||
** 高学习率手写体连续识别算法 | ** 高学习率手写体连续识别算法 | ||
+ | *** 2021年10月,我们语言维基开发了新的基础算法。我们计划下一步,用自研的算法用来识别英文和小语种手写体,验证算法的有效性和可靠性。 | ||
** 满文特殊符号处理 | ** 满文特殊符号处理 | ||
*** 长短字牙 | *** 长短字牙 | ||
第10行: | 第17行: | ||
*** 字型中间码 | *** 字型中间码 | ||
* 模型训练 | * 模型训练 | ||
+ | ** IAM离线手写数据实验 (EN) | ||
+ | ** CASIA 离线手写数据实验 (ZH) | ||
* 应用整合 | * 应用整合 | ||
2021年10月11日 (一) 22:39的版本
语言维基(Langwiki)致力于计算机自然语言处理技术的开发。出于对于语言处理技术的执着追求,我们不仅努力掌握主流NLP算法,还针对NLP领域难以处理的小语种问题,进行人工智能算法的优化和研发。此项目提出一个新的OCR算法,使OCR系统的训练时间和所需的数据量大为减少,使计算机OCR技术可以有效的应用于小语种手写体以及古籍的识别和数字化。小语种OCR应用的领域包括满文识别、蒙古文识别、基于阿拉伯字母的老维文识别等。
研发计划
- 数据获取
- 大语种
- 英文
- 中文
- 小语种
- 阿拉伯文
- 维吾尔文、蒙古文、满文
- 大语种
- 算法研发
- 高学习率手写体连续识别算法
- 2021年10月,我们语言维基开发了新的基础算法。我们计划下一步,用自研的算法用来识别英文和小语种手写体,验证算法的有效性和可靠性。
- 满文特殊符号处理
- 长短字牙
- 点和圈
- 字型中间码
- 高学习率手写体连续识别算法
- 模型训练
- IAM离线手写数据实验 (EN)
- CASIA 离线手写数据实验 (ZH)
- 应用整合
相关研究
- OCR布局识别
- 运用下一代深度学习算法,对文字布局进行非监督学习