分享到:

印刷体数学表达式识别系统的设计与实现

现代社会中,计算机的普及使人们越来越多的使用计算机来处理日常事物和存储信息,此时,繁重而低效地手工录入方式与要求的轻松而高效录入之间的矛盾也随之而产生。为了加快文字的录入,人们很早以前就开始了研究,现已形成了一些比较成熟的文字识别软件(如清华紫光OCR,汉王科技等),这些文字识别软件,虽然对手写、印刷体文本(包括汉语、英文和数字)都有很高的识别率,也己经被广泛应用于办公自动化、快速录入等领域,使人们利用了一些现有的文档资源,克服了人工输入费时费力的缺点;但是,对于含有大量数学表达式的科技文献的识别来说,它的作用真是让人不敢恭维,它的识别结果最多只能是一组毫无关系的字符串,而且这一组字符串还表达不了任何的数学含义。分析其原因知,这些数学表达式一般都是由特殊的符号、希腊字母、英文字符和数字等组成的复杂的二维结构体,而当前的OCR 系统只能识别一维的结构,对于这样的二维结构,它根本就无能为力。为了解决二维数学表达式的自动识别问题,我们  (本文共53页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

印刷体数学表达式识别系统的设计与实现

在科技高速发展的现代,许多科技文献中包含大量的数学表达式,而当前的OCR系统还不能正确识别这些数学公式,当人们对科技文献进行数字化时,其中的公式只能按照图像格式进行保存,而不能加以识别分析,这样就不能依据公式对文章进行检索,而有的文章其核心内容就是这些公式。另外,公式是由特殊的符号、希腊字母、英文字符和数字组成的复杂的结构体,其输入要比普通文本的输入困难的多。为此,我们提出了一种新的关于表达式识别的设计思想,并给出了完整的算法,将印刷体的数学公式(图像格式)转换成可编辑的电子格式(如LATEX,Word公式编辑器)。数学表达式的识别包括符号识别和结构分析两个阶段:粘连字符的分割。粘连字符为字符识别带来了困难。本文提出用自组织映射作字符分割的方法,对经典的自组织学习规则做了一些改进,使其能以较少的神经元结点、较快的速度逼近粘连字符的白像素点的分布。文中对最短路径分割方法和自组织映射法分割做了对比,后者能分割一些前者不能处理的粘连字...  (本文共79页) 本文目录 | 阅读全文>>

《儿童故事画报》2018年18期
儿童故事画报

漂亮的印刷体

...  (本文共2页) 阅读全文>>

《长春理工大学学报(自然科学版)》2016年01期
长春理工大学学报(自然科学版)

印刷体数字识别研究与实现

通过对数字识别算法的研究和印刷体数字特征进行分析,提出一种通过统计预处理后的已知类别样本的特征点分布概率为模板,并通过计算待识...  (本文共3页) 阅读全文>>

《中国流通经济》2007年07期
中国流通经济

电子图书和印刷体图书的整合流通

本文认为,随着电子图书发行量和发行渠道的增加,由于各种技术和管理上的原因,人为造成传统印刷体图书和电子图书在使用环节上分离并形成资源大量浪费现象,给读者的使用特别是图书馆文献服务系统的建设工作增加了许多障碍。...  (本文共3页) 阅读全文>>

《河北建筑科技学院学报》2004年03期
河北建筑科技学院学报

印刷体数字快速识别方法

在分析印刷体数字结构特征的基础上,提出了一种新的印刷体数字快速识别方法。该方法利用数字结构的对称性、笔画特点...  (本文共3页) 阅读全文>>

《中国钢笔书法》2007年03期
中国钢笔书法

报纸上的手写印刷体

...  (本文共1页)