分享到:

汉字识别中的笔段直接抽取算法研究

汉字信息处理领域中急待解决汉字自动阅读技术的开发。在实现结构分析法识别多字体印刷汉字时,笔划抽取是关键所  (本文共8页) 阅读全文>>

《中文信息学报》2017年04期
中文信息学报

基于模式的远监督关系抽取算法

远监督关系抽取算法能够自动将关系库中的关系与无标注的文本对齐,以进行文本中的关系抽取。目前提出的远监督关系抽取算法中,大多数是基于特征的。然而,此类算法在将实例转换为特征时,经常会...  (本文共10页) 阅读全文>>

广东技术师范大学
广东技术师范大学

基于词嵌入和多特征融合的自动关键词抽取算法

信息技术的飞速发展使得各个领域的信息呈现爆炸式增长。为了快速有效地从海量文本中获取所需的信息,人们通常需要借助能涵盖文本主旨的若干重要词汇,亦即,关键词。然而,目前绝大多数文本尚未提供关键词,这不利于文本信息的有效获取和处理。为了解决这个问题,人们提出了自动关键词抽取技术,即,由计算机根据某种方法从文本中自动抽取相应的关键词,并设计了为数众多的关键词抽取算法。然而,现有的关键词抽取算法大多需要依赖文本语料数据集,而且存在计算复杂度高、适用性弱、抽取精度低等问题。因此,针对自动关键词抽取算法的研究方兴未艾,而且在大数据时代背景下获得愈来愈多的关注。基于上述背景,本文对自动关键词抽取展开研究,主要提出了两种自动关键词抽取算法,即,基于位置加权词频统计的关键词抽取算法(PW_TF)以及基于多特征融合和图模型的关键词抽取算法(MF_Rank)。PW_TF的主要思想是利用词语的统计特征和结构特征来表征关键词,其中,统计特征刻画的是词语在文...  (本文共77页) 本文目录 | 阅读全文>>

安徽大学
安徽大学

基于频繁模式挖掘的关键词抽取算法研究

关键词抽取是从文本或文本集合中抽取描述主题性的词或短语。准确地抽取文本中的关键词可以快速总结文本内容,在许多自然语言处理任务中都有着至关重要的作用,如信息检索和支持决策等。当前大多数的关键词抽取方法不能针对每篇特定的文本进行抽取,通常都是抽取一个文本集合或者一个语料库中的关键词,而且不能灵活的捕获单词之间的语义关系。针对上述问题,本文提出两种新颖的从英文文本中抽取关键词的算法。一种是特定文本中强语义关系的监督关键词抽取算法Ke_MSMING。该算法首先将序列模式挖掘和LDA主题模型相结合,进行关键词候选集合的搜索:其次,利用有监督的机器学习算法训练关键词抽取模型;最后,选取预测概率值大的前top-k个词作为最终的关键词。在训练阶段,算法Ke_MSMING不仅使用了 baseline features和pattern features训练模型,而且使用从语义网络中获得的centrality features训练模型,语义网络不仅为...  (本文共76页) 本文目录 | 阅读全文>>

西北大学
西北大学

基于深度网络的药物关系抽取算法研究

药物关系抽取(Drug-Drug Interaction Extraction,DDIE)任务主要研究如何利用自然语言处理技术从生物医学文献中自动抽取出两种药物之间存在的相互作用。DDIE任务的研究对减少药物安全事故、降低医疗成本,具有十分重要的意义。过去解决DDIE任务的主流方法是基于特征及核函数的方法,但是该类方法往往需要手动提取多种复杂的特征,费时费力。随着深度学习技术的发展,一些研究者已经成功地将深度学习技术应用于DDIE任务上,并且取得了比核函数方法更好的结果。本文尝试采用多种深度学习网络解决DDIE问题,最终提出了一种CNN-GRU方法,获得了比该领域现有方法更好的性能。现有DDIE领域的研究中,基于深度学习的方法大部分都是以词向量和距离向量作为输入,这些方法所用的模型大都结构简单,分类能力不足。针对这些问题,本文第二章提出一种改进的多层CNN网络模型。该模型仅采用Glo Ve词向量作为输入,同时模型中设置了多个卷积...  (本文共58页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

图文知识图谱中的关系抽取算法研究

视觉关系,比如“人骑马”,“人推车”等等,在图像理解中是非常有效的语义元素,同时也是连接计算机视觉与自然语言的桥梁。本文为解决对图像中“主体-谓语-客体”的三元组进行建模的问题,提出了一种视觉关系抽取模型,来组合视觉信息和对应的文本信息。通过对图像中的物体和他们之间的关系进行建模,将他们分别映射到两个不同的低维向量空间,在空间中,关系可以被表示成一个简单的向量,用来连接知识图谱中的两个实体。另外,本文提出了一个视觉短语的学习方法,来捕捉图像中实体之间的相互关系,从而提高模型关系抽取的能力。我们在两个真实数据集上的实验表明,融入文本信息到向量表示中,对模型的效果提升十分有效。模型的结果超过了目前这些数据集上最好的结果。同时,本文还提出了一个动态计算时间模型(RAM)。可以对递归神经网络的平均计算时间进行优化,进而能够有效的提取出图片中的主体,缓解关系抽取中目标检测模块的数据问题。我们改变了已有网络固定步长的架构,通过网络计算结果来...  (本文共57页) 本文目录 | 阅读全文>>