分享到:

基于统计的开放式汉语自动分词

汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料库规模的进一步扩大。本文在基于统计的汉语自动分词的基础上,引入开放学习机制,通过有监督和无监督相结合的学习方法,建立包含可信度修正和部分三元语法信息的多元分词模型。然后讨论了切分算法和人机交互等几个实现中的具体问题。通过实验确定模型参数和阈值。实验结果表明,引入开放学习机制的分词模型,闭式分词正确率达到99.07%和开式分词正确率达到98.08%,同时增强了分词系统的适应性和消歧能力。  (本文共47页) 本文目录 | 阅读全文>>

《福建电脑》2009年03期
福建电脑

基于统计的开放式汉语自动分词

汉语自动分词在面向大规模真实文本时,仍然存在很多困难。本文在传统的语料库方法的基础上,提出一种基...  (本文共2页) 阅读全文>>

《小型微型计算机系统》2005年08期
小型微型计算机系统

开放式汉语自动分词的学习机制

针对统计模型词典动态适应性不高及大规模语料库建设中人工代价昂贵的问题,在基于统计的汉语自动分词基础上,引入了以错误驱动为基础的开放学习机制,通过有监督和无监督相结合的学习方法,建立了包含可信度修正和部...  (本文共5页) 阅读全文>>

《情报学报》1989年02期
情报学报

书面汉语自动分词的现状和问题

书面汉语自动分词方法可以分为两大类,一类是基于算法的方法,它强调形式匹配;一类是基于知识的方法,它强调知识对分词过程的制导。现有的自动分词研究成果主...  (本文共9页) 阅读全文>>

《情报学报》1990年03期
情报学报

书面汉语自动分词的“生成-测试”方法

本文提出的"生成-测试"方法是一种以知识为基础的汉语自动分词方法。它将分词过程视为"生成"和"测试"两个并行执行的子过程。"生成"是指产生一个输入文本的形式切分;"测试"...  (本文共10页) 阅读全文>>

《高技术通讯》1991年06期
高技术通讯

书面汉语自动分词专家系统

介绍了书面汉语自动分词专家系统中的分词知识模型与分词知识表示,以及所用的推理机制。最...  (本文共5页) 阅读全文>>

《信息与电脑(理论版)》2012年18期
信息与电脑(理论版)

基于C程序实现汉语自动分词系统

统计汉字文本文件的字、词、句的数目,是汉字...  (本文共2页) 阅读全文>>