分享到:

让中药查询省时省力

“博睿搜索1.0”核心技术课题组是国家重大科研项目《中药产业区域发展及特色产品研究开发》中的子课题项目,受到国家科技部和科技发展中心的高度重视;另外中医药行业是一个古老的行业,有五千年以上的优秀历史,渗透着浓厚的民族特色,如何在与时俱进的今天将它继续发扬下去,是一个凝重的话题,而中医药行业搜索引擎类似一个通往这个知识宝库的“桥梁”,意义非凡,自己也感觉到身上如有千钧。 $$项目最终在北京师范大学珠海分校软件研究所和珠海博睿科技有限公司的合作下,得以顺利开展。北京师范大学珠海分校软件研究所成立时间不长,但以国家教育部直属高校北京师范大学为依托,有着多名多年IT经验的技术骨干,已经在社会上享有声誉。而珠海博睿科技有限公司是一家有着多年中医药行业咨询背景的新型互联网公司,拥有一个专业中医药门户网站———现代中医药网(http://www.chinamtcm.c...  (本文共1页) 阅读全文>>

权威出处: 科技日报2007-05-17
《河北北方学院学报(自然科学版)》2017年09期
河北北方学院学报(自然科学版)

基于中文分词的主观题自动评分算法研究

来稿日期:2016 11 160引言考试是学校教育过程中的一个关键环节,是考核评估学生学习效果的重要标准,也用来对教师教育质量进行评价。传统模式的考试方式,阅卷工作是极其费时费力的一个环节,如《大学计算机基础》课程,是涉及到全校性质的公共基础课程,考试后的阅卷评分工作给教师带来沉重负担,同时还会降低工作效率,以及由于主观原因造成的考试不公平等。本文利用中文分词的思想对主观题进行自动评分,使考试的公平性和客观性得到了提高,使教师的工作量大大减少,工作效率得到了提高[1]。对于主观题的自动评分,目前已有很多相关的算法研究。但由于人工智能和计算机技术的影响,对主观题的自动评分至今还不够理想。目前,主观题自动评分做的比较好的是程序应用题[2]。为了更好地解决当前在线考试系统中主观题自动评分的问题,本文提出了基于中文分词,并结合文本相似度对在线考试系统中主观题进行评分的方法,其方法原理如图1所示。经实验测试表明,该算法的准确性基本满足在线...  (本文共5页) 阅读全文>>

《河北科技大学学报》2012年03期
河北科技大学学报

基于云计算的中文分词研究

中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。中文分词是进行中文信息检索和数据挖掘的基础,已经广泛应用到相关领域,如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等。现有的中文分词算法可分为3大类:基于字符串匹配的分词方法;基于理解的分词方法和基于统计的分词方法。目前已经成熟的中文分词项目有:SCWS,FudanNLP,ICTCLAS,HTTPCWS,CC-CE-DICT,IKAnalyzer,Paoding,MMSEG4J等。其中ICTCLAS是中国最早开发的中文分词开发包,IKAnaly-zer,Paoding,MMSEG4J是用Java语言开发的中文分词开发包。采用IKAnalyzer中文分词开发包,通过搭建基于Hadoop的云计算平台,将MapReduce编程思想应用到中文分词的处理过程中,在保证原来分词准确率的基础上,提高了中文分词的处理速度。1系统架构笔者将系统架构在2台Dell R4...  (本文共4页) 阅读全文>>

《北华大学学报(社会科学版)》2006年01期
北华大学学报(社会科学版)

中文分词连写可行性考察

从20世纪80年代起,是否实行中文分词连写成为我国学术界新的讨论热点。持肯定态度的人主要来自两方面:一是信息处理研究者,一是语文现代化研究者。信息处理研究者一直为中文自动分词难题所困扰。他们发现只有实行中文分词连写才能走出困境,否则中文信息处理将长期在落后行列徘徊,于是,把改革书写体式的问题提了出来[。1](P11~13)语文现代化研究者一直在为中文书写体式现代化而努力。现代化的书写体式应当能够满足语言表达内外(内:心里想的;外:口里说的、纸上写的)一致的要求,以及能够满足信息接受省力高效的要求。由于实行中文分词连写有助于前述要求的实现,所以,他们支持中文书写体式改革[。2](P118~124)实行中文分词连写确实具有必要性,但是否具有可行性呢?不久前,笔者围绕可行性问题从三个方面进行了考察。考察一:分词连写是否可以在中文应用的各种场合通行无阻中文应用领域极为广阔,范围包括事务语体、科技语体、文艺语体等绝大多数语体,以及包括从属...  (本文共5页) 阅读全文>>

《长春理工大学学报(自然科学版)》2017年04期
长春理工大学学报(自然科学版)

基于BI-LSTM-CRF模型的中文分词法

由于中文写法的特性,决定了词与词之间没有类似空格的显式标志来进行分割,因此中文分词问题就成了中文自然语言处理中面临的首要基础性工作。近些年,特别是从国际中文分词评测活动Bakeoff开展以来,中文自动分词技术发生了重大的变化和进步[1]。中文自动分词的研究方法主要分为三种:基于词表的方法;基于传统统计模型的方法;基于深度学习神经网络的方法。基于词表的分词方法基本上是20世纪80年代或者更早一些时候提出来的,其中刘源[2]做出了一些总结性的工作,介绍了包括正向最大匹配法,逆向最大匹配法,双向扫描法等16种不同的基于词表的分词方法。而基于词表的分词方法由于对词表的依赖性很大,在针对中文分词难点中的命名实体识别,未登陆词识别方面表现很差。同时词表的构建受到相关针对领域的限制,适应性较差。基于传统统计模型的分词方法,自从Bakeoff比赛开展后,就出现了大量相关工作的论文。最常用的方法是将中文分词问题看作是序列标注问题,如Xue等人[3...  (本文共6页) 阅读全文>>

《图书馆学研究》2016年01期
图书馆学研究

基于委员会投票的主动学习中文分词方法

信息时代,出现了海量的信息数据,为了方便对这些数据进行处理,通常需要将这些无标注的海量数据贴上标记进行分类。传统的分类方法尽管可以取得较好的分类效果,但是它们在一定程度上更多的是依靠大规模的已标注的训练样本,然而对样本进行标注却是一件非常耗时耗力的任务,需要消耗大量的人工劳动,付出昂贵的代价。主动学习方法属于机器学习方法的一种,它的出现可以较好地解决这一问题。在分类问题中,主动学习方法要达到的目的就是尽可能地减少训练集合中标注样本的个数,减小人工标注的成本[1]。一般在分类问题上,主动学习方法的核心思想就是在算法的每次循环过程中依据策略挑选出对当前分类器有用的未标注样本进行人工标注,标注其具体类别之后,将标注好的样本加入到训练数据集中并送入分类器。这样能够避免对无价值样本进行标注类别,有效节约人工标注的成本。在主动学习的迭代过程中,用于人工标注样本的选择方式主要分为两大类:一类是基于不确定性的样本选择方法[2],而另一类则是分类...  (本文共6页) 阅读全文>>