分享到:

让中药查询省时省力

“博睿搜索1.0”核心技术课题组是国家重大科研项目《中药产业区域发展及特色产品研究开发》中的子课题项目,受到国家科技部和科技发展中心的高度重视;另外中医药行业是一个古老的行业,有五千年以上的优秀历史,渗透着浓厚的民族特色,如何在与时俱进的今天将它继续发扬下去,是一个凝重的话题,而中医药行业搜索引擎类似一个通往这个知识宝库的“桥梁”,意义非凡,自己也感觉到身上如有千钧。 $$项目最终在北京师范大学珠海分校软件研究所和珠海博睿科技有限公司的合作下,得以顺利开展。北京师范大学珠海分校软件研究所成立时间不长,但以国家教育部直属高校北京师范大学为依托,有着多名多年IT经验的技术骨干,已经在社会上享有声誉。而珠海博睿科技有限公司是一家有着多年中医药行业咨询背景的新型互联网公司,拥有一个专业中医药门户网站———现代中医药网(http://www.chinamtcm.c...  (本文共1页) 阅读全文>>

权威出处: 科技日报2007-05-17
《计算机工程与设计》2017年10期
计算机工程与设计

医疗领域文本结构化

0引言文本结构化处理一般要经过以下4个步骤:分词、构词分析和词典处理、句法分析、领域分析。通常使用如下3种方式进行中文分词:基于词典、基于统计、基于规则。文献[1]对基于词典的正向最大匹配算法进行描述,文献[2]讲述了逆向最大匹配算法,文献[3]主要介绍了全二分最大匹配算法。基于统计的互信息的概率统计算法见文献[4],文献[5]主要描述了N-Gram算法,文献[6]主要描述了基于组合度的分词决策算法。这些方法都被用于现在流行的分词工具中,如中科院的ICTCLAS[7]、复旦大学的FNLP[8]以及开源的轻量级IK Analyzer[9]等。医疗文本具有以下3个特点:(1)特定用语;(2)同义词表达;(3)缩略语。这3个特点使得目前通用的中文分词工具对医疗文本分词的效果不是特别地明显。例如,对专业术语例如“皮细胞”、“胶质物”无法做到正确分词。针对上述问题,本文使用Google开源词向量工具word2vec[10]将文本中的词转化...  (本文共6页) 阅读全文>>

《中文信息学报》2017年04期
中文信息学报

基于半监督CRF的跨领域中文分词

1引言中文分词(chinese word segmentation,CWS)是指将组成句子的汉字序列用分隔符切分成单独的词语序列的过程。中文分词是其他中文信息处理应用(如机器翻译、信息检索、信息抽取等)的基础,其结果直接影响以此为基础的中文信息处理应用的性能。近十年来,中文分词技术发展迅速,特别是将文本中局部上下文信息引入统计机器学习模型中,歧义切分和未登录词(out-of-vocabulary,OOV)识别相对于传统基于词典和规则的方法有了较大的提升[1]。目前,基于统计的中文分词方法中最具代表性的是基于字标注的全监督分词方法(character-based tagging approach)[2]。该方法需要大量标注训练语料,一般在处理和训练语料相似的文本时,分词效果较好。历次SIGHAN CWS BACKOFF的评测结果显示,使用同一领域的语料进行测试时,全监督分词方法已经能够取得很好的结果,F-值高达95%(1)。但是,...  (本文共11页) 阅读全文>>

《信息记录材料》2017年02期
信息记录材料

一种基于数据挖掘的频繁停电投诉预警模型

1引言频繁停电投诉一直是电力用户投诉的主要来源,根据国网冀北电力有限公司提供的投诉数据分析,频繁停电类别的投诉占到了投诉总量的百分之四十左右,个别年份甚至占到了投诉总量的百分之五十。目前,判定频繁停电投诉是否成立主要依据对用户诉求的人工核对,这种客户诉求产生后被动分析、处理的方式,只能起到事倍功半的效果,而且不利于服务质量的改善与提高。如何将已经生成的故障报修信息、停电信息与频繁停电投诉关联,形成事前预警的机制一直是供电企业研究的重点。本文根据频繁停电投诉的业务规则,从已经生成的故障报修信息和停电信息中挖掘地址信息用来统计某停电单元的停电次数,并结合云地图展现预警信息,从而达到频繁停电投诉预警的目的。2基于数据挖掘的频繁停电预警模型2.1频繁停电预警模型原理说明根据《国家电网公司95598客户服务业务管理办法》中对投诉类别的定义,频繁停电是指频繁停电或长期未得到改善、处理不彻底的问题。具体操作细则是,客户反应两个月停电三次及以上...  (本文共3页) 阅读全文>>

《河北北方学院学报(自然科学版)》2017年09期
河北北方学院学报(自然科学版)

基于中文分词的主观题自动评分算法研究

来稿日期:2016 11 160引言考试是学校教育过程中的一个关键环节,是考核评估学生学习效果的重要标准,也用来对教师教育质量进行评价。传统模式的考试方式,阅卷工作是极其费时费力的一个环节,如《大学计算机基础》课程,是涉及到全校性质的公共基础课程,考试后的阅卷评分工作给教师带来沉重负担,同时还会降低工作效率,以及由于主观原因造成的考试不公平等。本文利用中文分词的思想对主观题进行自动评分,使考试的公平性和客观性得到了提高,使教师的工作量大大减少,工作效率得到了提高[1]。对于主观题的自动评分,目前已有很多相关的算法研究。但由于人工智能和计算机技术的影响,对主观题的自动评分至今还不够理想。目前,主观题自动评分做的比较好的是程序应用题[2]。为了更好地解决当前在线考试系统中主观题自动评分的问题,本文提出了基于中文分词,并结合文本相似度对在线考试系统中主观题进行评分的方法,其方法原理如图1所示。经实验测试表明,该算法的准确性基本满足在线...  (本文共5页) 阅读全文>>

《长春理工大学学报(自然科学版)》2017年04期
长春理工大学学报(自然科学版)

基于BI-LSTM-CRF模型的中文分词法

由于中文写法的特性,决定了词与词之间没有类似空格的显式标志来进行分割,因此中文分词问题就成了中文自然语言处理中面临的首要基础性工作。近些年,特别是从国际中文分词评测活动Bakeoff开展以来,中文自动分词技术发生了重大的变化和进步[1]。中文自动分词的研究方法主要分为三种:基于词表的方法;基于传统统计模型的方法;基于深度学习神经网络的方法。基于词表的分词方法基本上是20世纪80年代或者更早一些时候提出来的,其中刘源[2]做出了一些总结性的工作,介绍了包括正向最大匹配法,逆向最大匹配法,双向扫描法等16种不同的基于词表的分词方法。而基于词表的分词方法由于对词表的依赖性很大,在针对中文分词难点中的命名实体识别,未登陆词识别方面表现很差。同时词表的构建受到相关针对领域的限制,适应性较差。基于传统统计模型的分词方法,自从Bakeoff比赛开展后,就出现了大量相关工作的论文。最常用的方法是将中文分词问题看作是序列标注问题,如Xue等人[3...  (本文共6页) 阅读全文>>