分享到:

让计算机说中国话

让计算机说中国话可比教外国人说中国话难得多。中英文之间最根本的区别是中文以字为最小单位,而英文是词。因此“分词技术”在英文中根本就没有必要,而在中文中就必不可少。 $$ 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。而从实际应用上来说,中文分词又是实现计算机人工智能、智能搜索、人机对话、中文翻译等核心应用的关键技术。用海量科技信息技术有限公司总裁王革焰的话说就是:“没有中文分词,其他一切深入的中文信息处理都无从谈起。” $$ 海量科技是专门从事中文分词技术研究和商用产品开发的公司之一,于2000年获得了科委年度科技攻关项目资金支持,经过一年...  (本文共1页) 阅读全文>>

权威出处: 网络世界2004-11-08
《中国文艺家》2019年02期
中国文艺家

中文分词

一、引言(一)中文分词的背景、概括自1946年第一台计算机在美国宾夕法尼亚大学诞生以来,人类处理数据的方式开始发生翻天覆地的变化。二十一世纪是一个信息的时代,如何处理指数爆炸般的数据信息越来越变为人们所需要面对的课题。要让计算机快速检索出你所需要的信息,首先需要让其理解我们的语言。目前已经出现了许多自动化的工具如全文信息检索系统、自动文摘系统等自然语言处理系统,而这些系统的运作都离不开对自然语言的分词。中文分词与英文分词等其他语言分词一样,都是将连续的字序列按照一定的规范重新组合成词序列的过程。但英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,导致不同的分法产生不同的词意,从而可能使得计算机曲解人的意思。因此中文分词就要比英文分词困难的多。(二)中文分词的发展历史、现状及将来前景最早的中文分词方法是北京航空航天大学的梁南元教授在1983年提出的,这是...  (本文共2页) 阅读全文>>

《湖北农机化》2017年06期
湖北农机化

中文分词关键技术研究

Internet,中文正式译名为因特网,又叫做国际互联网。它是由那些使用公用语言互相通信的计算机连接而成的全球网络。一旦你连接到它的任何一个节点上,就意味着您的计算机已经连入Internet网上了。目前Internet的用户已经遍及全球,有超过几亿人在使用Internet,并且它的用户数还在以等比级数上升。它是一个全球性的巨大的计算机网络体系,它把全球数万个计算机网络,数亿台主机连接起来,包含了难以计数的信息资源,向全世界提供信息服务。它的出现,是世界由工业化走向信息化的必然和象征。In-ternet构成了当今信息社会的基础结构。因特网(Internet)是一组全球信息资源的总汇。因特网最高层域名分为机构性域名和地理性域名两大类,目前主要有14种机构性域名。1995年10月24日,“联合网络委员会”通过了一项有关决议:将“互联网”定义为全球性的信息系统。通过全球性的唯一的地址逻辑地链接在一起。这个地址是在互联网协议(IP)或传输...  (本文共2页) 阅读全文>>

《计算机工程与应用》2015年06期
计算机工程与应用

基于粗分和词性标注的中文分词方法

1引言如最大正向匹配法[2]、最大逆向匹配法[2]和全切分法[3]中文分词是中文信息处理的基础之一,主要可分等,机械分词法的效率和准确性受到词库容量的约束,为:机械分词和统计学分词[1]。前者是传统的分词方法,采用简单机械的分词策略,不涉及语法和语义知识,所以对于歧义切分无法有效克服,切分精度不高[4],导致最P(TW)=P(t1t2tmw1w2wm)=终切分准确率较低,单纯采用机械分词法很难满足中文?mP(tj|tj-1)′P(wj|tj)信息处理对中文分词的要求;后者主要利用词与词的联j=1合出现概率作为分词信息的统计模型,如互信息[5]、N其中t0为虚设词性为所有词性,即P(t1|t0)=P(t1)。元文法模型[6]、神经网络模型[7]和隐马尔可夫模型[8]等,定理对于给定切分W和词性标注T,有统计模型方法具有良好的切分歧义处理能力和识别新?mmP(ti|ti-1)′P(wi|ti)=?P(ti...  (本文共5页) 阅读全文>>

《硅谷》2012年06期
硅谷

IK Analyzer 2012发布中文分词库

IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。IK Analyzer2012特性:采用了特有的“正向迭代最细粒度切优化的词典存储,更小的内存占用。分算法“,支持细粒度和智能分词两种切支持...  (本文共1页) 阅读全文>>

权威出处: 《硅谷》2012年06期
《北华大学学报(社会科学版)》2006年01期
北华大学学报(社会科学版)

中文分词连写的问题与对策

近年来经常看到讨论中文分词连写的文章,这表明它已经成为新的研究热点。对于研究者来说,有些问题是不能回避且必须认真思考的。譬如,为什么过去国人引入欧式标点时没有引入分词连写?又如,为什么近年来越来越多的国人赞成实行中文分词连写?再如,实行分词连写有益于中文信息处理,但是给中文使用尤其是书写带来麻烦,在利弊同在的情况下怎么办?本文将集中讨论并回答上述问题。一、为什么过去国人引入欧式标点时没有引入分词连写欧式书写体式除了标点以外还包括分词连写,即在分清词界的前提下实施连续书写。在采用表音文字的欧洲,分词连写方式很早就已出现。它的最初使用带有随意性。1884年在古城戈提那(Gortyn)一家磨房墙上发现的希腊化时代(公元前323-前30年)遗物———12栏民事法典铭文,其中多数词语连写,少数词语分写。后来分词连写方式日趋稳定。从古罗马大演说家西塞罗(公元前106-43年)演说稿《在韦勒斯》手抄本残篇可以看出,那时分词连写方式成了书面语不...  (本文共6页) 阅读全文>>