分享到:

语言信息处理的基石

对北京大学计算语言学研究所《综合型语言知识库》的研究人员而言,2007年2月13是一个令人激动的日子,北京大学计算语言学研究所自1986年以来在863、973、自然科学基金、社会科学基金等国家计划的支持下,历时20多年的研究成果《综合型语言知识库》这一天通过了技术鉴定,并且受到了鉴定专家的一致好评。 $$  《综合型语言知识库》是一个庞大的工程,由以下部分组成: 其中的《现代汉语语法信息词典》包括34个数据文件,收录词语8万条,描写的语法属性总项数超过360万项,是目前国内外最有影响的汉语词汇知识库;《汉语短语结构知识库》包含600余条汉语短语规则,涵盖了汉语基本短语结构的各种合理组合;《中英文概念词典》实现对词网中近10万个英文概念的汉语对应,是全球多语词网建设中具有标志性的一项成果;《现代汉语大规模基本标注语料库》切分标注的总量超过5千万字,《汉英双语对齐语料库》规模达80万句对,规模...  (本文共1页) 阅读全文>>

《辞书研究》2007年04期
辞书研究

面向世博语言信息处理的汉英机器词典

机器词典又叫电子词典,是“基于计算机以及计算语言学理论而开发的语言处理和识别系统”川。根据其用途,机器词典可以分为机读人用词典和机器可循词典两大类,前者是为读者提供服务的,后者是为计算机处理语言信息服务的。机器可循词典是“具备了MT(maehine translation,机器翻译)系统或其他自然语言处理系统可以直接利用的框架或格式的词典’心〕。本文讨论的面向世博语言信息处理的汉英机器词典是一种机器可循词典,是具有特定用途的机器词典。2010年上海世博会是多语言信息处理的“练兵场”,而多语机器词典则是多语言信息处理系统的基础,本文仅就汉英双语机器词典的编制展开讨论。一、世博语言信息处理对机器词典的要求汉英机器词典的质量主要取决于两方面:一是词典的内容,即词典中收录哪些词。它对汉语分词精度有着很大影响,事实上在汉语分词过程中,该机器词典的作用就是一部分词底表。一部好的词典要具备通用性好、覆盖率高的优点。二是词典的组织形式。它对系统...  (本文共7页) 阅读全文>>

《高技术通讯》1991年11期
高技术通讯

智能型机器翻译与语言信息处理产业

一、高性能机译研究的意义 高性能机译研究是一个涉及语言学、计算数学、计算机技术、自动化技术等多学科的综合性研究课题,几乎覆盖了语言信息处理产业的所有研究领域,是当前语言信息处理产业发展的“瓶颈”和突破口之一。谁最先突破高性能智能型机译及其相关研究领域中的关键技术,谁就有可能在语言信息处理产业的发展中夺得主导地位。由于高性能机译技术在语言信息处理产业中具有重要的现实意义和潜在的应用前景,它已成为当前国际上激烈竞争的研究领域之一。发达国家不惜投入巨额资金开展全国性或多国性的联合攻关。据国外有关报导,高性能机译产品已被权威机构列为2]世纪世界十大高科技产品之榜首。智能型机译研究是高性能机译发展的主要方向,它作为人工智能的重要应用,被认为是第五代乃至将来第六代计算机的最大应用领域,它已成为整个语言信息处理产业的核心之一,其战略地位和竞争的激烈程度可想而知。 从近期的研究来看,高性能机译系统的初步成就将会带来巨大的直接与间接的社会经济效益...  (本文共5页) 阅读全文>>

《学习月刊》2015年22期
学习月刊

大数据对语言信息处理的挑战

一、语言信息处理及其发展1、语言信息处理的定义语言信息处理(LIP,Language In-formation Processing)有时也称作自然语言处理(NLP,Natural Language Pro-cessing)或自然语言理解(NLU,NaturalLanguage Understanding),自然语言处理是上位概念,包括理解和生成,而语言信息处理可以分别理解为语言信息|处理”和“语言|信息处理”。前者指的是对各种语言信息进行处理,后者指对语言本身进行信息化的处理。[1]语言信息处理源自20世纪50年代和60年代的机器翻译,其基本原理是结合其他边缘学科的知识,解决机器在语言理解和生成中语法和语义消岐问题。自然语言处理系统首先把指令“Deletefile x”在音位学平面转化成音位系列“/dilit fail eks/”,然后在形态学平面把这个音位系列转化为语素系列“delete”“file”“x”,接着在词汇学平面...  (本文共2页) 阅读全文>>

《中文信息学报》2005年03期
中文信息学报

“第十届少数民族语言信息处理研讨会”征文通知

为了交流民族语言文字及多语言信息处理的最新研究成果 ,促进中国少数民族语言文字信息技术发展 ,中国中文信息学会、青海省教育厅五省区藏族教育协作领导小组办公室、青海师范大学、中国科学院软件研究所联合举办“第十届少数民族语言信息处理研讨会”。会议定于 2 0 0 5年 7月 1 6 - 1 8日在青海师范大学召开 ,会期三天。会议将邀请著名中文信息处理专家做专题报告。会议将选取优秀论文推荐在《中文信息学报》发表。论文文字 :中文或英文 ,论文必须有中文和英文的题目与摘要。会议的议题如下 (不限于 ) :多文种软件体系结构 ...  (本文共1页) 阅读全文>>

《西北农林科技大学学报(社会科学版)》2004年01期
西北农林科技大学学报(社会科学版)

中国语言信息处理/机器翻译产业发展模式研究

异种语言间的信息同步处理和机器翻译是20世纪遗留下来有待解决的世界性难题之一,近年来,信息技术、人工智能技术和互联网络技术的发展使解决异种语言间信息的同步处理和机器翻译问题又出现了新的机缘,各主要科技强国纷纷加大在这一领域的投资开发力度。随着我国加入WTO和北京2008年奥运会的即将举办,我国的机器翻译技术开发以及产业化又有了新的发展机遇,但同时也遇到了新的挑战。有关专家预测,语言信息处理/机器翻译产业将成为互联网之后国内IT业的又一个投资热点,由于我国在发展语言信息处理/机器翻译产业方面有着得天独厚的条件,有最丰富的语言信息处理/机器翻译技术人才,中国将成为全球最有潜力的和最大语言信息处理/机器翻译产业市场。但是,目前我国的语言信息处理/机器翻译产业实际上还处于前产业的时代,尚构不成一个独立的产业。经过多年探索,我们已经意识到:语言信息处理/机器翻译技术的产业化,不仅是知识和技术高度密集,而且还是资金密集和管理密集的高技术产业...  (本文共4页) 阅读全文>>