分享到:

文摘

古代中国国土面积有多大?据史料记载,中国第一次有明确国土面积的朝代,是公元前221年的秦朝。秦朝疆土面积为360万平方千米,两汉时期国土面积增加到了890万平方千米。历经三国、西晋、南北朝、隋朝等朝代,到了唐朝的时候,国土面积大得惊人,共计1240万平方千米。宋朝国土面积仅为460万平方千米。历史上元朝国土面积最大,为1680万平方千米,包括整个中国、蒙古及俄罗斯西伯利亚的大片土地。明朝国土面积大为缩水,仅有710万平方千米。清朝国土面积扩大到1310万平方千米,在中国古代历朝历代中名列第二。由此不难看到,古代中国的国土面积在不同时期、不同朝代是有差别的。中国80后、90后名下有房比例全球最高英国汇丰银行一项调查发现,中国七成“千禧一代”名下有房,比例居全球首位。在西方,“千禧一代”又称“Y世代”,大致相当于中国的“80后”和“90后”。汇丰银行对全球9个国家约9000名“千禧一代”进行调查,结果显示,中国“千禧一代”有房比例最...  (本文共2页) 阅读全文>>

武汉大学
武汉大学

基于基本要素的多文档自动文摘研究

随着网络的日益普及,在线信息急剧增加,如何有效地获取和描述这些文本信息显得越来越重要。尽管用户通过搜索引擎可以快速获得丰富的文档,但要获取其中内容则需要消耗大量时间去阅读每一篇文档。自动文本文摘(Automatic Text Summarization)能够为用户提供一个原文档的压缩版本,旨在减轻用户的阅读压力;而多文档自动文摘(Multi-document summarization)是从多篇文档中提取主要的或用户需要的信息,其在信息检索IR(Information Retrieval)中的重要地位使其成为NLP(Natural Language Processing)的一个研究热点。本论文研究了多文档自动文摘中的四个关键问题,分别是:内容单元选择中的人工行为模式;基于句子抽取的文摘内容提取方法;句子抽取后的排序策略;对文摘质量中“内容连贯性”的评测模型。主要研究工作和成果概括如下:1.提出了基于基本要素(Basic Elem...  (本文共124页) 本文目录 | 阅读全文>>

华中师范大学
华中师范大学

基于云模型的中文面向查询多文档自动文摘研究

随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、重复的数据,需要用户耗费很多精力来自己查找有用的结果。面向查询的多文档自动文摘技术将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取,通常要求摘要的内容简洁、组织良好、冗余低、满足个性化需求。面向查询的多文档自动文摘技术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以及利用信息的效率,提高使用者在信息社会中的竞争实力。云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定量转换模型。云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究。虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型直接应用在自然语言处理领域本身的工作还比较少见。本论文针...  (本文共160页) 本文目录 | 阅读全文>>

北京交通大学
北京交通大学

抽取式多文档文摘的文本表示研究

自动文摘是自然语言处理的一个分支研究领域,本文主要研究其众多分支中最基础、也是一直被关注的基于抽取式的多文档文摘,对多篇文档提取一个由其中核心句子组成的简短文摘。多文档文摘的对象一般是围绕预定话题、经搜集而得的多文档集合。虽然具有预定话题,但由于文档来自不同信息源,数据中常存在以下3个问题,对文本的准确表示造成影响,影响文摘的准确提取:1.主题不唯一:不同作者对话题阐述的角度不同,多文档集内可能包含除预定义话题以外的其它主题。2.词义复杂性:因作者用词习惯不统一和语言的丰富性,易混杂各种同义词,内容繁杂时会存在出现于不同主题的多义词。3.噪音现象:因文档以整篇为单位加入数据集,可能携带无关噪音内容。为此,本文引入语义分析模型、语义知识库和监督信息来改进多文档文摘的文本表示,以提高文摘系统性能。主要研究成果如下:1.提出了基于主题表示的多文档文摘方法,处理主题不唯一问题。文档集主题结构训练、句子的主题表示和句子重要度计算是其主要环...  (本文共118页) 本文目录 | 阅读全文>>

大连海事大学
大连海事大学

基于引用聚类的多文档自动文摘技术研究

互联网的普及带来了网络电子期刊文献的剧增,这给研究人员(尤其是初级研究人员)高效准确地从海量信息中挖掘所需要的信息带来了巨大挑战。因此,如何对领域知识进行自动概括以提高研究人员获取信息的效率变得日益重要。多文档自动文摘是自然语言处理中的一个重要研究课题,它可以实现对同一主题的多篇文献的汇总和压缩,通过提供一个简洁、全面的文摘,来减少研究人员阅读文献的时间并避免信息超载的发生。为了对研究人员所关心领域的相关文献进行概述,本文在现有的多文档文摘技术的基础之上,研究了基于引用聚类的多文档自动文摘技术,着重在引用聚类和文摘生成的研究。在引用聚类部分,基于向量空间模型,通过采用不同的文本表示方式和文本相似度计算方法,得到了引用聚类的六种聚类指标,即文献摘要相似性指标、基于查询的文献摘要相似性指标、文献引用上下文相似性指标、基于查询的文献引用上下文相似性指标、文献共引互信息指标以及文献共引位置临近性得分指标。在此基础上,根据文献的引用位置与...  (本文共167页) 本文目录 | 阅读全文>>

昆明理工大学
昆明理工大学

基于最大熵的自动文摘技术研究

当今社会,电子信息数量急剧增长。对信息的浓缩和查询等问题的研究工作显得尤为重要。自动文摘可以降低人工文摘的成本,缩短文摘加工和处理时间,为用户快速、准确和廉价的获取信息提供方便,加快了人们获取相关资源的速度。本文提出了一种基于最大熵的自动摘要方法,该方法最初通过对训练集文本进行人工摘要和句子特征标注,训练得到基于最大熵的自动文摘系统。进入摘要阶段后,首先对待处理文本进行句子特征抽取;然后利用基于最大熵的自动文摘系统产生文摘候选句;最后对候选句进行冗余消除,得到最终文摘。在句子特征抽取方面,本方法使用了综合的句子特征,包括F-词频特征、T-标题特征、L-位置特征、S-句法结构特征、C-线索词特征、I-指示词特征等。这些特征分别从不同的程度表征了文章的中心主题句,但都不够全面和准确。许多研究者试图将以上各种特征“有机”的结合起来提高文摘质量,即以W=f (F, T, L, S, C, I)作为计算句子权值的公式,实践证明,对于函数f...  (本文共82页) 本文目录 | 阅读全文>>