分享到:

文本挖掘若干关键技术研究

面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的研究领域。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此对非结构化信息进行挖掘成为继数据挖掘之后出现的又一课题。在常见的非结构化数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因而比数据挖掘具有更高的商业价值。本文以文本数据为研究对象,对文本挖掘的若干关键技术进行研究,主要包括文本特征提取和特征选择、文本  (本文共122页) 本文目录 | 阅读全文>>

西北农林科技大学
西北农林科技大学

文本挖掘中若干关键技术研究

随着计算机、传感、通信等技术的迅速发展,互联网作为全球信息资源网络,日益融入到人们的工作和生活中,文本作为信息的主要载体,也因此呈现爆炸式增长。文本挖掘旨在从丰富的文本信息中获取有用知识,已成为学术界前沿研究领域之一。文本分类技术和文本摘要技术是文本挖掘研究的重要分支,广泛用于网络监测、垃圾邮件过滤、信息检索等应用中。传统文本分类算法仅使用全标注文本样本学习分类模型,然而实际应用中标注文本真实类别的代价十分昂贵,大量文本都是未标注,或仅可标注是否为正例样本。因此,研究仅采用正例与未标注文本进行学习的文本分类算法有着重要的意义。文本摘要技术对大量的文本快速地压缩、提炼,生成文章的主旨,帮助人们快速获取信息,其中句子排序在文档摘要句子提取中起着关键作用。本文围绕正例与未标注文本分类问题展开研究,同时对文档摘要中句子排序技术进行了探索。主要工作如下:(1)针对现有两阶段策略对正例与未标注文本学习时,第一阶段从未标注样本抽取可靠负例数量...  (本文共121页) 本文目录 | 阅读全文>>

福州大学
福州大学

中文Web文本挖掘的若干关键技术研究及其实现

随着互联网的高速发展,网络上的信息越来越丰富,这在给我们带来便利的同时,也产生了一个新的问题。由于网络上充斥着海量的非结构化的信息,这就迫切需要一种有效的信息处理技术,使得我们能够在如此巨大的信息资源中找到所需的信息而不至于被大量无关信息淹没。在此背景下,Web文本挖掘技术应运而生,并逐渐成为一个研究热点,本文主要研究中文Web文本挖掘技术。本文首先介绍了Web文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。其次,研究了中文文本的分词问题。本文采用基于词典的逐字二分查找方法实现粗切分,并对歧义切分和未登录词识别设计了相应的处理策略;特别是针对组合型歧义,本文提出了基于句子结构相似度的事例学习消歧方法。接着,本文探讨了中文文本的特征表示与特征选择,采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用评估函数χ~2统计法进行处理。然后,针对中文文本的聚类,本文设计了以知网为背景知识的概念聚类算法。利用知网资源构...  (本文共62页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

文本挖掘在中医药中的若干应用研究

文本挖掘是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理如信息抽取、信息检索、文本分类等理论和技术相结合的产物,它得到了越来越多研究人员的关注。文本挖掘是数据挖掘研究面向文本数据的自然延伸,其研究仍处于婴儿期,在方法和应用方面均未成熟。中医药学作为生命科学具备中国特色的传统医学组成部分,在疾病诊治和方药使用等方面具有特色和显著的临床疗效,并包含着丰富的知识,几千年的医学实践积累获得了大量的数据。在中医药学信息化建设的基础上进行KDD研究具有重要意义。中医药领域未存在文本挖掘的相关研究,本文在多个方面如文献临床复方药物组成和科属配伍知识发现、中医术语及关系抽取和中医证候基因关系知识发现等进行了研究。本文研究内容包括如下四个方面:● 进行基于字特征的中文文本分类研究,实验表明字特征是中文文本分类的高效特征表示方法。提出了分布字聚类方法,该方法无需分词、具有低达10~2数量级的特征维数和高性能的特点,其与NB结合的性能接...  (本文共119页) 本文目录 | 阅读全文>>

天津大学
天津大学

基于粗糙集的数据及文本挖掘方法研究

数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将软计算方法之一的粗糙集理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于粗糙集的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题;文本挖掘中的分类规则抽取问题;以及粗糙集同模糊集相结合的数据挖掘方法。所做主要工作内容包括:将粗集和遗传算法相结合成功应用于文本模糊聚类。在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性。给出了近似规则的定义,并对χ~2值的意义进行了讨论。在此基础上提出了一种将特征选取和粗集方法相结合的文本分类规则抽取方法。该方法大大提高了文本规则抽取的效率,并使其更趋实用化。对相关文献中隶属函数的定义进行了改进,并且利用隶属函数的性质提出了一种从定量决策表转换为定性决策表的转换规则,利用此转换规则可以将原来的定量决策表转换为一个同样大小的定性决策表,这样大...  (本文共105页) 本文目录 | 阅读全文>>

中国科学院研究生院(计算技术研究所)
中国科学院研究生院(计算技术研究所)

聚类/分类理论研究及其在文本挖掘中的应用

如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。基于人工智能的信息内容的自动聚类、分类和文摘,以及深层次的“知识检索”为迎接这个挑战提供了新的支撑技术。本文的目标就是在信息检索的背景下,从理论、算法和应用三个层次来讨论聚类和分类技术。本文首先全面分析了聚类和分类算法的关键技术,总结了在统计、机器学习和模式识别等领域的聚类/分类算法。本文随后从理论的层面来剖析聚类/分类算法。我们发现聚类过程实际上是在样本集上定义一种特定的等价关系,一个逐渐加细的等价关系序列和聚类谱系图是相对应的,不同的等价标准就导致了不同粒度的聚类结果。从信息粒度的角度看待聚类和分类,就能更清楚地看出它们之间的相通之处—聚类是在一个统一、均匀的粒度下进行计算,而分类是在非均匀粒度下进行计算。由此出发,还可以...  (本文共109页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

文本挖掘预处理相关基础技术分析与应用研究

本论文将在对比分析并发现现有文本挖掘技术存在不足的基础上,提出改进文本预处理精度的算法。文中涉及的主要技术包括文本收集、文本预处理、处理后的文本的中文分词、预抽取训练样本及使用KNN方法进行文本训练和文本分类等。通过对系统功能的分析,本研究把系统分成了文本预处理、中文分词、文本特征向量的提取、文本特征向量的训练和分类等四部分。在文本特征向量的提取、文本特征向量的训练和分类部分中,作者研究了一种基于词的文档频率(DF)和信息增益相融合的的方法,这种方法不仅相对简单,有层次感,而且在保证分类器性能的基础上,可以允许我们适当地选择训练样本,减少支持向量,从而提高KNN的训练和分类速度。接着介绍了KNN的基本理论以及目前KNN方法在文本分类中的应用情况,以及如何使用KNN,利用获得的文本特征向量及其权重来生成输入文档,进行文本训练和分类的过程。本课题实现了文本收集、文本预处理和中文分词等文本挖掘的关键技术,并在研究的基础上提出了一套特征...  (本文共111页) 本文目录 | 阅读全文>>