分享到:

自动文本分类若干基本问题研究

本文对基于学习的自动文本分类中的若干基本问题进行了深入的研究,取得了一系列研究成果。现将论文中的主要内容归纳如下。文本分类的性能评估本文通过对多标号文本分类特点的研究,强调了正确使用文本性能评估指标的重要性。在逐个分析传统文本分类性能评估指标,如BEP值、F_1值、查全率-查准率曲线等基础上,提出了两种新的性能评估指标:弃真率-取伪率曲线和风险平衡值。同传统评估指标相比,新指标更加直观和易于计算。文本表示众所周知,文本分类系统的性能不仅取决于学习算法,而且与文本表示方式密切相关。本文全面考察了停用词、词根、索引方式、特征权和规范化等主要因素对向量空间模型表示能力的影响。对大量仿真实验结果的统计分析表明,进行规范化处理总能大幅提高文本分类器的分类效果。而其他因素对文本分类性能的影响远没有预期的那么大。同人们的普遍认识相反,剔除停用词不仅不能改善文本分类效果,反而甚至会起到降低分类效果的作用。字符串方式是一种与文本描述语言无关的文本  (本文共128页) 本文目录 | 阅读全文>>

《情报科学》2007年10期
情报科学

自动文本分类的可视化方法探讨

自动文本分类方法是文本分类中非常重要的一种分类方法,本文着重从模型与方法的角度进行探讨。首先给出了一个自动文本分类的形式化定义,然后...  (本文共4页) 阅读全文>>

《现代图书情报技术》2005年10期
现代图书情报技术

基于机器学习的自动文本分类模型研究

基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模...  (本文共5页) 阅读全文>>

河南大学
河南大学

文本分类中文本表示模型与深度学习算法研究

随着互联网的飞速发展,以网络为载体的文本信息也呈现出爆炸式增长的趋势。这些海量数据依靠人工进行管理和分类会不仅会耗费大量人力和时间,同时也难以实现。所以,如何高效地组织和管理这些文本信息是自然语言处理领域的一大研究热点,这也促进了自动文本分类技术的长足发展。目前,在文本挖掘、信息过滤与检索等领域,自动文本分类技术已经得到了广泛的应用。自动文本分类是一个涉及到机器学习算法、优化理论以及自然语言处理等多个领域知识的技术。因此,许多因素会影响到自动文本分类的性能,例如:文本的预处理、文本表示模型的选择、特征降维算法、文本分类器的设计等。在众多的影响因素中,文本表示模型以及文本分类器的设计是自动文本分类领域的两大研究热点。本文首先讨论了文本分类的研究背景和意义,分析国内外研究动态和热点,阐明了文本分类各个流程的具体实现。在此基础上,本文主要在文本表示模型以及深度学习在文本分类中的应用两方面展开深入研究,并取得如下成果:(1)提出了一种基...  (本文共79页) 本文目录 | 阅读全文>>

《计算机与现代化》2010年11期
计算机与现代化

基于语义特征的自动文本分类方法

自动文本分类是指在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。现有的文本分类算法大都基于向量空间模型,因而不能充分表达文档的...  (本文共4页) 阅读全文>>

《计算机应用与软件》2004年06期
计算机应用与软件

不同程度的监督机制在自动文本分类中的应用

自动文本分类技术涉及信息检索、模式识别及机器学习等领域。本文以监督的程度为线索 ,综述了分属全监督 ,非监督以及半监督学习策略的若干方法—NBC(Na veBayesClassifier) ,FCM (FuzzyC Means) ,SOM (S...  (本文共4页) 阅读全文>>