分享到:

基于类别核心词的朴素贝叶斯中文文本分类

从人工分类的角度看,标题、摘要及关键词中的词条对于文本分类具有更重要的作用.在此基础上提出了基于类别核心词的分  (本文共4页) 阅读全文>>

河北大学
河北大学

中文文本分类研究

随着计算机软硬件技术的快速发展,电子化文本数据急剧增加。如何有效利用这些电子化文本数据,已成为人们的研究热点之一。基于人工智能技术的自动文本分类是有效利用电子化文本数据的基础。本文首先给出了类别核心词的概念,把在文本的标题、摘要和关键词部分出现的特征词称为类别核心词,类别核心词能更好地表示文本的类别特征。然后,基于类别核心词这一概念,从提高文本分类的性能出发,对文本分类技术主要进行了两个方面的研究。一方面,对朴素贝叶斯分类方法进行了改进,给出了一种基于类别核心词的朴素贝叶斯分类方法。从贝叶斯公式直观来看,文本的类别与特征词的词频有很大关系,词频越大,说明该词越具有代表性,但实际情况并非如此,有些低频特征词可能更能代表文本的类别特征。由于朴素贝叶斯分类是一种基于概率的分类方法,所以,这些低频特征词的概率值可能会近似等于零,这时,小概率事件就发生了。小概率事件发生的情况越多,对文本分类的结果影响也就越大。为了尽量避免这种情况,我们将...  (本文共59页) 本文目录 | 阅读全文>>

河北大学
河北大学

中文文本分类算法比较研究

随着Internet的迅猛发展,文本信息的数量也日益增加,文本信息的自动处理也变得越来越重要。文本分类作为自然语言处理的一个基本问题,是文本信息处理中的一项主要技术,受到文本处理领域越来越多的关注。本文对文本分类技术的研究主要分为两个部分:第一部分,设计了一种基于类别核心词上下文矩阵的文本表示方法。该方法首先把在文本的标题、摘要、关键词和文章开头结尾部分出现的特征词提取为类别核心词。虽然类别核心词能比较好地表示文本的类别特征,但是却不能体现出文本的上下文关系。针对这一不足提出了类别核心词上下文矩阵,该矩阵把词条按照对类别核心词信息量大小的不同排列在矩阵的不同位置,使得上下文关系与类别核心词较好地联系起来。其次,根据词条在文章的不同位置以及类别核心词上下文矩阵中的不同位置重新进行权重计算,进而更有效的表示文本。第二部分,讨论了贝叶斯(NB)、K-近邻(KNN)、支撑向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行比较...  (本文共50页) 本文目录 | 阅读全文>>

《中学政治教学参考》2019年05期
中学政治教学参考

以思维导图串联核心词的尝试

一、核心词与思维导图核心词是一节教学内容的精华,是对教学文本的精炼,也是对标题的精准把握。因此,核心词的提取十分考验学生的阅读理解能力和概括能力。核心词可以根据单元、课、框...  (本文共2页) 阅读全文>>

《语文学习》2019年11期
语文学习

理由是否充分

在写作教学中,探讨"理由是否充分"是在确认理由本身合理,且与观点构成因果关系的前提下,引导学生再次审视理由对观点的支撑是否全面、是否有力,进而探究如何构建一组"充分的理由"。在反思的过程中,引...  (本文共7页) 阅读全文>>

《中学语文教学参考》2016年31期
中学语文教学参考

议论文素材运用的误区及对策

要想恰当运用作文素材,首先要树立以素材为中心服务的理念,其次要避免陷入以叙代议、并列不当...  (本文共2页) 阅读全文>>

《中学数学教学参考》2017年Z2期
中学数学教学参考

代数推理问题

1课标要求概述《义务教育数学课程标准》(2011年版)(以下简称《课标》)有两个核心词,一个是推理能力,另一个是符号意识。...  (本文共3页) 阅读全文>>