分享到:

一种新的基于属性-值对的决策树归纳算法

1 引 言实例学习是一种归纳学习 ,归纳学习是符号学习中研究的最为广泛的一种方法 〔1〕.决策树方法是发现概念描述空间一种特别有效的方法 ,是实例学习中具有代表性的学习方法 ,专门用于处理大量对象 .寻找一棵最优决策树 ,主要解决以下三个最优化问题 :(1)生成最少数目的叶子 ;(2 )生成的每个叶子的深度最小 ;(3)生成的决策树叶子最少且每个叶子的深度最小 .以上三个问题均已被证明为 NP难题 〔2〕,所以 ,决策树算法只能寻找一棵近似最优决策树 .Hunt,Marin和 Stone于 196 6年研制了一个概念学习系统 CL S〔3〕,可以学习单个概念 ,并用此学到的概念分类新的实例 ,但是 ,它的学习问题不能太大 .Quinlan于 1983年研制了ID3(Quinlan1986 )〔4〕,ID3是非递增算法 ,而且它采用信息熵作为属性选择标准 ,可这个标准易偏向于值数较多的属性 .Schlimmer和 Fisher于 ...  (本文共3页) 阅读全文>>

《南阳师范学院学报》2011年12期
南阳师范学院学报

基于在线多实例学习的跟踪研究

0引言目标跟踪是计算机视觉中的一个重要研究内容,在视频监控、人机交互等方面有着广泛的实际应用.一个典型的跟踪系统包括三个部分:(1)表观模型,用来计算某些位置被跟踪目标的似然值.(2)运动模型,表示目标位置随时间变化的规律.(3)搜索方法,寻找目标在当前帧的可能范围.目前大部分表观模型不能及时处理跟踪过程中目标表观的变化[1-3],自适应的表观模型能够带来较好的跟踪效果[4-5],但是训练自适应表观模型本身存在一些未解决的问题:参数的调整如何去控制表观模型的变化速度,训练样本的歧义性.本文研究多实例学习跟踪,以期能实现最少的参数调整,解决训练样本中存在的模糊歧义问题.1自适应表观模型最近基于检测的跟踪方法取得显著的效果,该方法训练分类器,把目标从背景中分离出来[6-8],但是这种方法忽略了一个问题,就是在更新自适应表观模型时如何选择正样本和负样本.现在普遍使用的方法是将当前跟踪的位置作为正样本,该位置附近作为负样本.但是如果跟踪...  (本文共3页) 阅读全文>>

《科技资讯》2009年19期
科技资讯

基于实例学习在自然语言处理中的应用研究

自然语言处理技术的发展大致经历了基于规则、基于统计和与机器学习方法结合的三个阶段。传统基于规则的方法很难适用于存在大量“例外”现象的自然语言处理;而基于统计方法对问题描述的不易理解性以及数据稀疏等也限制了它的应用。近年来,机器学习技术在自然语言处理中的应用成为研究热点。在众多机器学习方法中,基于实例学习的突出特点是学习过程只是简单的存储已知实例[1]。分类的过程才是相似度比较的过程。这一特性使得问题描述和分类过程大大简化,避免了前两种方法泛化过强或过弱的缺陷。1基于实例的学习的基本算法基于实例学习是基于智能行为可以通过相似推理来达到假设建立的一种学习方法。其算法机理是:在遇到一系列训练样例时,基于实例学习仅将它存储起来。等遇到新实例时,再计算新实例与存储实例之间的距离,找到与新实例距离最近的类别,并赋予相应的函数值,完成分类[1]。1.1相似度比较机制相似度比较是基于实例学习中两实例通过计算特征间的距离来进行比较。计算公式如下所...  (本文共1页) 阅读全文>>

北京邮电大学
北京邮电大学

基于事件驱动模型的股指预测研究

在以往的研究中,股指预测通常仅仅基于单一的数据源,因此可能无法全面涵盖到影响股市走势的所有因素。随着股票市场的发展和社交网络的兴起,越来越多的投资者开始在网络中讨论有关股市的话题,并且相关媒体对股市新闻的报道也更加丰富。随着股票信息的暴增,股市分析工作变得更加多元化,基于互联网数据进行股指预测成为了近年来的研究热点。然而,如何提取新闻中的事件和社交网络中蕴藏的情感信息,并将它们与股市量化数据有效融合,进而共同预测股指波动仍是一个富有挑战性的工作。在本文首先提出了一个基于受限玻尔兹曼机的事件提取和表示方法,能够将一篇新闻表示为一个固定长度的向量。其次提出了一个基于LDA的情感主题模型一LDA-S,来抽取短文本中的情感信息,该模型改进了 LDA的采样公式,同时加入了先验信息,并且能够根据不同文档的主题提取出文档的情感分布。接着介绍了基于受限玻尔兹曼机的事件提取的设计流程,利用该方法可以从原始新闻文本中抽取结构化信息,并将其表示为向量...  (本文共69页) 本文目录 | 阅读全文>>

华南理工大学
华南理工大学

基于实例过滤的多实例分类研究

随着信息技术的飞速发展,机器学习在各个科学领域扮演着越来越重要的角色。多实例学习由传统机器学习演变而来。在多实例学习中,训练集由若干个具有概念标记的包组成,每个包包含了若干个没有概念标记的实例。若一个包中至少有一个正例,则该包被标记为正,若一个包中所有实例都是反例,则该包被标记为负。通过对训练包的学习,希望学习系统尽可能正确地对训练集之外的包的概念标记进行预测。然而在实际应用中,正包中正实例过于稀疏往往会导致负实例主导分类结果的情况出现,即弱化了正实例在分类中的作用,从而导致预测结果准确率大幅下降。为解决上述问题,本文提出方法是对正包中的实例进行过滤,即最大限度的筛选出正包中的正实例。具体地,根据数据集的不同特性,我们提出了如下两种解决方法:一、基于聚类的多实例过滤分类。具有相同标签的数据可能具有相似的的属性值(即在空间距离上相近),通过聚类可以将它们划分到对应的簇中,从而实现正负实例的分离。我们便提出了基于K-means的多实...  (本文共58页) 本文目录 | 阅读全文>>

《工业控制计算机》2015年04期
工业控制计算机

基于运动模型分解的多实例学习跟踪

本文提出了一种基于运动模型分解的多实例学习跟踪算法。其中特征的初始化工作基于稀疏随机矩阵,通过采样图像的低维度特征来映射高维度多尺度信息;将粒子滤波运动跟踪框架与多实例学习模型相结合,并利用多运动模型约束与K-means聚类来训练分类器。1外观模型的构建视频跟踪对实时性要求很高,通过使用一种由随机分布生成的图像特征线性组合,不仅能有效减少特征点的计算量,同样也能保持图像中特征点的固有信息。由压缩感知理论[3-4]可知,如果信号由非常稀疏的数据线性组合而成,编码得到的少量随机测量数据能完美重构原来的信号。利用满足有限等距约束(RIP)条件[3]的随机矩阵可以对来自于高维图像特征进行降维,通过随机矩阵v∈Rn*m对来自于m维图像空间的特征v∈Rm进行投影,可以得到n维的特征v∈Rn,即:v=Rx(1)其中nm。本文使用的特征为类Haar特征,这保证了测量矩阵中数值可正可负。值得注意的是,文献[1-2]中所使运用的Haar随机矩阵并不...  (本文共3页) 阅读全文>>