分享到:

最大熵方法及其在自然语言处理中的应用

近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件推动了基于语料库的统计自然语言处理方法成为目前自然语言处理研究领域的一个热点。最大熵方法是一种基于统计的机器学习方法,近10年来,成功应用于自然语言处理的许多领域,并且都接近或达到最佳水平。所谓最大熵方法就是遵循最大熵原则建模,也就是选择这样的一个统计概率模型:在满足约束的模型中选择熵最大的那个。最大熵方法的优点在于它有简单的哲学原理以及数学推理作为基础,在最大熵模型这个统一的框架下,非常方便的使用多种特征,而且特征之间没有独立性假设,模型表达能力强。它的缺点是训练速度非常慢,耗资源。在这篇论文中,我们首先介绍最大熵方法的基本原理,数学推导和基本算法。然后分别从训练和执行两个方面提出快速方法:选择性增益计算方法和稀疏特征树方法。选择性增益计算是一种快速的特征选择方法,它能使特征选择的速度提高2到3个数量级。稀疏特征树是一  (本文共91页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

改进最大熵方法及其在水下航行体可靠性分析中的应用

工程结构设计中,需要根据结构的力学模型预测其真实响应,来验证结构性能指标是否达到设计要求。由于工程结构在设计、加工、制造和服役过程中,经常会受到诸如材料、载荷等各种不确定性因素的影响,导致工程结构的实际承载能力可能偏离性能需求。因此,准确分析并量化输入不确定性因素对结构响应的影响,对评估结构的可靠性有重要的指导意义。为了充分考虑实际工程中各类的不确定因素,准确的评估结构的可靠性,基于概率论和数理统计理论的可靠性分析方法成为分析和量化工程中的不确定性因素对结构的安全性影响的重要手段。在诸多可靠性分析方法中,最大熵方法是研究不确定性传播、求解结构可靠度的一种有效的矩方法。该方法无需计算设计验算点和功能函数导数,仅从统计矩信息就能获得功能函数的概率密度近似表达式,因此,近年来在理论研究和工程应用等方面都受到了广泛关注。本文针对当前最大熵方法理论面临的一些难点问题,从结构可靠性分析的功能函数非线性变换入手,提出了对整数阶矩最大熵方法和分...  (本文共161页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

考虑统计矩随机性的改进最大熵方法

航空航天结构的计算与试验往往需要面对耗资巨大、试验周期长等问题,导致数据采集到的样本数量较少。对这类结构基于矩方法进行可靠性分析,会因其小样本问题无法得到准确的统计矩,使估计的失效概率出现较大偏差。为了分析统计矩不确定性对矩方法可靠性分析结果的影响,本文分别对传统最大熵方法和基于转换函数的最大熵方法基于直接抽样法和单变量降维法所获得的统计矩数据进行研究,拟合统计矩随机性的分布信息,并提出考虑统计矩随机性的最大熵方法,考虑了统计矩的随机性,可以得到失效概率的概率分布。首先,本文回顾了相关问题的研究背景,对近几年结构可靠性分析的理论进展进行了阐述,并整理了最大熵方法和单变量降维法的研究现状;其次,介绍了最大熵方法、基于转换函数的改进最大熵方法和单变量降维法的流程。接着,分别探讨了小样本情况下,传统最大熵方法和改进最大熵方法基于直接抽样法和单变量降维法所获得的统计矩分布形式,并且拟合了各阶矩分布参数以及抽样数量之间的关系。然后,提出了...  (本文共94页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

海洋声层析最大熵粒子滤波方法

海洋流场的监测是海洋环境监测的重要组成部分。在研究海洋结构的时候,我们往往会利用海洋声层析技术提取声场所经过的海洋内部信息,如流速,声速等。流场层析属于像形成问题,在现实中,许多随机的,不可预测的物理因素影响着像结构,这时候像可以描述为随机过程。对流场的推断也成为随机过程推断。本文将从观测数据推断原始像入手,在信息理论框架下,研究流场层析问题。传统的流场层析基于射线的微扰法,该方法正是基于声信号在海洋环境中的传播特性,它将声线投影到某一平面,并引入基函数线性化传播时延差的积分式子,构成正问题,然后对流场进行推断。但传统的方法往往没有考虑声线的折射现象,不适用于深海环境。另外,传统的流场层析方法采用最小二乘方法对逆问题进行推断,通常待估量要多于观察量,导致欠定逆问题的解精度不足以及不稳定。本文提出的深海流场层析方法,考虑了声线在深海中的折射现象,将声线的传播在垂直方向上分层,构建三维的观测方程。另外,流场层析属于像形成问题,需要用...  (本文共102页) 本文目录 | 阅读全文>>

浙江理工大学
浙江理工大学

基于最大熵方法的二维不变测度计算

科学与工程中许多问题常常归结为研究离散动力系统的性质,而确定性意义下的离散动力系统在统计意义下常具有正规性,所以计算不变测度等大范围统计量对理解离散动力系统具有重要作用。最大熵方法是计算不变测度的主要方法之一。在一维情形下,设从[0,1]到[0,1]的非线性变换S有不变测度,丁玖教授等提出了基于分片线性函数的最大熵方法用于求解不变测度,理论分析和数值实验表明这样的最大熵方法是快速有效的。本文在已有成果基础上做了以下探索:(1)将一维空间计算不变测度的最大熵方法推广到二维空间。在科学与工程问题中常会涉及二维甚至高维的动力系统,因此本文提出的方法有一定的应用前景。(2)结合有限元思想,将三角元上分片线性基函数作为计算二维不变测度最大熵方法中的矩函数。本文证明这样定义的矩函数在二维空间具有单元分割性质和支集性质。这样的性质保证了我们可以有效地求解由最大熵方法得到的非线性方程组,因为利用牛顿迭代法求解由最大熵方法得到的非线性方程时雅克比...  (本文共44页) 本文目录 | 阅读全文>>

哈尔滨师范大学
哈尔滨师范大学

基于分段函数的最大熵方法研究

令S:[0,1]→[0,1]是一个非奇异变换,使得相应的Frobenius-Perron算子PS:L1(0,1)→L1(0,1)有一个稳态密度f*.本文中,我们根据基函数需要满足的连续性、和为1等性质,通过采用不同的区间划分方法研究了基于分段线性函数和分段二次函数的最大熵方法的计算精度,并构造了三次基函数,提出了基于分段三次函数的最大熵方法.数值模拟研究揭示了不同的区间划分方法对最大熵方法的影响.首先,对分段线性基函数,我们比较了h= 1/n,1/2n,1/3n,1/4n的情况下最大熵方法的计算精度,指出方法的运算精度不仅受h取值的影响,而且与映射的具体形式有关,Matlab仿真验证了结论.其次,针对分段二次基函数,通过数值研究我们得到了与分段线性函数最大熵方法同样的结论.最后,我们构造了分段三次基函数,证明了采用分段三次基函数的最大熵方法的收敛性,并指出方法的收敛速度可以达到 o(n-4)。  (本文共37页) 本文目录 | 阅读全文>>