分享到:

基于Gibbs Sampling算法的转录因子结合位点预测研究与实现

本文主要研究基于马尔可夫链-蒙特卡罗(MCMC)理论的转录因子结合位点预测算法及其相关软件的应用。具体内容包括:研究MCMC理论及其中重要算法Gibbs sampling的具体理论与实现。在Linux操作系统下通过使用Qt(一个非常优秀的基于C++语言的跨平台的图形用户界面开发工具)对转录因子结合位点预测工具包——BEST进行应用及分析。本文首先就马尔可夫链-蒙特卡罗理论的发展现状作简要阐述,提出本课题研究的意义。然后对预测共同的转录因子结合位点的数学模型及模型采用的算法进行概述,在其中详细介绍了Gibbs sampling算法。接下来介绍了结合位点预测工具包的使用。最后,对基于Gibbssampling的生命探索者软件的基本原理及实现进行讲解,包括:基本原理,使用的数学模型和算法及具体的应用。提出了生命探索者软件的改进方向,考虑结合神经网络等智能算法,进一步改善预测软件的预测准确性,并提高软件的适应性。  (本文共51页) 本文目录 | 阅读全文>>

《计算机工程》2006年09期
计算机工程

基于依赖结构和Gibbs Sampling的离散数据聚类

1概述数据聚类是按照某种规则或相似性对数据进行分组的过程,用以描述数据中所蕴含的结构。这种描述是数据的抽象和压缩表示,虽然会丢失一些细节信息,但使问题简单明确。数据聚类是一个古老而活跃的研究课题,在许多领域都有持续的研究(模糊数学、统计、数值分析、模式识别、机器学习和数据采掘等)[1~4]。在数据采掘中,也把数据聚类称为非监督学习或无导师学习,数据的族被看作隐藏变量(聚类变量)的取值,聚类过程就是确定隐藏变量值的过程[1]。本文从数据采掘的角度研究离散数据聚类。数据聚类在数据采掘中起着非常重要的作用,被广泛用于信息检索、信息提取、网页分析、医疗诊断和市场分析等,是人类抽象与概括学习机制的体现。目前,主要使用EM算法[3]进行离散数据的聚类。EM算法是对分布参数的局部贪婪(greedy)寻优,因此对初始值敏感,易于陷入局部极值;参数迭代还可能收敛到并非似然函数极值的参数空间的边界,从而产生欺骗收敛。本文基于变量之间的依赖结构和Gi...  (本文共3页) 阅读全文>>

《工业控制计算机》2012年05期
工业控制计算机

基于LDA模型的BBS话题演化

BBS发展之初仅仅是网民表达意见的渠道,表达的内容结果如何、影响力何在、社会有无反馈却不得而知。随着网民数量的增多、讨论话题的宽泛和高层对网络民意的高度重视,政治、经济、文化及社会各个领域的热点、难点等敏感问题都出现在BBS议题中,BBS成为了解民意、收集舆情的重要场所。怎样快速有效地获取和组织正在发生的事件,成为了一个研究的热点。突发性事件或者新闻事件能够在网络上形成爆发性传播,怎样检测和跟踪这些事件的演化成为了研究的难点。1相关研究话题检测与演化分析的重要任务是获取文本集的话题表达,而话题是文本集在语义空间中的表现。Deerwester[1]等提出了隐含语义索引(Latent Semantic Indexing,简称LSI)模型,该模型通过对文档-词矩阵进行奇异值分解,从而实现降维,在新的特征空间上,每一个特征都是原特征空间中所有特征的线性组合,它能够很好地表达原特征空间中的信息。对于新加入的文档需要重新建模,而且随着数据集...  (本文共3页) 阅读全文>>