分享到:

DNA序列的分类

本文由浅入深提出三种分类模型,应用统计知识进行检验并指导  (本文共4页) 阅读全文>>

国防科学技术大学
国防科学技术大学

生物子序列频数分布与肿瘤亚型分类模型研究

生物信息的爆炸式增长吸引了大量科研人员加入到生物信息学研究领域,使得生物信息学很快成为全球关注与研究的焦点。我们主要研究了生物信息学中的两个基本问题:(1)关于k-长DNA子序列在基因组全序列中出现频数的分布问题;(2)关于基于基因表达谱的肿瘤分子诊断问题。对于这两个问题的研究,都取得了非常好的实验结果,具有理论和现实意义,有助于生物信息学的发展。针对问题一,分别从DNA序列的可视化表示、k-长DNA子序列出现频数分布及其计数算法三个方面展开研究。针对问题二,分别从肿瘤特征抽取和信息基因选择两个方面研究了肿瘤亚型分类模型。DNA序列可视化表示对于研究其结构与功能具有至关重要的意义,它有助于重复子序列的识别、内含子与外显子的区分以及DNA序列进化等方面的研究。我们首先综述性研究了几种DNA序列的可视化表示方法,比较了生成DNA序列分形图像的Hao方法与经典的混沌游戏表示方法的异同点,讨论了禁止子序列中回文子序列情况,阐述了迭代函数...  (本文共304页) 本文目录 | 阅读全文>>

南昌大学
南昌大学

基于SVM分类机的DNA序列分类方法

随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,出现了海量的生物分子数据,这使得科学家们需要分析大量DNA数据。如何充分利用这些数据,进而揭示这些数据的内涵,得到对人类有用的生物信息,是科学家们面临的一个严峻的挑战。DNA序列的处理方法一般是先寻找一种数学模型用以表示DNA,再借助其它工具对其进行分析。支持向量机(SVM)是在统计学习理论基础上发展起来的新算法,该算法是一种模式识别技术,相当于一种模式分类器。其训练算法本质上是一个凸二次规划的求解问题。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并在文本分类、生物信息、语音识别、遥感图像分析、故障识别和预测、时间序列预测、信息安全等诸多领域有了成功的应用[2-41。本文采用SVM算法对DNA序列进行分类。为了提供算法所需要的输入数据格式,首先要将DNA序列用数学模型表示出来。SVM对输入数据的格式要求是表示成特征向量的形式。因此本文从DNA序列中单个碱基...  (本文共55页) 本文目录 | 阅读全文>>

福建师范大学
福建师范大学

基于隐马尔可夫模型的DNA序列分类研究

伴随着人类基因组计划的开展,生物信息学的相关研究工作也在不断地向前发展,近年来,生物学发展的一个突出特征是生物信息量呈指数增长,数据的爆炸式增长对研究者们提出了一个严峻的新问题:怎样才能够高效管理、精确解读并充分利用这些海量信息?深入研究DNA序列对于解读人类基因组所隐藏的结构和功能十分重要,然而DNA序列与数值型数据存在着较大的不同,由于DNA序列完全由非数值符号构成,用于数值型数据的距离度量方法无法直接对其进行度量,与此同时DNA序列碱基之间具有复杂的关系,通过传统特征表示继而使用分类方法进行分类将会出现必要信息损失的问题。受DNA序列自身特点影响,多数在数值型数据上发挥很好的分类方法却在DNA序列分类时不能取得很好的分类结果,需要使用一些独特的方式对其分类。本文从DNA序列的生物学特征及统计学模型入手,研究DNA序列的概率统计特性,围绕两个关键问题:特征表示和基于模型的序列分类,对DNA序列进行深入的分析和分类研究;在深入...  (本文共62页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

基于RBF神经网络的DNA序列分类方法

本文探索了一种基于RBF神经网络的DNA序列分类方法。首先将已知类别的每组DNA序列映射成有意义的特征向量,该向量从不同角度反映DNA序列的特征,由所有向量组成的集合构成了已知序列的最优特征集。本文主要从碱基含量和碱基排列情况两方面提取DNA序列的特征。其中碱基排列方面,本文提出了一种新的特征提取方法——将DNA序列4D表示后对应在两个坐标平面上的点集进行了直线拟合,选用了所有点集的均值以及拟合直线的斜率作为DNA序列的新特征。实验结果表明通过这种方法得到的均值和斜率可以作为DNA序列分类的有效特征。随后,本文选用了具有强大分类能力的RBF神经网络作为分类器,根据已知类别的DNA序列的最优特征集对RBF神经网络进行有效的构建和训练,再将未知类别的DNA序列的最优特征集输入到网络中,根据网络的输出结果判断未知序列所属的类别。实验结果表明本文提出的方法能取得很好的分类结果,证明了本文方法的可行性和有效性。  (本文共66页) 本文目录 | 阅读全文>>

东北农业大学
东北农业大学

基于机器学习的DNA序列分类算法研究

随着人类基因组计划的完成以及测序技术的发展,产生了海量的生物数据。如何从海量的生物数据中挖掘有用的信息是摆在生命信息科学研究者们面前的一道难题,在这样的背景下,生物信息学应运而生。目前,研究DNA序列分类问题已经成为生物信息学中的一个重要的问题,因此,本文要研究的问题是DNA序列分类问题。近年来,随着各种测序技术的发展,导致DNA序列的数据的规模不断增大,机器学习算法在对DNA序列分析中发挥着越来越重要的作用。机器学习通过数学统计知识和算法理论建立有效的学习模型,可以捕捉隐藏于大量DNA序列数据中的复杂模式并基于它们做出决策。因此,本文采用机器学习算法对DNA序列分类进行研究。通过对机器学习各个分类算法的分析之后,采用K近邻算法对DNA序列进行分类。在机器学习算法中,K近邻算法是最简单的算法之一,同时也是一个在理论上比较成熟的方法。该算法计算简单;它的规则是训练样本数据本身,不需要产生另外的数据对其进行描述;由于该算法只考虑与训...  (本文共59页) 本文目录 | 阅读全文>>