分享到:

基因表达数据的集成、分析和可视化

随着人类基因组计划的完成以及分子生物学等相关学科的发展,基因组学的研究重心开始从揭示生命的所有遗传信息转移到分子水平功能的研究上。生物信息学的研究重心也随之由基因组序列转移到序列生物学意义的研究上。在后基因组时代,生物信息学主要研究基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。由芯片技术产生的基因表达数据包含了丰富的生物过程信息,这些信息在人类疾病相关研究中有着重要的作用,基因表达与基因功能相结合也成为研究基因调控机制的一个重要手段。如何有效地分析利用这些数据成为生物信息学研究的中心任务。为了推动基因组学的研究,我们实验室建立了基因表达调控信息集成数据库系统(GRI)。目前GRI系统的数据主要是以基因调控信息为主;GRI系统提供了基因调控信息复合查询工具和基因相关信息下载工具。为了更好地研究基因的功能,为相关领域的科研工作者提供数据挖掘和分析的平台,本文将基因表达数据集成到GRI系统中  (本文共73页) 本文目录 | 阅读全文>>

《国外医学(临床生物化学与检验学分册)》2004年04期
国外医学(临床生物化学与检验学分册)

基因表达数据的聚类分析

随着大规模基因表达数据获取方法的发展 ,产生了大量的基因表达数据。聚类分析即是一种目前应用较广的基因表达数据计算学分析...  (本文共4页) 阅读全文>>

西北工业大学
西北工业大学

基因表达数据挖掘关键技术研究

基因微阵列是实验分子生物学中的一个前所未有的突破,其使得研究者可以同时监测多个基因在多个实验条件下的表达水平的变化,进而为发现基因协同表达网络、研制药物、预防疾病等提供技术支持。随着基因微阵列技术的飞速进步,大量的基因表达数据和相应的挖掘结果(保序子矩阵,Order-Preserving SubMatrix,OPSM)积累下来,同时也不能方便且完全的为生物学家所利用。因此,亟待研究和设计探索与分析这些丰富数据资源的相关方法与技术。近年来,学术界提出大量的关于基因表达数据中保序子矩阵OPSM的批量挖掘的算法,且具有良好的挖掘性能。当面对海量的、含有噪声的且分布式并行环境时,已有的OPSM挖掘方法存在如下问题:(1)在分布式并行环境下,如何在减少数据通信并充分利用计算资源的情况下,保证挖掘结果的准确性与完整性;(2)如何不通过挖掘而直接从索引好的基因表达数据中检索出所需要的OPSM;(3)如何为大量积累的OPSM设计索引与查询技术,...  (本文共137页) 本文目录 | 阅读全文>>

广东工业大学
广东工业大学

基于规则的跨平台基因表达数据分类研究

为了探索关于人类自身的编码而启动的人类基因组计划经过近三十年的努力已基本完成。随之而来产生了大量的生物分子数据,这些高维的数据内具有丰富的信息,其背后隐藏着人类尚未充分了解的关于自身的知识。利用数学、统计学与计算机科学相关方法帮助生物学家从海量信息中发现有价值的信息,促进人类医学研究领域的进步,这一迫切需求促进了生物信息学这一学科的快速发展。cDNA微阵列和寡核苷酸芯片等高通量检测技术应用至今已经积累了大量来自不同平台的数据,从现有数据中得到分类模式并应用于新的样本对基因表达数据挖掘工作具有重要意义。由于基因表达数据集的大都具有小样本,高维度的特性,在同一个平台上的少数样本数据相对于高维特征来讲是极其有限的。数据集样本数量的稀疏性在与特征的高维度性相叠加造成了维度灾难,导致难以从单个小样本数据集上提取鲁棒的关键信息。如果能够将GEO多个平台上的基因表达数据结合起来,通过增大样本数据量缓和维度灾难问题,这对于相关的研究工作是十分有...  (本文共53页) 本文目录 | 阅读全文>>

中国计量大学
中国计量大学

面向基因表达数据的代价敏感学习优化方法

利用机器学习的方法对基因表达数据进行分类,可以有效的对癌症等疾病进行早期识别诊断,对人类健康水平的提高有十分重要的意义。决策树算法及相关的集成算法由于容易理解,结构简单等特性而被广泛的应用。但由于基因表达数据分布不平衡的特点,传统的分类算法在基因表达数据分类方面的表现还有待提高。代价敏感算法可以有效地弥补传统分类器只注重分类精度的片面性。同时,代价敏感算法本身由于缺乏适当的评价标准与合理的参数确定方法,同样需要进一步优化提高。针对上述问题,本文进行了以下研究:(1)基于旋转森林算法在处理基因表达数据分类时的优势,提出了一种针对基因表达数据分类的代价敏感旋转森林算法。通过将误分类代价、测试代价和拒识代价嵌入旋转森林算法中,构造代价敏感旋转森林算法。实验结果表明,代价敏感旋转森林算法可以在保证分类精度的基础上有效地降低分类代价。(2)结合几种常用的评价指标,提出一种针对代价敏感算法的分类精度计算方法,以平衡精度替换总体精度来有效的评...  (本文共59页) 本文目录 | 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

基于深度学习的基因表达数据处理在药效预测上的应用

药物的早期筛选通常需要经过药物设计、细胞实验、动物实验与临床实验等步骤,一个新药的研发与筛选通常需要耗费将近十年的时间以及上百亿元,而这些花费可能因药物在人体中的不适应性、无效性、毒性等原因而无效。因此,基于人类细胞的基因表达数据与深度学习方法相结合,对新药物效应预测的研究能够减少药物的早期筛选过程中的额外花费,并为提升新药探索的成功率作出贡献。本文利用寻找拓扑图中最短路径的算法来对基因互作网络的上下文来进行捕捉,并将捕捉到的基因上下文用于训练机器学习算法,生成最终能够代表每个基因功能与意义的基因向量。基于这些基因向量与细胞的基因表达数据,最终整合出能够代表每个细胞各方面状态的细胞向量,并通过查看药物处理前后细胞状态的改变来判断药物对细胞的效应。这种方式能够从更宏观的,即整个细胞的状态变化角度,来判断药物在人类细胞中产生的效应。为了预测药物对人类细胞基因表达的改变,本文构建了以药物分子结构为输入,细胞状态变化为输出的深度学习模型...  (本文共99页) 本文目录 | 阅读全文>>