分享到:

视频检索中关键帧抽取方法的研究

今天视频检索的重要性已经越来越被人们所重视。视频信息检索技术是一门以多学科理论为基础,融合了多种技术方法的综合性技术,它主要涉及计算机图形学,模式识别,认知科学,图像处理,数据库管理系统,人工智能等等,所以目前真正实现对视频信息内容的描述和检索是相当困难的。在视频检索领域,研究关键帧抽取的问题是非常重要的一环。本文主要针对视频关键帧的抽取方法进行了研究与探讨。本文首先介绍了视频信息检索技术的发展与应用,并对数字视频的特点,结构及其压缩原理进行了详细地研究,归纳与总结。其次本文对视频帧图像的颜色特征的描述及提取进行了详细研究。关键帧提取方法的研究是本文的核心组成部分,本文在参阅大量文献的基础上,对当前的关键帧提取的方法及其相关技术进行了较为详细的讲解和总结。最后本文设计了一个基于颜色特征的关键帧提取的实验系统,实现了直方图平均法,定帧数和不定帧数的内容分析方法这三种关键帧提取算法,并对全文进行了总结。  (本文共70页) 本文目录 | 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

多层次表达的事件抽取方法研究

在当今信息化时代下,信息抽取技术帮助人们从海量数据中获取信息、理解信息。事件抽取是信息抽取领域中的一个重要的子任务,旨在从无结构化文本中抽取出有结构的事件。事件的表达方式是指系统采用不同事件表示单元展示事件的方式,例如,由单词组成的集合或预先定义好的事件模板。事件的表达方式影响着事件的可理解性,即人们是否能够从抽取出的事件表达中获取完整的事件信息。本文主要研究了事件的多层次表达方式对事件的可理解性的影响,具体包括基于短语级、子句级、文档级、多文档级事件表示方法。(1)提出了一种基于多特征分类过滤的事件抽取方法。基于片段的事件抽取方法是当前主流方法之一。片段是对社交网络文本进行切割得到的短语级表达单元,大多是实体和常见短语。和传统的基于单词的事件抽取方法相比,基于片段的方法具有同样高的效率,还具有更高的事件可理解性。针对候选事件中难以区分热点话题和新闻事件的问题,本文提出采用融合多特征的新闻事件分类方法替代现有的基于统计值的新闻度...  (本文共129页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

面向小样本不平衡数据的生物医学事件抽取方法研究

随着分子生物领域文献呈现爆炸式增长,科研人员要从海量的非结构化或半结构化电子文献中获取需要的特定知识,传统的阅读方式已经不能满足人们的需求。最近几年,研究者们利用文本挖掘技术在生物医学领域进行命名实体识别,关系抽取任务。然而仅仅这些不足以帮助科研工作者们理解持续增长的复杂生物医学文本。因此,生物医学的文本挖掘技术从命名实体识别和关系抽取逐渐转变到细粒度的复杂事件抽取。生物医学事件抽取旨在抽取生物过程中的语义和角色信息,这种事件通常具有复杂的结构,并且具有多种类别。而采取结构化的知识获取生物医学事件的表示是至关重要的,通过有效且准确的方法抽取生物医学事件也是必然的。生物医学事件抽取有助于基因本体库、蛋白质关系库和通路数据库等的挖掘整理工作和研究效率。现存的生物医学事件语料库存在两个问题。第一,小样本问题。当语料库的样本过少时容易产生过拟合,并且容易造成分类结果精确率较高,但召回率较低;如果进行人工标注样本则需要花费巨大的代价。第二...  (本文共108页) 本文目录 | 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

医学领域知识抽取方法研究

知识抽取是将信息源中的知识进行分析、识别、理解、关联的过程,而抽取自然语言文本中的实体和实体关系是知识抽取的一个重要研究内容。在通用领域,从互联网等无结构文本中抽取实体与实体关系的抽取方法,通常综合应用了词性标注、命名实体识别、文本分类等诸多自然语言处理技术,已被广泛应用于构建知识图谱。对于医学领域,虽然临床诊疗记录、医学文献等医学文本中积累了海量的医学知识,但由于医学领域中知识抽取的复杂性和应用标准的严格性,目前绝大多数医学知识库依旧依赖于专家手工构建。因此,应用于医学领域的知识抽取方法亟待进一步的研究。本文从自然语言处理角度出发对医学文本中医学知识抽取面临的实际问题进行研究,目标是更准确地从医学文本中自动抽取医学领域实体和实体关系。研究将医学领域知识抽取分为三个主要步骤:首先从医学文本中抽取实体描述,然后将抽取的医学实体描述对应到标准实体上,最后从医学文本中抽取关系以建立标准实体间关联关系。此三步分别对应实体识别(Entit...  (本文共123页) 本文目录 | 阅读全文>>

军事科学院
军事科学院

疾病相关实体关联抽取方法研究

随着当今经济水平持续提高,科学技术迅猛发展,生活水平日益改善,人民健康水平逐步提高,人们对于生命健康提出了更高的标准,对疾病的预防和治疗也有着更高的要求。生物医药公开文献中记录了大量经过实践得到的知识,蕴含着巨大的宝藏,有助于了解疾病相关影响因素,指导疾病防治。但是近年来生物医药文献快速增长使快速及时发现或找出疾病相关影响因素变得更加困难。仅仅生物医药领域的权威数据库Pub Med收录的文献已经高达2800多万条,科研人员越来越难以快速发现高质量、可用性的知识。而当前计算机技术和自然语言处理技术的发展不断带来新的突破,在文本检索、机器翻译、命名实体识别、关联抽取、摘要提取、智能问答等方面都取得了优秀成绩。因此,充分利用先进的技术在疾病关联因素中发挥作用,从中抽取出能够指导疾病预防、治疗、禁忌等相关因素有助于快速全面发现对抗疾病的方法,具有十分重要的意义。本研究主要采用文献调研、比较分析、机器学习和统计分析等研究方法,对实体关联抽...  (本文共103页) 本文目录 | 阅读全文>>

北京交通大学
北京交通大学

医学疾病表型实体及其关系抽取方法研究

随着信息和数字化技术的应用,医学领域形成了大量的数字化知识和数据,但截至目前,大部分的医学知识和数据仍以非结构化的文本为主要表达形式,如临床电子病历,中医古籍(如黄帝内经,伤寒杂病论,本草纲目等)和现代医学文献等。从这些大规模文本信息中提取结构化信息是进行深入医学分析和利用的前提,是目前医学数据挖掘的主要瓶颈之一。本文结合表型实体及其关系的抽取问题,分别对临床病历,中医古籍和PubMed题录文献进行人工规范化标注,构建信息抽取标准数据集,然后进行表型命名实体识别及不同实体间关系抽取方法的研究。主要研究工作包括以下三个方面:第一,首先构建10426个现病史症状表型实体识别标准数据集,并且分别应用条件随机场(CRF)和结构化支持向量机(SSVM)进行实体抽取,重点比较分析了传统特征、基于深度表示的字词特征学习方法(Word2Vec和Node2Vec)的性能差异。实验分析发现,基于传统特征的CRF方法的F1值为0.83,而基于Word...  (本文共71页) 本文目录 | 阅读全文>>