分享到:

基于语言模型的信息检索系统研究

基于语言模型的信息检索范型为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。针对该方法现存的问题,本论文从理论探讨和实际系统开发两个不同的角度来对以下内容进行了研究:(1) 提出了触发语言模型检索方法。通过“相关比率算法”从训练语料得到词汇在一定上下文中的同现词汇,在此基础上提出了新的算法来计算查询条件的触发词汇集合来明确查询条件的主题,并将相关参数引入文档语言模型形成触发语言模型。(2) 探讨了Kullback—Leibler语言模型框架中的相关反馈机制并提出了两种相关反馈技术:混合语言模型方法和词汇重要性分布方法。这两种查询反馈方法都以一种比较自然的方式将相关反馈技术集成到了语言模型检索框架中。实验结果表明这两种方法明显地提高了检索系统的性能,平均查准率分别比Kullback—Leibler模型提高了19.89%和24.07%。(3) 提出了基于主题语言模型的信息检索系统。首先我们提出了“改进的两阶段K-Means  (本文共149页) 本文目录 | 阅读全文>>

东华大学
东华大学

区域医疗专家预约云服务系统的建模与优化研究

“挂号难”一直是我国医疗制度中的痛点,作为上海市医疗体系中各个三级医院的专家门诊更是一号难求。造成这种现象的主要原因:一方面是医疗专家资源紧缺;另一方面是患者在预约挂号选择医生时盲目性大、选择就医专家过于集中。上海市各大医院分别建设了各自的医疗专家预约系统,但这种条块分割的建设及运营模式,使得全上海(区域)的医疗专家预约资源各自为政,无法有效地将专家资源整合与共享。随着互联网+医疗的进程不断发展,急需以互联网思维来思考并提出一种新型的区域医疗预约服务模式,所以研究一个区域型、共享、便民的医疗预约云服务系统的需求也应运而生。本文研究目的是整合上海申康卫生医疗集团麾下38家市级医疗机构的医疗专家信息资源,建设一个统一、方便患者使用的区域医疗专家预约服务系统。本文着重研究了疾病知识、主诉文本、医生身份资源的表述、解析、检索和管理,将大数据和云计算技术与医疗预约服务业务进行了高度融合,提出了一种区域医疗专家预约云服务系统的新型模式(简称...  (本文共176页) 本文目录 | 阅读全文>>

江西师范大学
江西师范大学

基于中间语义的跨语言信息检索研究

随着国际互联网的快速发展,Internet上信息资源类型和数量都愈来愈丰富,所使用的语言亦愈来愈具有多样性和不平衡性;同时随着网络用户数量与范围的急剧膨胀,其所掌握的语言也开始呈现多样化。由于网络资源语种的多样性和网络用户所掌握语言的差异性不可避免地给人们利用网络检索信息带来了语言障碍,例如网络中65 %以上的信息都是英语信息,而使用英文的网络用户仅占约30 % ,这给非英语国家用户利用网络信息带来了极大的不便。不仅在互联网中,在所有同时存在多语种的信息系统(如数字图书馆)中,这种语言障碍都限制了人们对信息的有效获取,影响了多语种信息价值的充分发挥。从上世纪90年代末开始,人们对信息检索提出了更高的要求,即不再满足于在同一语种中进行检索,而要求在检索结果中包含多种语种的相关信息。为解决人们在从多语种信息系统中获取信息的过程中存在的语言障碍问题,研究学者提出了使用一种语言即可以方便地检索出系统中存在的所有语种相关信息的方法和技术,...  (本文共57页) 本文目录 | 阅读全文>>

内蒙古大学
内蒙古大学

基于语言模型的个性化信息检索的方法与实现

由于互联网的快速发展,在繁多纷杂的信息中,如何辨别用户的真实意图,准确的从浩瀚的信息资源中找到所需的信息,成为当前信息检索领域一个较为关注的问题。在当今技术较为成熟的搜索引擎网站上,查全率及响应速度已经做得很好,但在查准率上始终难以让用户满意。信息检索的主要目的,即:从众多的文档中找到符合用户查询需求的文档。传统的查询扩展重视原问句的扩展,但是忽略了扩展后查询问句中存在许多不必要的词汇,从而又阻碍了扩展后查询的准确性,因此不能从根本上表达用户查询意图。本文将从用户的个性化角度,对查询扩展进行研究。本文为个性化的研究看出了两种检索方法,即:用户查询扩展模型和去掉扩展词的停用词表方法,两种方法的基本思想是源于查询优化,对用户的查询进行查询扩展或是查询词的删减。用户模型主要是通过结合个体用户所涉及到的主题领域对其查询问句进行扩充,扩展后的新查询可以提高用户的准确率和查全率。而去掉扩展词的停用词是将通过原始查询进行伪相关扩展后的新查询问...  (本文共64页) 本文目录 | 阅读全文>>

新疆大学
新疆大学

基于字符N元模型的维吾尔文全文检索研究

在以往的维吾尔文全文检索系统中,由于维吾尔文本身构词方式及形态的灵活多样性,不可避免地需要进行词干切分,并以词干作为索引项建立索引,然而切分工具本身的不足和局限性,使得对一部分的词干无法准确识别或识别错误,间接地降低了检索系统的检索效果。为了解决以上问题,本文根据维吾尔文的构词特点,通过切分适当长度的字符n-gram来构建索引,并在该索引之上建立了N元语言模型,同时在建立语言模型过程中,为了解决单个文档模型的数据稀疏问题,选取合适的平滑算法对文档语言模型和语料库语言模型分别进行优化,为使检索结果更加准确,在评分过程中采用了多个模型混合的评分策略。最后,利用Lucene开源工具实现了一个基于字符N元模型的维吾尔文全文检索系统,并通过python爬虫抓取维吾尔文新闻语料进行检索测试,测试结果表明使用参数为2000的Dirichlet平滑算法的字符长度为3和字符长度为4的混合一元模型具有最好的检索效果,同时该方法较传统的方法有所提升。  (本文共59页) 本文目录 | 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

基于语言模型的文本检索技术及检索结果重排序的研究

信息检索(Information Retrieval, IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索模型将给出不同的相似度计算,从而影响最终的返回结果。因此,对检索模型的研究和改进对于信息检索有着十分重要的意义。2005年863信息检索评测是本文的一个重要课题背景。本文首先介绍了在2005年863评测中构造的信息检索系统使用的各种文本处理技术,如超文本正文提取、分词、全文索引、查询自动生成等等。这些技术是多检索模型融合研究的基础。向量空间模型VSM是得到广泛应用的经典检索模型之一。可是VSM本身排序策略是经验性强的公式,而且没有深入到语言层面。为了利用语言知识进行检索,近年来基于统计语言模型(SLM-based)的信息检索得到了快速发展。本文研究重点之一是研究SLM-based语言模型中Ponte、GLM模型在中文检索测试集上的表现,并与经典的...  (本文共70页) 本文目录 | 阅读全文>>