分享到:

档案主题标引实用算法

档案主题标引实用算法苏新宁,徐进鸿(南京大学信息管理系,南京210093)摘要本文介绍了档案文献主题词自动标引算法,该算法合理地构造了主题词切分词典,并将切分关键词和标引主题词的实现过程融为一体,使标引与检索算法变得简单清晰。本文还给出了主题词切分词典的维护算法,以及自动扩缩检算法。利用本算法思路编制的软件已用于实际的档案管理系统中。PracticalAlgorithmofIndexingDescriptorsforArchive¥SuXinningandXuJinhong(DepartmentofInformationManagement,NanjingUniversity)AbstractThispaperdescribesanalgorithmofindexingdescriptorsforarchive.Thealgorithmorganizesthethesaurusofdescriptorsreasonably,is...  (本文共6页) 阅读全文>>

《农业与技术》2000年01期
农业与技术

文书类档案的计算机自动主题标引研究

1 引言近年来,档案的自动标引研究已受到档案界的重视,许多相应的研究工作已逐步展开。由于多年来档案界多使用主题标引,所以本研究也立足于主题标引。实现计算机主题标引的关键技术有3方面:1在文本中切分出关键词;2在关键词集中分辩出主题词;3如何确定已选取的主题词是否为标引词。目前,汉语文献的自动标引研究已取得了许多成果,比较实用的方法有词典切分标引法,切分标记法,统计标引法,单汉字标引法等。每种方法各有其优缺点。我们研究的对象是文书类档案的全文文本。2 分词词典正确的分词是计算机主题标引的关键。综合考虑档案管理的需要,我们构造了停用字表、单汉字倒排索引及主题词——关键词词典等。主题标引的依据是《中国档案主题词表》,该书对每个主题词提供如下描述:Y:正式主题词D:非正式主题词(代用词)F:分项(概念下位词)S:属项(概念上位词)C:参项其中分项、属项及参项在计算机检索时可用于缩检、扩检与相关检索。由于文本中一般都存在有大量的非正式主题...  (本文共3页) 阅读全文>>

《情报学报》1980年40期
情报学报

文书类档案的主题标引研究

文书类档案的主题标引研究1)许建潮胡明时密林(吉林工学院计算机系,长春130012)摘要本文介绍一种基于全文的主题词自动标引方法。该方法将切分关键词和标引主题词融为一体,合理地构造了词典。本文还给出一个确定标引主题词的加权函数,讨论了一些相关的技术问题。关键词自动标引自然语言处理OnIndexingDescriptorsforDocumentArchiveXuJianchao,HuMingandShiMilin(JilinInstituteofTechnology,Changchun130012)AbstractThispaperdescribesamethodofindexingdescriptorsbasedonfultextfordocumentarchive.Themethodorganizesthethesaurusofdescriptorsreasonably,andisrealizedbymixingbothcu...  (本文共3页) 阅读全文>>

《中国档案》1941年20期
中国档案

档案主题标引的问题与出路

档案主题标引的问题与出路黑龙江省档案局于波,伊爱华档案主题标引实践是从1985年《档案著录规则》颁布以后开始的。对档案进行主题标引,为档案部门引进了一种适于电子计算机应用的、比较先进的检索方法,受到了档案部门的普遍欢迎。但从这些年的实践来看,对档案主题标引工作,普遍存在这样几个矛盾:其一是主题标引要求标引的高度一致性和人工标引的客观不一致性的矛盾。从理论上讲,主题词法克服了标题法、单元词法、关键词法的缺点,具有规范性强、组配性好、存在语义关联关系等优点。但是,相应地,它对标引的要求也就更高了,只有标引的每个主题词都是正式主题词,都是和主题概念相对应的最专指的主题词,才能达到专指性强、网罗度高的要求,才能最大限度地实现检索。然而,在实践上,人工标引很难达到这一点。一是标引深度不好掌握。标引过深,增加了主题词量,查全率相对提高,增加了网罗度,但同时地降低了专指性,加大了误检率;标引过浅,减少了主题词量,专指性增强,但同时造成网罗度较...  (本文共2页) 阅读全文>>

《中国心理卫生杂志》2003年11期
中国心理卫生杂志

CMHJ主题标引常见错误及标引方法与技巧

标引是对文献进行主题分析 ,从自然语言转化成规范化的检索语言的过程。对文献给予分类号标识的过程 ,称为分类标引 ;给予主题词标识的过程 ,称为主题标引[1] 。国家新闻出版署于1999年公布了《中国学术期刊 (光盘版)检索与评价数据规范》 ,要求进入《中国学术期刊全文数据库》的每一篇论文 ,都要提供与该论文主题内容相匹配的检索数据项 ,即规范化、标准化检索标识 ,作为该文献数据库检索入口词。目的是利用计算机加快检索工具的编制速度 ,缩短期刊检索时差 ,简化其数据库的标引工作。国内标准《文献主题标引规则》 (GB7713 -87)规定学术性期刊作者在稿件的特定位置标出 3 -8关键词。所以探讨文献标引的规律 ,有利于临床工作者撰写医学论文时正确地选择相应的主题词 ,提高检索效率。本文以《中国生物医学文献光盘数据库》 (CBMdisc)主题词标引作为比照标准[2 ] ,用同年同期相同文献 ,详细比较了《中国心理卫生杂志》 (CMHJ...  (本文共2页) 阅读全文>>

《图书馆理论与实践》2016年11期
图书馆理论与实践

大数据时代数字资源的主题标引研究

大数据时代,为有效组织数字资源,主题标引特别是自动标引的价值将更加凸显,同时也面临着前所未有的挑战。本文对国内外数十个数字资源数据库的主题标引现状进行了调研,从数字资源的特征、精确检索需求、新词标引、跨语言检索四个角度出发,对数字资源主题标引面临的挑战进行了探讨,并对主题标引的发展趋势进行了论述。1数字资源标引的定义及类型(1)主题标引(Subject Indexing)。是对文献主题及其他有检索意义的特征进行分析、表示、提炼和归纳,然后用某种检索语言(自然语言、受控语言)标写出来,作为信息存储与检索的依据的信息处理过程。[1]按使用主题标引语言(自然语言或受控语言)的不同划分,主题标引可分为受控标引与自然语言标引。受控标引,是指须由事先指定的叙词表(主题词表)中选用相应规范词,对文献进行的标引。自然语言标引,又称自由词标引或自由标引,是指不设规范词表而由标引人员直接选用的文献自然语言词,对文献进行的标引。(2)自动标引,是指利...  (本文共4页) 阅读全文>>