分享到:

文本挖掘工具实现非结构化数据价值

大多数非结构化数据以文本文件形式出现,它们通常占一个机构知识存储量的85%,不过要找到、存取、分析和使用这些非结构化数据并不总是很容易。 $$美国道化学公司商业智能中心的研发技术主管Mani Shabrang表示:“信息无处不在,而我们真正需要的是知识,信息只有被发现并综合为知识后才有用。” $$新一代文本挖掘工具能够从大量非结构化数据中提取关键信息,发现信息之间的关系并根据这些关系得出一些结论。尽管使用这类软件工具需要一些具有专门技能的人员,但是很多机构仍考虑采用或正在采用这类软件工具来处理大量文本文件。 $$例如,自2000年以来,道化学公司的研究人员一直使用美国ClearForest公司的ClearResearch软件,从一个世纪的化学专利摘要、已发表的论文和该公司自己的文件中提取数据。Shabrang说:“通过更好地管理信息并去除相互之间没有关联的信息,我们能够缩短研究人员寻找信息的时间。” $$不同的文本挖掘工具可能采...  (本文共3页) 阅读全文>>

《武汉船舶职业技术学院学报》2018年02期
武汉船舶职业技术学院学报

文本挖掘领域研究现状与趋势分析

文本挖掘是近些年来一个新兴研究领域,主要是从大量的、无结构的文本信息中发现潜在的、可能的数据模式、内在联系、规律、发展趋势等,抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程[1]。文本挖掘的研究领域范围较广,主要涉及自然语言处理、机器学习、数据挖掘、信息检索等多个内容,而不同领域的研究者对文本挖掘的应用目的也不同。本文以Web of Science数据库为数据源,利用CiteSpace软件对2007~2016年间文本挖掘主题有关的文献进行可视化分析,以了解文本挖掘领域的研究现状,探测文本挖掘领域研究前沿的发展趋势。1数据来源本文选取WOS数据库为数据源,以2007-2016年共10年为时间跨度,以“text mining”或“text analysis”为检索词进行主题检索,将文献类型设定为“Article OR Review”,共得到4015条文献记录。统计得到2007-20...  (本文共6页) 阅读全文>>

《福建基础教育研究》2016年12期
福建基础教育研究

让标点符号教学“厚实”起来

教学中教师可以通过标点符号激活文本挖掘其背后丰富的情感因子,通过比较标点符号的规范用法和特殊用法,揣摩标点符号的使用,与文本中的人物心灵碰撞,了解人物的内心世界,从而感知主旨,升华主旨。“一字未易忽,语语悟其神。”意思是不单一个汉字能“悟其神”,就是那小小的标点符号也蕴含着奇妙无穷意义。在文本中,标点符号虽不起眼却是不可小觑,其作用有时不亚于单个汉字。学生用好标点符号,写出来的东西才能清清楚楚、层次分明、易于理解。叶圣陶先生说过:“标点很要紧,一个人标点不大会用,说明他语言不够清楚。”对一些特殊的标点符号用法和意义,在教学中教师切勿轻易带过而不加以重视,应让其延伸出文字的未尽之意,让文本“厚实”起来,让标点符号成为理解文本、领会课文情感内涵的解码器。下面,笔者结合课堂实际,谈谈笔者对标点符号教学的一些看法。一、激活,让文本盘活碰到有特殊意义的标点符号,教师要特别留意去“激活”它,从而盘活文本,引导学生关注标点符号背后所传递出来的...  (本文共2页) 阅读全文>>

《当代教研论丛》2017年04期
当代教研论丛

基于文本挖掘的商学院数字创新课程研究

一、引言数字创新(Digital Innovation)是指由IT驱动的企业在产品、过程和商业模式上的革新,其核心和根本目是创造商业价值(Business Value)[1]。由于近些年来IT飞速发展,成本不断降低,易用性越来越强,IT驱动的企业创新在产业界和学术界都备受关注。Fichman,Dos Santos,Zheng对数字创新给商科学生培养带来的影响进行了深入分析,强调了IT作为核心课程在商学院创新教育中的地位及关系;同时认为,商科学生不应将主要精力投入到IT技术细节当中,而应该通过学习IT获得进行数字创新的机会[2]。近年国内受到高度关注的“互联网+”在本质上与数字创新是一致的,前者更强调利用互联网技术对传统企业进行全面创新,而数字创新的范畴更为广泛。虽然国内部分高校已经在本科培养中加入了一些创新类课程,但仍然处于探索阶段。如何利用日新月异的IT技术在商业领域进行创新,尤其是如何培养商科大学生此方面的能力,是我们必须面...  (本文共3页) 阅读全文>>

《中华医学图书情报杂志》2017年03期
中华医学图书情报杂志

文本挖掘在药物靶位研究中的应用

现代新药开发与研究的关键,首先是寻找和筛选药物靶位(drug target)。药物靶位是指机体内具有药效功能并且能被药物作用的生物大分子物质,如某些蛋白质和核酸等。文本挖掘是目前发现潜在药物靶位的新兴手段之一,目前大多数文章都是通过定性和举例来阐述文本挖掘技术在药物靶位领域的研究成果。本文通过构建词篇矩阵等数学模型,以聚类方式更加直观和科学地定量阐述了自1999-2015年该领域的发展情况,希望对相关领域的研究人员选择参考文献和研究方向有所帮助。1资料来源与方法首先对该领域高被引论文进行同被引聚类分析。按照图1所示流程,以((TS=drug target*)OR(TS=drug delivery system))AND(TS=text mining))为检索式在Web of Science中SCI核心文献集进行检索,共下载88篇相关文献,里面包含了4 415篇图2高被引论文聚类分析结果表1高被引论文聚类结果类名高被引论文Clus...  (本文共5页) 阅读全文>>

《科技创新与品牌》2017年04期
科技创新与品牌

文本特征提取研究现状分析与展望

开销,且精确也会受到影响。因此,研究有效的文本特征选择与压缩方法来进行降维处理,是十分必要的。目前有关文本表示的研究主要集中在文本表示模型方法与特征选择算法方面。用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中,采用字、词或短语作为表示文本的特征项。目前大多数中文文本分类系统都采用词作为特征项。(但考虑到文本挖掘的不同具体任务,有时也会将字或者短语作为特征项。)如果把所有的词都作为文本挖掘主要完成从大量的文档中发现隐含知识和模式的任务,一般处理的对象都是海量、异构、分布的文档。传统数据挖掘所处理的数据是结构化存储于数据库当中,而文档都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中表示文本,使之包含足够的信息反映文本的特征。目前的网络信息中80%是以文本的形式存放,Web文本挖掘是Web内容挖掘的重要内容。文本的表示与特征提取是文本挖掘领域中的基本问题。目前通常采用向量空间模型生成文本向量来表示非结...  (本文共5页) 阅读全文>>