分享到:

企业搜索:激活被遗忘的信息财富

@@@技术前沿@@@$$信息化的风起云涌,提升了工作效率,也创造了更多的价值。与此同时,信息化的发展也带来了信息积累效应。短短几年间,实现了基础信息化建设的企业累积了成千上万的海量数据,信息化建设走在前列的金融企业更是如此。这些数据都是企业的宝贵财富,如果不能有效地加以利用,结果就只会形成占用IT资源的信息垃圾。但是,这些信息往往分散在企业的各个角落,找到它们如同大海捞针,对信息的有效利用更是难上加难。$$在信息化发展快速的国家,对于挖掘这些信息的需求带动了企业级搜索市场的快速发展。美国Ovum Report在对全球软件市场所做的研究报告指出,企业内部的检索需求与Google,Yahoo式的Web检索需求是相当的,呈迅速增长的趋势。据预测,全球企业检索技术的市场规模到2006年将成长288%,高达15,13亿美元。专家也预计,中国的企业级搜索市场更将成为最新的全球增长点。$$企业搜索的挑战$$当今的企业员工,通常都会遭遇这样的情...  (本文共2页) 阅读全文>>

权威出处: 金融时报2006-07-05
《信息通信》2017年08期
信息通信

一种结构化数据源的语义建模方法

0引言知识图[1]是近年来兴起的一种丰富而灵活的领域知识表示方法,。近几年数据呈现出爆炸式的增长,手动构建语义模型需要大量的代价和专业知识,而目前在相关研究中,大都是注重语义标注[2]或是非常有限的关系自动推断。目前的方法效率低且成本高。由于同一领域中不同数据源的通常提供相似或重叠的数据并具有相似的语义模型。利用对应领域的本体知识和已知的语义模型在自动学习一个丰富的语义模型,则可以节约成本,提高效率。使用标记技术[4]为来自本体的一组候选语义类型来注释每个源属性。再从已知语义模型中学习的语义类型和领域本体构建加权有向图。此图模拟了合理语义模型的空间。然后,找到从新源属性到图的节点的最有希望的映射,并且对于每个映射,通过计算连接映射节点的最小树来生成候选模型。1相关技术1.1 Karma信息集成工具Karma是一种信息集成工具,使用户能够快速轻松地整合来自各种数据源的数据,包括数据库,电子表格,分隔文本文件,XML,JSON,KM...  (本文共3页) 阅读全文>>

山东大学
山东大学

非结构化数据资产安全管控系统的设计与实现

电网的业务运行数据是企业的重要资产,具有数量多、产生迅速、多样、价值高等特点。面对多样、海量的数据,公司目前的安全防护手段与技术无法满足大数据环境下的数据安全防护要求。是以,加强大数据的安全防护策略和技术是我们重点研究的问题。本论文主要研究某公司的数据安全研究项目,结合国内外大数据安全的相关技术,调研公司大数据安全环境,研发非结构化数据资产安全技术管控系统,建立围绕公司非结构化数据资产全部生命周期的安全管理控制体系,加强公司数据安全工作建设。本文着重研究非结构化数据资产的安全管控技术,提出基于分类分级模型的非结构化数据资产安全管控系统实现方法。本系统的安全管控目标是非结构化数据,先建立数据分类和数据分级的方法,再将种类繁多的数据资产依据制定好的方法设置级别,使用不同的安全的防护工具在数据的各个传输过程中进行防护,同时提供相关安全取证视图。根据数据价值制定细粒度、差异化的防护策略,基于Hadoop数据库对海量日志进行统计分析,从而...  (本文共87页) 本文目录 | 阅读全文>>

《中国传媒科技》2015年07期
中国传媒科技

结构化数据在信息编辑系统中的应用实现

1前言结构化数据的应用尚处于尝试初期,业务流程和业务应用尚不成熟,需要技术与业务紧密结合、循序渐进,即技术系统滚动开发与业务流程逐渐成熟之间相互促进,以利于开发出更加贴进应用、贴近用户体验的功能和展示效果。2结构化数据的应用实现2.1结构化数据需求描述新华社自上世纪80年代实现计算机系统发稿后,计算机发稿系统随着技术手段的不断创新而不断进行着升级改造。值此新华社实施战略转型的重要时期,信息编辑部对现有计算机发稿系统提出新的应用升级要求,其中需要增加经济类型的数据用做编辑素材及市场应用展示。结构化数据的总体需求是对于各种渠道引入的数据分别按照内部的使用要求和外部用户的使用要求提供使用功能和效果展示。根据引入渠道的不同,将数据源分为三类:一是从社外采购的整块数据源,二是网页上实时自动抓取的数据源,三是手工填报的数据源。能够将整块采购的结构化数据源提供给信息部的编辑和市场用户使用,能够实现网页数据自动抓取、转换、聚类分类,按照不同的使...  (本文共2页) 阅读全文>>

《宁德师专学报(自然科学版)》2007年04期
宁德师专学报(自然科学版)

结构化数据及非结构化数据的分类方法

数据挖掘作为一门新兴的数据分析技术受到越来越广泛的重视,许多高校、研究机构、公司都致力于该领域的研究.在应用上,它也深入到了许多领域,如电信领域中客户关系管理、金融领域中的信用评分与风险管理、网络安全领域中的入侵检测系统、大型超市的购物篮分析、W eb文本数据挖掘和搜索引擎等.数据挖掘包含分类、预测、聚类、关联规则、时间序列分析等几个重要部分.分类作为其中的一个重要分支,其发展和应用也日趋成熟.本文阐述了结构化数据和非结构化数据的基本概念及分类过程;同时对结构化数据和非结构化数据的主要的分类算法及其优缺点进行分析和比较.1基本概念结构化数据一般指存储在数据库中,具有一定逻辑结构和物理结构的数据,最为常见的是存储在关系数据库中的数据;非结构化数据:一般指结构化数据以外的数据,这些数据不存储在数据库中,而是以各种类型的文本形式存放,其中W eb上的一些数据(内嵌于HTML或XML标记中)又具有一定的逻辑结构和物理结构,被称为半结构数...  (本文共4页) 阅读全文>>

西南交通大学
西南交通大学

非结构化到结构化数据转换的研究与实现

当今社会基础技术不断发展,信息化程度不断加深,大量的数字化设备产生了海量数据,使得数据资源与日俱增。这些数据中,以电子文档、邮件、报表、音频、视频、图形图像为主要部分的非结构化数据增长极为迅速,而关系型数据库中的结构化数据则相对比较缓慢。这一现象导致的最为直接的问题便是大量非结构化数据的存储与管理问题。而解决这一问题的关键就是通过“非结构化数据—半结构化数据—结构化数据”实现数据内容从非结构化向结构化的转换,从而对非结构化数据进行统一有效的管理。论文分析了文本文件、Word文档、Excel文档等非结构化文件的结构类型特点,创建对应的文件模板,通过转换程序来读取这些非结构化文件的内容,使用不同的转换规则将其分别转换成为标准的XML文档,再分析XML文档与关系数据库的映射关系,按照一定的转换规则将XML文档转换成为关系数据库表,为传统的基于关系模型的数据库所支持。论文提出了一种非结构化到结构化数据转换模型,增加了元数据提取模块和模板...  (本文共83页) 本文目录 | 阅读全文>>