分享到:

企业搜索:激活被遗忘的信息财富

@@@技术前沿@@@$$信息化的风起云涌,提升了工作效率,也创造了更多的价值。与此同时,信息化的发展也带来了信息积累效应。短短几年间,实现了基础信息化建设的企业累积了成千上万的海量数据,信息化建设走在前列的金融企业更是如此。这些数据都是企业的宝贵财富,如果不能有效地加以利用,结果就只会形成占用IT资源的信息垃圾。但是,这些信息往往分散在企业的各个角落,找到它们如同大海捞针,对信息的有效利用更是难上加难。$$在信息化发展快速的国家,对于挖掘这些信息的需求带动了企业级搜索市场的快速发展。美国Ovum Report在对全球软件市场所做的研究报告指出,企业内部的检索需求与Google,Yahoo式的Web检索需求是相当的,呈迅速增长的趋势。据预测,全球企业检索技术的市场规模到2006年将成长288%,高达15,13亿美元。专家也预计,中国的企业级搜索市场更将成为最新的全球增长点。$$企业搜索的挑战$$当今的企业员工,通常都会遭遇这样的情...  (本文共2页) 阅读全文>>

权威出处: 金融时报2006-07-05
《中国数字医学》2017年09期
中国数字医学

一种基于大数据技术快速处理医疗文本的方法

1背景医疗数据中存在大量非结构化、半结构化数据,如电子病历、病理诊断、彩超诊断。这些记录中包含大量有价值的信息,但都是以自由文本的形式记录。如何从这些数据中提取出有价值的指标,实现非结构化、半结构化数据的结构化,是利用医疗数据进行分析需要解决的难题。大数据的出现,提供了针对大量非结构化、半结构化数据的存储、计算的能力,结合指标提取技术,能够实现快速从文本中提取指标,实现指标结构化。2指标提取解决方案方案中,ETL工具完成数据抽取、加载、转换,No SQL、HDFS提供安全的存储,Spark指标提取工具结合Spark计算引擎和以自然语言处理技术为基础的分词技术实现指标提取,New SQL数据库用于存储解析后的结构化数据(见图1)。2.1使用ETL工具完成数据加载为了不影响医院正常生产库的日常使用,我们使用ETL工具,将数据抽取加载到大数据平台之后,在大数据平台中进行进一步的解析处理。在大数据ETL工具中,可以设定定时增量任务,在夜...  (本文共3页) 阅读全文>>

《数字图书馆论坛》2006年05期
数字图书馆论坛

非结构化数据向结构化数据转换的新技术

专门从事内容转换研究的Exegenix公司日前研发出了采用XML的转换技术,可以简化从非结构化数据到结构化数据的转换。这_技术可以帮助保险、金融服务以及卫生保健等领域的组织机构消除结构化与非结构化数据之间的障碍。IBM的下一代"Viper"版DB2数据库中添加了_个本地的XML存储器,专门用来实现XML和相关系统的结合。大多数非结构化格式下的内容是不适应目前的XML内容应用技术的,这些格式包括PDF.Word.WordPerfect等。几乎所有的将非结构化数据转化为结构化数据的方法都是基于"映射"的思想,按照_种明确的XML结构来手动指定格式编码的组合。...  (本文共1页) 阅读全文>>

《现代商贸工业》2017年13期
现代商贸工业

利用VBA进行结构化数据审计研究

1 什么是VBA和结构化数据VBA是“Visual Basic for Applications”的简称,它是微软Visual Basic的宏语言版本,也可以说是一种应用程式视觉化的Basic脚本,用于编写基于Windows的应用程序,内置于多个微软程序,特别是office系列的excel、word、power point中。通过Visual Basic编辑器可以通过编写或修改代码来创建宏,宏是一系列命令和指令的组合,可以作为单个命令执行来自动完成某项任务,特别是需要频繁使用的任务。掌握了VBA,可以将多个步骤的手工操作变得简单迅速,而且通过可视化的界面,可以将结果更清晰的呈现出来。例如,企业的销售部门有统计合同信息的excel表格,相应的采购、生产仓储部门都有自己的统计信息表格,每月为了统计合同执行情况,分析人员可以先抓取合同统计表中的合同号,然后在其他表格中按合同号筛选对应记录,再把相关信息手工粘贴到新的表格中,如果合同较多...  (本文共2页) 阅读全文>>

《信息通信》2017年08期
信息通信

一种结构化数据源的语义建模方法

0引言知识图[1]是近年来兴起的一种丰富而灵活的领域知识表示方法,。近几年数据呈现出爆炸式的增长,手动构建语义模型需要大量的代价和专业知识,而目前在相关研究中,大都是注重语义标注[2]或是非常有限的关系自动推断。目前的方法效率低且成本高。由于同一领域中不同数据源的通常提供相似或重叠的数据并具有相似的语义模型。利用对应领域的本体知识和已知的语义模型在自动学习一个丰富的语义模型,则可以节约成本,提高效率。使用标记技术[4]为来自本体的一组候选语义类型来注释每个源属性。再从已知语义模型中学习的语义类型和领域本体构建加权有向图。此图模拟了合理语义模型的空间。然后,找到从新源属性到图的节点的最有希望的映射,并且对于每个映射,通过计算连接映射节点的最小树来生成候选模型。1相关技术1.1 Karma信息集成工具Karma是一种信息集成工具,使用户能够快速轻松地整合来自各种数据源的数据,包括数据库,电子表格,分隔文本文件,XML,JSON,KM...  (本文共3页) 阅读全文>>

华中科技大学
华中科技大学

基于Redis的结构化数据缓存系统的设计与实现

随着数据规模的不断扩大和用户数量的急剧增加,传统的结构化数据库访问面临的压力越来越大,提高MySQL等结构化数据库的读写性能成了一个亟待解决的问题。Redis内存数据库将所有数据放于内存中进行管理,大大提高了数据访问的性能,适用于数据缓存管理。在Redis中设计缓存策略实现结构化数据的缓存对减轻MySQL数据库访问压力和提高读写性能具有重要的理论意义和实用价值。在对结构化数据的数据特征、存取过程深入分析的基础上,使用结构化数据库和代理服务器的架构,并在代理服务器上部署了Redis内存数据库,在Redis上设计并实现了针对结构化数据的缓存系统。针对部分查询结果集过于庞大的情况,设计了一种基于用户查询频率、读写比例等行为的前缀缓存方法,缓存块中仅仅缓存前缀部分数据。当用户实际需求增加时,即时扩大缓存块,补充用户需求的数据;当用户对该块数据需求减少时,则采用惰性更新方案设置待更新标志,等待内存不足时统一进行内存空间的压缩。该方法不仅可...  (本文共63页) 本文目录 | 阅读全文>>