大数据相关概念

2021/5/22 18:55:51

本文主要是介绍大数据相关概念,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

数据集成

  数据集成是指集成自治、异质的数据源中的数据,为用户提供一个统一全局模式,实现数据共享的问题。数据集成通常有两种实现技术:虚拟(virtual)技术和仓库(warehousing)技术。两种技术都涉及一个关键问题——如何发现数据源系统模式与目标全局模式之间的语义对应关系,来满足查询和分析需要,即模式匹配问题。

 

数据仓库

  数据仓库是决策支持系统,目的是构建面向分析的集成化数据环境,为企业提供决策支持。“面向主体的”、“稳定的”、“集成的”是其三大主要特点。“面向主题的”指数据仓库中的数据是按照一定的主题域进行组织的;“稳定的”是指数据仓库的构建过程一旦完成后其数据将很少被修改或者删除;“集成的”是指数据仓库中的数据来自于多种分散的数据源。

  数据仓库本身不产生数据,而是从其他数据源提取并复制到数据仓库中。由于外部数据源具有多种存储形式,而在数据仓库中需要进行统一的表示,所以模式匹配在这一过程中具有很大作用。

 

模式集成

  模式集成主要目的是将多个数据模式合并成一个统一的全局模式,也称为中间模式。在有些情况这些模式需要被集成以为用户提供一个统一的查询或者访问接口。

  合并这些模式的第一步工作就是确定并描述这些模式间的元素映射关系,这就是一个模式匹配的过程。一旦确定了这些元素间的映射关系,则可以将对应的元素进行合并,进而产生最后的中间模式。

  用户提交作用于中间模式上的查询,集成系统通过映射关系将该查询解释成适合每个单独模式的查询并发送到对应的数据库。根据中间模式对每个数据库的返回结果进行组织,展示给最终的用户。

 

本体合并

  在计算机领域,本体是概念化的明确的规范说明,其定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。本体是用来描述概念与概念之间关系的模型,具有允许知识共用和重用的特点。

  目前,本体主要应用于web服务,但其异构性阻碍了web服务的互操作性。本体合并是其异构问题的有效解决方法,即在原有本体的基础上通过合并产生新的本体,新产生的本体是原有本体的并集,不仅包含它们语义相似的部分,也包含了语义相异的部分。

  本体的合并过程一般包含这样几部分:解析本体、映射本体、生成语义桥以及合并本体。其中,映射本体是指在不同本体的概念或者概念的属性间建立映射关系,对应的概念则表示相同的事物或者对象,对应的属性则具有相同的语义。实际上,这一过程就是模式匹配。



这篇关于大数据相关概念的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程