马武彬 / 技术文档材料 / 大数据时代下的数据集成(一)——ETL流程...

0 0

   

澳门银河棋牌总公司

2018-07-12  金威娱乐城

本文地址:http://2xe.o068.com/content/18/0712/08/57577528_769741983.shtml
文章摘要:澳门银河棋牌总公司,万象城AG捕鱼:对于有些人来说神秘首领身上留了下来心伤魂断之下 每个月将有300万打入你我来挡住他杀。

文章来源:中国联通网研院网优网管部——IT技术研究团队

作者:杨杉

1. 数据集成和ETL

        随着移动互联网、云计算、物联网等信息技术的飞速发展,越来越多的数据被产生,整个社会正在加速进入了“大数据”时代。对于企业来说,数据已经成为企业的财富,也是一种重要的战略资源。但在一个企业中,不同类型的数据通常是分布在若干个独立的信息系统中。以运营商为例,用户的计费和账单信息由信息化或市场部门的经营分析系统生成和维护,而用户在网络中所产生的信令和上网行为记录则由网络运维部门的网络运维系统存储。由于种种历史和现实原因,这些独立的信息系统之间缺少统一的接口,且数据结构差异巨大,造成企业内部的数据融合困难,也无法充分挖掘数据所包含的经济和社会价值。

        如何将这些相互关联的分布式异构数据源集成在一起,能够让上层用户无视不同系统的数据差异,透明的方式访问这些数据,就是数据集成所要解决的问题。下图给出了一个典型的商业智能(BI:Business Intelligence)系统架构。


        上图中给出了一个典型的基于MapReduce的ETL技术架构。 服务端主要包括元数据管理模块、执行引擎模块、数据访问模块。元数据管理模块是系统的基础模块,它描述了系统中所有数据结构的定义,提供元数据存储、访问的服务。系统的其他模块通过公共接口从元数据管理模块获得元数据信息。另外,元数据管理模块提供接口用来导入导出元数据。执行引擎模块是系统的核心模块,又分为流程解析和流程执行两个模块。在流程解析模块,执行引擎获取执行流程的元数据信息,根据这些信息,生成相应的工作流。流程执行模块完成从数据转换到数据解析的所有任务。数据访问模块提供公共的数据访问接口,它屏蔽了各种数据源之间的差异,以一种统一的方式对数据进行查询、删除、修改。

        在基于MapReduce的ETL技术框架下,开发人员只需要Map和Reduce两个函数进行数据转换的并行处理,并基于hadoop生态圈所提供的API接口进行数据抽取和加载。这样可以提高开发效率,而且系统的并行处理能力也有成熟hadoop生态圈得以保证。但是MapReduce程序启动较为耗时,并不适用于数据的实时加载和入库,而且MapReduce作业流程的优化也需要投入大量的时间。

4. 小结

        在本文中我们简单介绍了数据集成,并结合具体案例说明了ETL的主要流程,并对两种分布式ETL技术架构并进行了介绍和比较。在随后的文章中,我们将基于某省级运营商的大数据分析需求,提供相应的ETL技术架构和实现方案。

    本站是提供个人知识管理的网络存储空间,澳门银河棋牌总公司:所有内容均由用户发布,不代表本站观点。如发现有害或侵权内容,请点击这里 或 拨打24小时举报电话:4000070609 与我们联系。

    猜你喜欢

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    银河线上投注手机app 至尊彩票如何开户直营网 天天彩票娱乐 智博彩票代理 皇冠0088开户手机app
    财富DS太阳城棋牌 36sb.com 0am.com sun796.com sun552.com
    sun957.com 657bmw.com 蒙特卡罗娱乐棋牌开户 欧洲娱乐棋牌外围 大发娱乐棋牌总公司
    博狗游戏手机版登入 菲律宾官方直营网 银河娱乐场官方网址手机版下载 bmw551.com 938bmw.com