如果没有改变就录音整理传一个成功标志位

日期:2016-09-07 / 人气: / 来源:网络整理

  【IT168 专稿】本文根据【2016 第七届中国数据库技巧大会】现场演讲嘉宾张粤磊老师分享内容收拾而成。录音收拾及文字编辑IT168@田晓旭@老鱼。

  嘉宾介绍:

张粤磊分享数据处理技巧


▲飞谷云开创人 张粤磊

  张粤磊,飞谷云()开创人,前平安付大数据平台架构师。历经了DBA,到开发工程师,再到大数据平台架构师的转变,有着10余年各行业(制作,咨询服务,互联网金融)一线数据处理及技巧实践经验。

  正文:

  我最早是做数仓和ETL架构系统,后来开端做大数据架构,北京速记公司,现在在自主创业,做了一个技巧分享的网站。这个网站重要是联合我自己目前在做的大数据、数据处理、数据分析的项目,以及圈里朋友的经验技巧来给大家做一些技巧分享。

  我从2005年开端接触DBA工作,2010年在HP 的TRAM项目中担负ETL开发组长,2012年,在外汇交易中心ETL项目担负开发经理,2014年,在平安付做大数据架构师。在这些年的工作过程中,接触了很多数据库,也有一些数据处理的经验想和大家来分享。

张粤磊分享数据处理技巧

  我今天演讲的重要分三个部分,第一部分是分享一下我在传统数据仓库的一些数据处理技巧和配置方面的思考;接下来讲一下大数据环境下,公共数据和行动数据的数据处理技巧;最后会讲一下从传统数据仓库迁移到大数据数据仓库的数据处理实践思考及建议。

  传统数据仓库的数据处理技巧及思考

张粤磊分享数据处理技巧


  我从自己实际参与的大型数据仓库项目出发,和大家分享一下传统数据仓库的数据处理技巧。这个案例融合了我在外资企业、央企、民企、金融行业等等各个行业的项目实践经验,它是涵盖了全部传统数据仓库的标准流程。坦率讲,现在很多企业没有很标准的数据模型。数据模型是国外最早开端做的,比较经典的是惠普和eBay,他们的数据处理和数据模型的领导力比较强,也比较规范和科学,录音整理,这两个团队在整体数据模型方面有一套成熟的方法论。数据处理方法同样实用整体的数据平台。

张粤磊分享数据处理技巧

  做一个数据管理仓库首先要做概念定义,这个一般是针对大型项目,分为企业内部和客户群体两部分,接下来是Portal和对应的权限管理,中间部分是根据实际业务去定义功效,有些功效是比较经典的,还有一些是根据特定业务场景去设计的。再下面一层是我们整体的数据集成层,再底层就是元数据层。

张粤磊分享数据处理技巧

  概念定义的产出一般是SOW,用来表明数据治理要做的功效单位。在这之下是业务定义,细化业务、系统功效,包含客户部分对应的接洽人以及对应的清单,包含报表需要用哪些数据的实现。如果按实际利用来分的话,假设这是一个IT服务系统,下面会分服务管理和性能管理,性能管理又分硬件和软件的管理。

  业务定义之后会有一个业务清单,业务清单里会有详细的业务请求以及相对应的工作项,这样可以保证数据不会涌现遗漏,保证业务落实到位。

张粤磊分享数据处理技巧

  业务定义之后是逻辑定义,逻辑定义划分的就更细了,涉及具体业务怎么实现、由什么来实现。我们通常的做法是选择一些工具来实现报表的权限管理、元数据管理。ETL我们选择了informatics,数据文件的传输,尤其是跨域网站的数据传输,我们也是选用组件来完成的。再底层的话是业务系统,这个业务系统比较详细,一般都会定义到具体的业务名,清单里面也会有系统、接口这些信息。接下来还要进一步细化,比如业务DB的名称后,要去查看它的网段、所在服务器、端口、防火墙等等信息并需要做连通性验证等。这样就实现了从业务层到物理层面的落地。

张粤磊分享数据处理技巧

作者:北京速记公司


现在致电 010-63797486 OR 查看更多联系方式 →

Go To Top 回顶部