我们完成并一直录音整理采用的当代模式

日期:2016-09-14 / 人气: / 来源:网络整理

宋洪鑫,美团美团点评高级工程师2014年参加美团数据平台,专注数据仓库开发解决方案领域。2011毕业于北京邮电大学盘算机系,曾参加阿里巴巴北京商家数据部,从事数据实时盘算工作。

正文:

大家好,我今天的演讲主题是美团点评数据仓库开发模式演进,将美团从零开端一点一滴去建设数据仓库的全部过程展现出来。

近几年,美团团购业务在飞速发展,已经向外卖、电影等多个业务领域实现了横向拓展,之前由单一的数据组统一构建数据仓库的开发模式已经不能满足业务的快速发展需求了,所以我们数据仓库的开发模式由数据组主导转变到了业务方自治。在这个转变过程中我们遇到了诸多问题,比如数据资源隔离、权限把持、数据治理、开发平台等等,我想分享一下我们是如何解决这些问题的,为后来的公司供给一些参考经验。

我叫宋洪鑫,我毕业于北京邮电大学,曾参加阿里巴巴,一直从事数据实时盘算领域方面的工作,2014年参加到美团点评,一直生动在美团点评的数据平台,从事数据仓库开发,数据治理,资源管理与权限把持,目前重要专注在任务例行履行解决方案的方向。

美团数据仓库支撑的业务有餐饮、旅游、电影、外卖、配送、广告、风控等四十多个业务场景,接下来我将从数据仓库开发模式的视角为大家介绍我们美团数据仓库是如何建支撑这么多业务的。

我先对开发模式这个概念做一个解释,它重要是想表达的是数据仓库开发过程中,数据需求方分析师, 业务方数据RD,以及数据平台RD是之间是如何协作的,角色定位是怎样的,以及这个过程中平台机制上是如何支撑的?

按照这个视角对美团数据仓库的在演进过程进行划分,大致可以划分为四个阶段,第一个阶段是史前模式,录音整理,是从2010年到2012年,我们业务刚上线的时候应用的模式,接着是近代模式和现代模式,最后是2015年3月后,我们完成并一直采用的当代模式。这是四种模式都有各自的特点和问题。

第一个模式是史前模式,刚成立的公司更关注的是本身业务的发展,因为只有业务发展了,企业的数据量才会不断增长,数据价值才会更多的体现出来。所以一开端我们没有做系统性的方案,数据分析师和数据组RD之间基础上没有协作,因为这个阶段数据量小、业务需求也比较少,所以技巧也是非常简陋的,一般是数据组RD用手写的脚本工具从业务上抽取数据,然后在服务器内存上进行盘算,把成果以报表的情势推算给业务方。在公司成立之初,这样的方法是最快的,也是最能满足业务需求的。

随着业务量的不断发展,这种简略粗暴的模式裸露了一些问题。这些问题重要集中在两个方面,一个是数据方面,没有集成,脚本工具都是直接从业务源抽取到内存当中,没有进行统一的存放,这样做会导致关联盘算难度非常大;难以复用,没有对一些基础数据做简略统一的加工和处理,每一个需求都要重新算一遍;第二个是工具层面,重复开发的情况比较严重,每个需求RD都要重写一些通用的逻辑,比如数据库的连接导入等功效没有进行统一的抽象;管理混乱,元数据,业务元数据和ETL之间没有进行统一的管理,都是由数据RD自己管理的,所以时间长了就会非常混乱。直接反响的是随着后面业务量的发展,支撑业务需求的效率非常低,不符合美团团购业务的场景。

为懂得决数据集成和复用的问题,我们对数据进行了集成,集成之后我们就开端有了建设数据仓库的想法,把业务数据和流量日志集成到ODS层,然后数据RD针对性的进行数据仓库的建设,对基础数据进行加工。在业务需求方面,会根据业务场景论述主题表,业务方数据需求分析师可以通过自由查询来查询这些主题表,定制化自己所需要的报表,我们创造这时数据RD和分析师之间有了协作;在工具层面上引进了ETL系统,对ETL进行统一管理,在ETL盘算过程中,我们抽象了一些通用逻辑,进步了盘算效率,同时也能够根据系统持续管理元数据之间的关系,

用一句话来概括近代模式那就是由RD包办开端转向RD和数据分析师的协作。

作者:北京速记公司


现在致电 010-63797486 OR 查看更多联系方式 →

Go To Top 回顶部