随着互联网的不断发展,大数据技术在企业数据平台搭建过程中发挥了重要的作用。今天我们就一起来了解一下,企业级数据平台建设都有哪些阶段以及稳定性需求。
主要分三个阶段:
刚开始是基本使用免费的三方平台,这个阶段的特点是能快速集成并看到 app 的一些统计指标,但是缺点也很明显,没有原始数据除了那些三方提供的基本指标其他分析、推荐等都无法实现。所以有从 0 到 1 的过程,让我们自己有数据可以用;
在有数据可用后,因为业务线、需求量的爆发,需要提高开发效率,让更多的人参与数据开发、使用到数据,而不仅仅局限于数据研发人员使用,所以就涉及到把数据、计算存储能力开放给各个业务线,而不是握在自己手上;
在当数据开放了以后,业务方会要求数据任务能否跑得更快,能否秒出,能否更实时;另外一方面,为了满足业务需求集群的规模越来越大,因此会开始考虑满足业务的同时,如何实现更节省资源。
数据采集是数据的源头,在整个数据链路中是相对重要的环节,需要更多关注:数据是否完整、数据是否支持实时上报、数据埋点是否规范准确、以及维护管理成本。因此我们的日志采集系统需要满足以下需求:
能集成管理维护,包括 Agent 能自动化部署安装升级卸载、配置热更、延迟方面的监控;
在可靠性方面至少需要保证 at least once;
美图现在有多 IDC 的情况,需要能支持多个 IDC 数据采集汇总到数据中心;
在资源消耗方面尽量小,尽量做到不影响业务。
数据开放及平台稳定性
有了原始数据并且能做离线、实时的数据开发以后,随之而来的是数据开发需求的井喷,数据研发团队应接不暇。所以我们通过数据平台的方式开放数据计算、存储能力,赋予业务方有数据开发的能力。
对实现元数据管理、任务调度、数据集成、DAG 任务编排、可视化等不一一赘述,主要介绍数据开放后,美图对稳定性方面的实践心得。
数据开放和系统稳定性是相爱相杀的关系:一方面,开放了之后不再是有数据基础的研发人员来做,经常会遇到提交非法、高资源消耗等问题的数据任务,给底层的计算、存储集群的稳定性造成了比较大的困扰;另外一方面,其实也是因为数据开放,才不断推进我们必须提高系统稳定性。
节选:公众号:美图技术
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。