博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据平台架构思考
阅读量:6843 次
发布时间:2019-06-26

本文共 648 字,大约阅读时间需要 2 分钟。

笔者早期从事数据开发时,使用spark开发一段时间,感觉大数据开发差不多学到头了,该会的似乎都会了。在后来的实践过程中,发现很多事情需要站在更高的视角来看问题,不然很容易陷入“不识庐山真面目”的境界。最近在思考数据资产管理平台的建设,进行血缘分析开发,有如下感悟:

大数据平台从数据层面来说,包括数据本身和元数据;从业务层面来说,在数据中心(数据仓库)的基础上,支撑数据分析、数据挖掘,提高其分析、挖掘效率;从管理角度来说,为了提升开发效率,需要利用好组件管理平台,对元数据进行管理,打造数据开发运维平台。

在此基础上,一个完善的大数据架构,至少包括三个方面:

  1. 开发组件管理平台:用于搭建和管理大数据开发组件,如etl、hdfs、hbase、presto、kerbose等;
  2. 数据资产(元数据)管理平台:元数据采集、元数据管理、血缘分析、数据质量、数据标准、数据指标、数据生命周期管理等。
  3. 开发运维平台:数据脱敏、权限管理、调度管理、开发管理、发布管理、运维监控与预警等等。

大数据架构设计需要兼顾不同需求,根据不同的数据分析、数据挖掘场景,在资源限制与性能要求下,提供不同的平台方案。

对于大数据架构师,不仅要熟悉各种组件的使用及其适用场景,还需要熟悉组件管理、元数据管理、开发运维管理等。其搭建的平台,能否提高数据分析效率,能否提高数据挖掘的效率,能否保证数据质量,能否打通整个数据链条等。

转载于:https://www.cnblogs.com/small-k/p/9943939.html

你可能感兴趣的文章
Spring boot 远程调试
查看>>
BZOJ1856: [Scoi2010]字符串(组合数)
查看>>
【强化学习】python 实现 saras lambda 例一
查看>>
基于GPU屏幕空间的精确光学折射效果
查看>>
数据交换=>Windows_Mobile+WCF+Exchange2007 - part1
查看>>
POJ-2502 Subway
查看>>
python调用Shell脚本:os.system(cmd)或os.popen(cmd)【转】
查看>>
wifi简介
查看>>
C++默认构造函数
查看>>
margin-top失效的解决方法
查看>>
FireBug与FirePHP
查看>>
使用socket方式连接Nginx优化php-fpm性能
查看>>
JS转义 escape()、encodeURI()、encodeURIComponent()区别详解
查看>>
cocos2dx 编写shader 遇到 溢出问题
查看>>
OC与JS互相调用
查看>>
IT持续集成之质量管理
查看>>
用jquery追加的元素不能触发treeview事件
查看>>
java代码走查审查规范
查看>>
各大Oj平台介绍 刷题平台
查看>>
MyEclipse------如何连接MySQL
查看>>