大数据平台架构技术选型与场景运用_亚博集团 - 亚博集团|官方

当前位置:首页 > 探索 > 科学

大数据平台架构技术选型与场景运用_亚博集团

2020-10-09 15:00:02

讲师从数据来源、数据源结构、数据变化程度和数据规模等4个维度对数据源展开分类,数据源分类维度的有所不同要求最后的技术选型。讲师还对数据源分类的定义及选型方式展开详尽介绍,最后联系到大数据的应用于场景,让数据应用于方式更为直观。一、大数据平台大数据在工作中的应用于有三种:与业务涉及,比如用户画像、风险掌控等;与决策涉及,数据科学的领域,理解统计学、算法,这是数据科学家的范畴;与工程涉及,如何实行、如何构建、解决问题什么业务问题,这是数据工程师的工作。

亚博集团

数据工程师在业务和数据科学家之间搭起起实践中的桥梁。本文要共享的大数据平台架构技术选型及场景运用偏向于工程方面。如图所示,大数据平台第一个要素就是数据源,我们要处置的数据源往往是在业务系统上,数据分析的时候有可能会必要对业务的数据源展开处置,而是再行经过数据采集、数据存储,之后才是数据分析和数据处理。

从整个大的生态圈可以显现出,要已完成数据工程必须大量的资源;数据量相当大必须集群;要掌控和协商这些资源必须监控和协商分派;面临大规模的数据怎样部署更加便利更容易;还牵涉到日志、安全性、还有可能要和云端融合一起,这些都是大数据圈的边缘,某种程度都很最重要。二、数据源的特点数据源的特点要求数据采集与数据存储的技术选型,我根据数据源的特点将其分成四大类:第一类:从来源来看分成内部数据和外部数据;第二类:从结构来看分成非结构化数据和结构化数据;第三类:从可变性来看分成不能变可加到数据和可改动移除数据;第四类,从规模来看分成大量数据和小量数据。内部数据来自企业内部系统,可以使用主动载入技术(push),从而确保更改数据及时被收集。

外部数据企业要做到大数据的话认同会只局限于企业内部的数据,比如银行做到联合报,就无法只看银行系统里的交易数据和用户信息,还要到互联网上去拉取外部数据。外部数据分成两类:一类是要提供的外部数据本身获取API,可以调用API提供,比如微信;另一类是数据本身不获取API,必须通过爬虫爬取过来。

这两类数据都不是我们可掌控的,必须我们去取得,它的结构也有可能跟我们企业内部数据的结构不一样,还必须展开切换,爬虫爬取的数据结构更乱,因此大数据平台里必须做到ETL,由ETL展开数据萃取、切换、读取,清除、去轻、去噪,这个过程较为困难。爬虫爬到过来的数据往往所谓结构性的、文档型的数据,还有视频、音频,这就更加困难了。结构化数据非结构化数据结构简化和非结构化数据在存储时的选型几乎有所不同,非结构化数据偏向于文件,或者自由选择NoSQL数据库;考虑到事务的一致性,我们也有可能自由选择传统的数据库。|亚博集团。

本文来源:亚博集团-www.advancemerida.com

标签 亚博集团
热门推荐