[IT技术] 2023年最新版大数据从入门到进阶路线图(建议收藏)

[复制链接]
wanggang761029 发表于 2023-12-23 18:17:37|来自:北京 | 显示全部楼层 |阅读模式
1.1 大数据入门学习路线说明
整体按照基础篇、数据采集与存储、数据管理与查询、数据开发工具、数据计算、数据可视化和数据分析(Python与机器学习)内容展开说明,涵盖大数据全生命周期。






在这里也给想入门大数据行业的新人或者想进一步在这个领域深耕的小伙伴奉上一套优质的学习资源。涵盖了大数据基础、大数据架构、数据仓库、数据治理、bat真实案例,科研绘图与工具、大厂面试真题附含答案以及简历模板等众多干货。点击获取即可⬇



1.2 学习路线内容
1)基础篇
学习大数据体系前,需要重点学习几门基础技术。包括Linux基础、基础开发语言(SQL基础、Java语言和Scala),推荐使用线上网站(如菜鸟教程)学习即可。

  • Linux基础:掌握基础Linux操作命令,后续可再工作中补充
  • SQL基础:大数据领域必备开发语言,需要精通SQL语法和使用
  • Java基础:大数据领域必备开发语言(分析岗不强制),熟悉即可
  • Scala基础:选学内容,主要是Spark/Flink方向可以学习
2)数据采集与存储
进入大数据的数据采集与存储部分。需要学习Hadoop基础、Hive/Hbase(数据存储引擎)、ETL(数据采集流程),这部分内容是大数据体系核心基础部分,需要熟练掌握原理。

  • Hadoop基础:了解大数据基础组件HDFS、MR、Yarn原理及实战
  • Hive:大数据存储和分析重点技术组件,了解原理及实战
  • Hbase:大数据领域Nosql列式存储数据库,了解原理及实战
  • ETL:数据同步和集成,重点了解流程及原理
3)数据管理与查询
数据经过采集与存储后,后续进行管理和查询操作,需要学习数据仓库体系、数据治理体系、OLAP查询三部分内容。

  • 数据仓库体系:掌握数仓体系搭建、维度建模等理论知识与实战
  • 数据治理体系:掌握企业数据治理体系方法论与实战
  • 数据OLAP查询:掌握主要类型的几种OLAP查询引擎,比如Kylin、Clickhouse、Impala等
4)大数据工具
重点掌握部分大数据平台开发工具,类似任务调度、平台运维、消息中间件、组件协调等。

  • Zookeeper:分布式协调工具,了解原理及使用
  • Kafka:消息队列,大数据领域重点组件,掌握原理及使用
  • Azkaban:任务调度工具,了解原理及使用
  • CDH等:大数据平台工具,了解原理及使用
5)数据计算
大数据计算与分析,涵盖数据统计、指标计算等场景,这里需要重点掌握两个分布式计算内存级引擎。

  • Spark:基于RDD数据模型,批处理及近实时分析利器。需要重点掌握Spark全体系原理、实战及调优
  • Flink:基于数据流、事件模型,流处理实时分析利器。需要重点掌握Flink全体系原理、实战及调优
  • Kafka:实时场景下的Kafka实战原理
6)数据可视化
数据的可视化展示和分析。主要了解几种常见的报表工具:PowerBI、Superset和Tableua等。
7)数据分析
扩展部分,主要了解Python数据分析和机器学习基础,基本涵盖数据分析岗位的核心工作。

  • Python数据分析:Python语言基础、Pandas/Numpy/Matplot数据分析工具
  • 机器学习基础:数据基础、算法基础、算法建模实战
2 大数据岗位概览

2.1 岗位说明

整体分为大数据开发工程师、大数据数仓工程师、数据分析师、数据治理/运维工程师内容展开说明,涵盖大部分大数据企业开发岗位。
2.2 岗位具体信息

1)大数据开发工程师
根据职责不同又可以分为研发岗和开发岗。其中研发岗负责公司平台底层研发和源码二次开发;开发岗主要工作为公司的业务指标和需求功能开发。

  • 研发岗:熟练掌握并精通大部分组件源码及原理,技术门槛较高且技术栈多;包括Java/Hadoop/Hive/Hbase/ETL/Kafka/Spark/Flink等
  • 开发岗:技术栈和研发岗类似,但是对底层源码的要求没那么高,能够掌握原理及使用即可,源码为加分项。
2)大数据数仓工程师
数仓工程师可以分为离线、实时和ETL三部分,其中ETL和离线基本已合并一体,三者均为数仓岗,负责公司的企业级数仓体系搭建和数据管理。

  • 离线方向:负责公司离线数仓搭建。要求掌握数仓体系理论、数据分层等原理;并要求掌握大部分核心技术组件,比如Hive/Spark等。
  • 实时方向:离线数仓基础上的实时场景下的数仓体系搭建。技术栈一般包含Flink、kafka等实时组件。
  • 数仓整体包含两部分:数仓理论体系 + 技术栈
3)数据分析师
这个岗位比较贴近业务,在技术能力基础上需要掌握某行业的业务知识。根据工作内容也可以分为几个方向。其中数据分析岗和BI岗比较类似,而算法岗则要求技术门槛较高。

  • 数据分析岗:通过SQL和数据挖掘方法分析数据,提供运营决策
  • BI岗:常用SQL和报表工具统计数据,输出报表运营。
  • 算法岗:结合业务场景进行算法建模,使用AI技术分析挖掘
4)数据治理/运维师
负责企业数据治理体系搭建和数据运维方面工作,是企业数据建设的重要岗位。

  • 治理岗:搭建数据治理体系,监控数据质量、管理元数据等,要求精通数据治理理论和技术实战,掌握Hive和SQL等技术
  • 运维岗:企业系统/数据运维,熟练掌握Linux原理和数据运维、软硬件测试原理实战
全部回复2 显示全部楼层
梅州热线 发表于 2023-12-23 18:17:59|来自:北京 | 显示全部楼层
大数据开发工程师 好像要求更高,待遇也高吗?[爱]
cq987 发表于 2023-12-23 18:18:22|来自:北京 | 显示全部楼层
难啊

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则