2022年,我想成为一名大数据工程技术员,申请计算机专业。数据科学和大数据技术是跨学科的学科:统计学、数学和计算机是三个支撑学科。
大数据工程技术人员工作内容
大数据工程技术人员的任务和责任取决于他们工作的数据流的哪个环节。从数据上游到数据下游,一般工作内容是使用工具组件(spark、flume、Kafka等)或代码(Java、Scala等)来实现数据采集、数据清洗、数据存储、数据分析统计、数据可视化等功能。
1、数据收集:
WwW.sPEakkeY。COm数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台获取数据的过程。数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据、移动互联网数据以及其他类型的结构化、半结构化和非结构化海量数据。
2、数据清理:
某些字段可能有异常值,即脏数据。确保下游&报价;数据分析与统计;如果可以获得高质量的数据,则需要过滤这些记录或回填字段数据;一些日志的字段信息可能是冗余的,下游不需要使用这些字段进行分析。同时,为了节省存储成本,需要删除这些冗余的字段信息。某些日志的字段信息可能包含用户敏感信息,需要对其进行脱敏。
3、数据存储:
清理后的数据可以放在数据仓库(hive)中进行下游脱机分析。如果下游报价("e);数据分析与统计;如果对实时性能的要求很高,可以将日志记录到Kafka中。
WwW.sPEakkeY。COm4、数据分析与统计:
WwW.sPEakkeY。COm数据分析是数据流的下游,使用上游的数据。事实上,各种报告数据都是从日志记录中统计出来的。可以在kylin或hive中使用SQL统计简单的报表统计信息。复杂的报告需要在代码级别使用spark和storm进行统计分析。
5、数据可视化:
以数据表、数据图等直观形式显示上游;数据分析与统计;的数据。
大数据技术就业方向
大数据有广泛的工作,可以选择许多工作。
如大数据开发工程师、运营工程师、大数据架构师、工程师、BI工程师、数据挖掘工程师、ETL开发工程师、Spark开发工程师等。
虽然大数据的就业前景很好,但掌握大数据开发技术也是前提。否则,不管这个行业发展得多好,有多少就业机会,都与你无关。