大数据技术包括:
大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
其中,大数据采集是指对各种来源的结构化和非结构化海量数据进行的采集;大数据预处理是指对采集到的数据进行清洗、去重、格式转换等操作;大数据存储及管理是指对预处理后的数据进行存储和管理;大数据分析及挖掘是指对存储在数据库中的数据进行分析和挖掘,以发现其中的规律和价值;大数据展现和应用则是指将分析结果以图表等方式展示出来,或者将其应用于实际业务中。
大数据技术包括以下几个方面:
存储和管理技术:
大数据处理需要大量的存储空间,因此存储和管理技术是大数据技术的核心。
存储和管理技术包括磁盘存储、网络存储、云存储、索引和检索技术等。
数据处理和分析技术:
大数据处理的核心是数据处理和分析技术,包括数据挖掘、机器学习、自然语言处理、文本分析、图像和视频处理等技术。
移动和分布式技术:
大数据处理需要移动和分布式技术来处理大量数据,包括移动设备、云计算、容器化技术、大数据平台等。
可视化和监控技术:
大数据处理需要大量的可视化和监控,因此可视化和监控技术是大数据技术的重要组成部分,包括图形化界面、报表、分析和可视化工具等。
安全和隐私保护技术:
大数据处理需要大量的数据,这些数据可能包含敏感信息,因此安全和隐私保护技术是大数据技术的重要组成部分,包括数据加密、数据备份、数据隔离和控制技术等。
大数据技术包括:
大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
其中,大数据采集是指对各种来源的结构化和非结构化海量数据进行的采集;大数据预处理是指对采集到的数据进行清洗、去重、格式转换等操作;大数据存储及管理是指对预处理后的数据进行存储和管理;大数据分析及挖掘是指对存储在数据库中的数据进行分析和挖掘,以发现其中的规律和价值;大数据展现和应用则是指将分析结果以图表等方式展示出来,或者将其应用于实际业务中。
第一部分为互联网大数据的概述;
第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;
第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;
第三部分为综合应用
一、大数据基础阶段
大数据基础阶段需掌握的技术有:
Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoopmapreducehdfsyarn等。
二、大数据存储阶段
大数据存储阶段需掌握的技术有:
hbase、hive、sqoop等。
三、大数据架构设计阶段
大数据架构设计阶段需掌握的技术有:
Flume分布式、Zookeeper、Kafka等。
四、大数据实时计算阶段
大数据实时计算阶段需掌握的技术有:
Mahout、Spark、storm。
五、大数据数据采集阶段
大数据数据采集阶段需掌握的技术有:
Python、Scala。
六、大数据商业实战阶段
大数据商业实战阶段需掌握的技术有:
实操企业大数据处理业务场景,分析需求、解决方案实施,综合技术实战应用。