成都网站建设设计

将想法与焦点和您一起共享

大数据学习路线教程图,如何快速入门Spark-创新互联

随着互联网的发展,大数据已经成为了新一代的“网红”,各行各业几乎都和大数据产生着关系。Spark是大数据中重要的框架之一,下面为大家分享如何快速入门spark。

创新互联建站专注于卫东网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供卫东营销型网站建设,卫东网站制作、卫东网页设计、卫东网站官网定制、微信小程序服务,打造卫东网络公司原创品牌,更为您提供卫东网站排名全网营销落地服务。

Apache Spark是在大数据工业界里用的最多的基于内存的技术框架,尤其是RDD的特性以及应用,对帮助理解Spark和任务提交的流程以及缓存机制。

通过以上教程可以让大家掌握Spark的环境搭建,任务调度流程,以及RDD代码的应用。

课程目录:

第1章 Spark知识讲解

01_为什么学习Spark

02_Spark和MapReduce的对比.mp4

03_Spark框架体系

04_Spark下载

05.Spark运行模式介绍

06.Spark集群安装

07.Spark程序执行流程

08.Spark相关名词解释

09_SparkShellLocal

10_SparkShellCluster

11_Spark2.2和Spark1.6Shell对比

第2章 Maven和IDEA

12_Maven和IDEA下载

13_Maven安装

14_IDEA安装

15_IDEA中配置Maven

16_Scala环境安装和IDEA中配置Scala插件

17_IDEA创建Spark工程

18_Spark开发WordCount程序

19_Spark程序打包

20_Spark集群运行打包程序

第3章 RDD知识讲解

21_RDD概念

22_RDD执行流程

23_RDD属性

24_RDD弹性

25_RDD的两种创建

26_RDD编程API

第4章 Transformation算法

27_Transformation算法

28_Action算法

29_Map

30_filter

31_flatMap

32_sample

33 union

34 intersection

35 distinct

36 join

37_leftOuterJoin

38_rightOuterJoin

39_cartesian

40_groupBy

41_mapPartition

42_mapPartitionWithIndex

43_sortby

44_sortbykey

45_repartition

46_coalesce

47_partitionBy

48_repartitionAndSortWithinPartitions

49_reduce

50_reduceByKey

51_aggregateByKey

52_combineByKey

第5章 Action算法

53_collect

54_count

55_top

56_take

57_takeOrdered

58_first

59_saveAsTextFile

60_foreach

61_其他算子之countByKey

62_其他算子之countByValue

63_其他算子之filterByRange

64_其他算子之flatMapValues

65_其他算子之foreachPartition

66_其他算子之keyBy

67_其他算子之keys和values

68_其他算子之collectAsMap

69_RDD函数传递

70_RDD的依赖关系

71_RDD任务划分

72_Lineage血统

73_RDD缓存(持久化)

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


本文名称:大数据学习路线教程图,如何快速入门Spark-创新互联
当前链接:http://chengdu.cdxwcx.cn/article/dsogii.html