Spark整合Mongodb的方法

Spark介绍

创新互联建站是一家专业提供法库企业网站建设,专注与成都网站建设、成都网站制作、H5响应式网站、小程序制作等业务。10年已为法库众多企业、政府机构等服务。创新互联专业网络公司优惠进行中。

按照官方的定义，Spark 是一个通用，快速，适用于大规模数据的处理引擎。

通用性：我们可以使用Spark SQL来执行常规分析， Spark Streaming 来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表现之一。

快速：这个可能是Spark成功的最初原因之一，主要归功于其基于内存的运算方式。当需要处理的数据需要反复迭代时，Spark可以直接在内存中暂存数据，而无需像Map Reduce一样需要把数据写回磁盘。官方的数据表明：它可以比传统的Map Reduce快上100倍。

大规模：原生支持HDFS，并且其计算节点支持弹性扩展，利用大量廉价计算资源并发的特点来支持大规模数据处理。

环境准备

MongoDB下载

解压安装

启动mongodb服务

$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log

pom依赖

 
org.mongodb.spark 
mongo-spark-connector_2.11 
${spark.version}

实例代码

object ConnAppTest { 
def main(args: Array[String]): Unit = { 
val spark = SparkSession.builder() 
.master("local[2]") 
.appName("ConnAppTest") 
.config("spark.mongodb.input.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb输入 
.config("spark.mongodb.output.uri", "mongodb://192.168.31.136/testDB.testCollection") // 指定mongodb输出 
.getOrCreate() 
// 生成测试数据 
val documents = spark.sparkContext.parallelize((1 to 10).map(i => Document.parse(s"{test: $i}"))) 
// 存储数据到mongodb 
MongoSpark.save(documents) 
// 加载数据 
val rdd = MongoSpark.load(spark) 
// 打印输出 
rdd.show 
} 
}

总结

以上所述是小编给大家介绍的Spark整合Mongodb的方法，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对创新互联网站的支持！

新闻标题：Spark整合Mongodb的方法
文章来源：http://chengdu.cdxwcx.cn/article/piojhd.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

Spark整合Mongodb的方法

其他资讯

android合并分区 android合并dex

html5后台交互 html页面交互

android界面传值 android activity 传值

厦门ios开发招聘厦门安卓开发招聘

mysql怎么查看服务器查看mysql服务器地址

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

Spark整合Mongodb的方法

其他资讯

android合并分区 android合并dex

html5后台交互 html页面交互

android界面传值 android activity 传值

厦门ios开发招聘 厦门安卓开发招聘

mysql怎么查看服务器 查看mysql服务器地址

成都网站建设设计将想法与焦点和您一起共享

厦门ios开发招聘厦门安卓开发招聘

mysql怎么查看服务器查看mysql服务器地址