博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark RDD概念学习系列之如何创建RDD
阅读量:5090 次
发布时间:2019-06-13

本文共 528 字,大约阅读时间需要 1 分钟。

 

  不多说,直接上干货!

 

 

创建RDD

  方式一:从集合创建RDD

  (1)makeRDD

  (2)Parallelize

注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。

 

  方式二:读取外部存储创建RDD

  Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。

  (1)多文件格式支持:

      

 

   (2)多文件系统支持:

      1)本地文件系统

      2)S3

      3)HDFS

 

  (3)数据库

      1)JdbcRDD

      2)spark-cassandra-connector(datastax/spark-cassandra-connector)

      3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

      4)Elasticsearch-Hadoop

 

转载于:https://www.cnblogs.com/zlslch/p/6941225.html

你可能感兴趣的文章
新作《ASP.NET MVC 5框架揭秘》正式出版
查看>>
IdentityServer4-用EF配置Client(一)
查看>>
WPF中实现多选ComboBox控件
查看>>
读构建之法第四章第十七章有感
查看>>
Windows Phone开发(4):框架和页 转:http://blog.csdn.net/tcjiaan/article/details/7263146
查看>>
Unity3D研究院之打开Activity与调用JAVA代码传递参数(十八)【转】
查看>>
python asyncio 异步实现mongodb数据转xls文件
查看>>
TestNG入门
查看>>
【ul开发攻略】HTML5/CSS3菜单代码 阴影+发光+圆角
查看>>
IOS-图片操作集合
查看>>
IO—》Properties类&序列化流与反序列化流
查看>>
测试计划
查看>>
Mysql与Oracle 的对比
查看>>
jquery实现限制textarea输入字数
查看>>
Codeforces 719B Anatoly and Cockroaches
查看>>
jenkins常用插件汇总
查看>>
c# 泛型+反射
查看>>
第九章 前后查找
查看>>
Python学习资料
查看>>
jQuery 自定义函数
查看>>