RDD:AResilientDistributedDataset(RDD),thebasicabstractioninSpark.rdd是一个分布式的数据集,数据分散在分布式集群的各台机器上ADataFrameisequivalenttoarelationaltableinSparkSQL,andcanbecreatedusingvariousfunctionsinSQLContextdataframe更像是一张关系型数据表,是一种spark独有的数据格式吧,这种格式的数据可以使用sqlcontext里面的函数