spark-sql

1.rdd转换成dataframe ---->rdd需要时列表或者元组构成的
rdd1 = sc.parallelize([('a',1),('b',2)])
df = spark.createDataFrame(rdd1)
df.show()
输出结果:
+---+---+
| _1| _2|
+---+---+
|  a|  1|
|  b|  2|
+---+---+

df.first():
Row(_1='a', _2=1)

df.printSchema() ===>查看df的列字段类型同pandas的info
root
 |-- _1: string (nullable = true)
 |-- _2: long (nullable = true)