pyspark遇到的问题及解决

1.当写代码的时候会出现: java.lang.OutOfMemoryError: Java heap space

1
2
解决方法:
配置文件里的spark.driver.memory改大一点

https://blog.csdn.net/Alien_lily/article/details/82018231

2.Caused by: java.sql.SQLException: GC overhead limit exceeded

1
2
3
需要调大参数:
export SPARK_EXECUTOR_MEMORY=6000M
export SPARK_DRIVER_MEMORY=7000M

3.apply无法使用

1
降低java的jdk版本,测试是jdk15和11都不行,只有8可以

4.bigger than spark.driver.maxResultSize (1024.0 MiB)

1
2


5.驱动不起作用

1
pyspark --jars /usr/hdp/3.0.1.0-187/spark2/jars/postgresql-42.2.5.jar

6.java.lang.UnsupportedOperationException: sun.misc.Unsafe or java.nio.DirectByteBuffer.(long, int) not avail

1
2
3
pyspark --conf spark.driver.extraJavaOptions='-Dio.netty.tryReflectionSetAccessible=true'

次要:spark.executor.extraJavaOptions='-Dio.netty.tryReflectionSetAccessible=true'