Mr kuai

追忆似水流年


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

pyspark遇到的问题及解决

发表于 2021-02-01 | 更新于 2021-12-27 | 分类于 spark

1.当写代码的时候会出现: java.lang.OutOfMemoryError: Java heap space 解决方法: 配置文件里的spark.driver.memory改大一点 https://blog.csdn.net/Alien_lily/article/details/8201823 ...

阅读全文 »

pyspark_dataframe

发表于 2021-01-27 | 更新于 2022-03-29 | 分类于 pyspark

生成dataframePandas和Spark的DataFrame两者互相转换: pandas_df = spark_df.toPandas() --->也会将所有数据收集到驱动器,容易造成memory error spark_df = sqlContext.createDataFrame(p ...

阅读全文 »

未命名

发表于 2021-01-25 | 更新于 2023-07-21 | 分类于 数据库

from clickhouse_driver import Clientimport pandas as pdimport reclient = Client(host='192.168.0.246',port='9000',user='user_r', password='1q2w3e4r', d ...

阅读全文 »

spark视频笔记

发表于 2021-01-12 | 更新于 2022-06-28 | 分类于 python

宽依赖:一对多,必定会发生shuffle操作窄依赖:一对一一个DAG就是一个job,一个job分层很多个stage,stage划分的依据是宽依赖,task是由分区数决定的一个rdd分层三个区则对应三个task每个阶段的task的数量是最后一个rdd的分区数rdd转换操作和行动操作(也称为算子)转换操 ...

阅读全文 »

未命名

发表于 2021-01-11 | 更新于 2022-06-15 | 分类于 大数据

直接用pyspark 的配置1.vim ~/.bashrc2.spark_home补充上 SPARK_HOME=/home/kuailiang/spark/spark-3.0.1-bin-hadoop3.23.export PATH=$PATH:$SPARK_HOME/bin4.export PYS ...

阅读全文 »

Xgboost算法

发表于 2020-12-30 | 分类于 算法

1.介绍1.Xgboost本质上还是GBDT(梯度提升树),Xgboost算法是对GBDT算法的改进2.Xgboost是Boosting算法的其中一种,Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器。因为Xgboost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个 ...

阅读全文 »

spark入门

发表于 2020-12-24 | 更新于 2022-03-30 | 分类于 大数据

Apache重要的三个基金会项目(hadoop,spark,storm)Spark提供了内存计算,减少了迭代计算时的IO开销;虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Had ...

阅读全文 »

距离和相似度

发表于 2020-12-04 | 更新于 2020-12-30 | 分类于 机器学习

综合:​ 距离和相似度是用来判断相似性两种不同的方法 距离(物体在空间中的距离,距离越远越不相似)1.欧式距离:计算的是空间位置的绝对路径,要求是指标维度的度量要一致,如kg和cm会出问题 1.1欧氏距离标准化 -- >对各个维度数据进行标准化,使之在同一度量上 2.曼哈顿距离:2.明式 ...

阅读全文 »

mysql实战45讲

发表于 2020-11-18 | 更新于 2021-08-16 | 分类于 mysql

第一讲 Mysql查询执行流程(笔记来自极客时间)1.mysql架构 2.架构解释​ ①mysql架构由两部分组成,server端和存储引擎 ​ ② 连接器:建立连接,验证权限,维持和管理连接 ​ 分析器 ...

阅读全文 »

pypy

发表于 2020-09-24 | 更新于 2022-03-16 | 分类于 优化

pypy installvim ~/.bashrcexport PATH=/home/kuailiang/pypy3.6-v7.3.1-linux64/bin:$PATHsource ~/.bashrcpypy3 -m ensurepip curl https://bootstrap.pypa.i ...

阅读全文 »
1…345…12
kl

kl

66其实不太6
119 日志
32 分类
49 标签
© 2023 kl
|