PySpark学习笔记
pyspark使用笔记,含1.jupyter-docker环境搭建 2.dataframe2jdbc,jdbc2dataframe 3.模型训练及保存 4.模型导入及使用 等。
一 环境部署
执行以下命令,访问 ip:18804即可,密码为:my-password
镜像使用参考:https://jupyter-docker-stacks.readthedocs.io/en/latest
1 |
|
二 dataframe导出数据库
参考:
- https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/from_to_dbms.html
- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.DataFrameWriter.jdbc.html?highlight=dataframewriter
在jupyter打开的终端界面中执行以下命令,下载mysql驱动包
1 |
|
如下,
1 |
|
三 读取mysql数据完成线性回归并导出模型文件
参考:https://www.datatechnotes.com/2021/05/mllib-linear-regression-example-with.html
1 |
|
四 加载模型并进行预测
注意 LinearRegressionModel 和 LinearRegression 的关系。
在上一步 LinearRegression fit之后产生LinearRegressionModel并保存为文件。
现在再使用 LinearRegressionModel的load方法从文件重新加载回来进行 transform 。
参考pipeline的概念的话:
LinearRegression 是 Estimator
而 LinearRegressionModel 是 Transformer
1 |
|
五 使用 pipeline 改造
参考:https://spark.apache.org/docs/latest/ml-pipeline.html
部分中文翻译参考: https://zhuanlan.zhihu.com/p/33619687
1 |
|
PySpark学习笔记
https://linshenkx.github.io/pyspark-notes/