This website requires JavaScript.

使用Visual Studio Code编写PySpark程序

Visual Studio Code 已经是我最喜欢的文本编辑器了,没有之一!本文指导各位在VS Code中编写PySpark程序。

步骤

1.下载Anaconda并安装

2.下载Apache Apark安装

3.设置环境变量

SPARK_HOME=C:\spark-2.0.2-bin-hadoop2.6
PYTHONPATH=C:\spark-2.0.2-bin-hadoop2.6\bin;C:\spark-2.0.2-bin-hadoop2.6\python;C:\spark-2.0.2-bin-hadoop2.6\python\lib\py4j-0.10.3-src.zip

如果是MAC需要在hosts中加入 127.0.0.1 your_hostname

4.在Visual Studio Code中安装Python插件

5.设置Python Interpreter路径

commands interpreters

如果在列表中没有则需要手动设置,在User或者Workspace Settings中添加以下行

"python.pythonPath": "C:/Users/Master/Anaconda2/python.exe"

6.按Ctrl+Shift+P执行命令"Python: Update Workspace PySpark Libraries"来启用感知

7.如果要穿参需要用到task,有更好的方法请告诉我哦

Integrate with External Tools via Tasks

问题

[StackoverflowError](Spark gives a StackOverflowError when training using ALS) 程序中加入

sc.setCheckpointDir('checkpoint/')
ALS.checkpointInterval = 2

参考

Python for Visual Studio Code Documentation: Python for Visual Studio Code

0条评论
avatar