前言:我们默认用户已经在虚拟机上安装好了spark等相关集群和生态,是可以在虚拟机中运行相关的操作,比如mapper,reducer操作,rdd,dataframe等等杂七杂八的东西的(主要我也没太明白)。本人是学校老师带着装的,很幸运,据说配置的版本和乾隆小时候用的是一样的,真好,咱也体会到了天子的待遇(狗头保命)。

要在PyCharm中远程连接到Linux上的Spark和Hadoop集群,您可以遵循以下步骤:

配置远程解释器:在PyCharm中,设置远程解释器来连接到Linux服务器。这通常通过SSH完成。

open the pycharm!!记得要是专业版的!!

打开files->settings

打开编译器python interpreter 点击 add,目的:添加编译器

进入界面

选择ssh interpreter,ssh是不是很熟悉,和我们的xftp,xshell一样

填写内容,点击next

选择编译器,这个时候,只要用户名和密码没有错误,就是进入到这里来了,我们可以看到很多文件哈,这个时候是选择Linux中的编译器,不是我们这个pycharm自己用的哈,要注意,是选取你虚拟机里面的python用的编译器,我之前随便选了一个,是2.x版本,上古神器属于,干啥都不好用,直到我发现我们上课时下过这个3.x版本的,我赶紧去换了3版本

选择文件存放位置,我们既然要远程连接,那肯定得要确定local的文件地址和remote的文件地址,从哪里到哪里,这个问题值得思考,建议新建文件夹就放你要用的,不然我之前全放进去了,差点爆炸

到这里就差不多,然后有些库该安装就安装,你得确保虚拟机里面有才可以,还有要是jdk_not_set,就去这里

添加jdk路径就可以