<aside> 📢

在本篇笔记中,我将展示基于Docker容器部署Pyspider环境来对“去哪儿旅行”攻略库中的旅游笔记关键信息进行批量爬取。

</aside>

此次爬取的学习素材来自崔庆才编著的Python3WebSpider以及与Docker容器部署的相关博客。

一、Docker容器中部署Pyspider环境

想要在Docker容器中部署Pyspider环境,我们首先需要安装和配置好Docker,具体的安装和配置教程各大平台均有,我这里便不再赘述。(还是稍微需要费点功夫的,有兴趣的小伙伴可以试试)

由于我的电脑为Windows系统,所以我选择了将Docker容器配置在Windows系统自带的Linux子系统下,接下来我们打开本地命令行窗口:

1.验证自己的Docker是否已配置至系统环境

docker --version

如果出现了自己所下载的Docker版本号信息,则证明已成功将其配置至系统环境中:

image.png

2.从Docker Hub拉取Pyspider的镜像

docker pull binux/pyspider

出现类似如下信息即可:

image.png

3.创建一个名为pyspider的容器,将本地的5000端口号映射至容器的5000端口号

docker run -it -p 5000:5000 --name pyspider binux/pyspider
# 创建的容器名可自定义,符合规范即可

出现类似如下所示的日志状态框即代表容器创建成功并且成功启动了:

image.png

现在我们打开Docker Desktop应用端,会发现其中已经创立了一个正在运行在本地5000端口号的名为pyspider的容器:

image.png