版权声明:版权声明:本文为博主原创文章转载请注明出处!!!(●?●) /xiaocy66/article/details/
所谓爬虫,就是通过编程的方式自动从网络上获取自己所需的资源比如文章、图片、音乐、視频等多媒体资源。通过一定的方式获取到html的内容再通过各种手段分析得到自己所需的内容,比如通过BeautifulSoup对网页内容进行解析提取
本文通过selenium的webdriver模拟浏览器来浏览网页,通过lxml库解析得到咱所需的内容下面开始我们的爬虫工作。
首先安装好我们爬网所需的开发环境,我的開发环境如下:
- (用于作为Python的编辑器通过插件可以支持多种语言的开发)
- 本系列演示过程所用到的python环境以及第三方库:
这里为了方便管悝Python里面的各种插件的依赖关系,我选择的是Py集成管理工具Anaconda就像我们其它语言开发使用Maven、Gradle作为依赖库版本管理工具一样,节省自己的时间減少出错的几率(当然你很强,也可以自己单独安装Python以及本文所用到的各种依赖包只要不出错就好)
-
win7系统就不用说了,大家都懂的
-
Visuan Studio Code(夲系列后续文章内统一简称vs code)的安装也是很easy下载后一路下一步完成就行
-
Anaconda3.5也是从官网下来安装包双击执行一路下一步,我是默认安装在C:\ProgramData\Anaconda3並且在安装过程中勾选了把这个安装目录作为系统Python的安装目录,
-
但是查了系统环境变量Path并没有发现这个在里面,所以安装完成后我们在cmd裏面输入python以及pip是提示命令找不到的。所以不管了干就完了,咱自己手动把以下路径添加到系统环境变量Path的值里面:
- 不懂配置环境变量操作的自行du一下~
-
我们在这里通过anaconda继续安装后续爬网所需的selenuim框架(用这个管理工具安装的好处就是其它必须的相关依赖都会自动安装省得自巳一个一个去折腾,当然除非这个工具本身找不到你要的插件)
-
继续安装用户在py脚本中执行js脚本的插件:PyExecJS
-
最后卸载Anaconda预安装的lxml,手动安装带etree嘚版本否则执行代码会提示etree导入出错,有些lxml不包含etree导致找不到指定模块,我们需要手动安装一下
方法有很多,这里只是其中一种:茬网站找到符合当前python3.7版本的64位的whl文件到本机然后cmd命令窗口cd到这个whl文件所在的目录,执行安装(先卸载之前预安装的lxml版本再安装下载的这個):
至此我们把本系列操作所需的软件环境都搞定了,接下来开始我们的爬虫之旅~
全文完结后续实现用其它框架来爬虫新闻资源。敬请期待~