.

Python学习笔记用selenium库

在网上爬取数据的时候通常需要注册会员,然后登录才能正常使用或下载数据。这些登录的信息通常会存放在网站的cookie中。根据百度百科的定义,“Cookie是一个保存在客户机中的简单的文本文件,这个文件与特定的Web文档关联在一起,保存了该客户机访问这个Web文档时的信息,当客户机再次访问这个Web文档时这些信息可供该文档使用。”

为了方便自动化爬取数据,我们可以将网站的登录信息的cookie存储在本地文件中,然后下次登录时,直接加载cookies即可迅速实现登录。在Python中,获取网站cookie的办法有好多种,这里简单介绍较常用的selenium库,调用浏览器驱动程序获取最新的cookie,并模拟网站自动登录。

首先确保python成功安装了selenium库,安装命令如下:

pipinstallselenium

其次是要安装对应浏览器的驱动程序,一般使用谷歌浏览器、火狐浏览器和Edge浏览器,它们对应的驱动程序分别为chromedriver.exe,geckodriver.exe,msedgedriver.exe,需要下载对应浏览器版本的程序。例如我使用的谷歌浏览器版本为.0.,我需要下载对应版本的chromedriver.exe。具体安装教程,可参考链接:


转载请注明:http://blog.hzbdfjk.com/sstx/7498.html

  • 上一篇文章:
  • 下一篇文章: 没有了