.

Python中requests爬虫伪装浏

北京看白癜风疗效最好专科 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/nxbdf/

直接使用requests爬取网页内容时,很容易被网站服务器拒绝,严重情况下会被封掉IP,出现各种各样的问题,解决的办法也很简单,在requests请求中添加headers,把自己伪装成实际的浏览器,这样就不会出现意想不到的问题了,首先需要一款浏览器来打开需要爬取的网页,用浏览器查看headers设置,这里推使用Google的Chrome浏览器,虽然由于众所周知的原因不能使用Google搜索,但仍然不妨碍Chrome是一款优秀的浏览器。这里用到的是其自带的开发者工具。

第一步:这里以爬取内涵段子主页为例,首先用Chrome打开内涵段子主页,然后打开开发者工具如下:

打开开发者工具后的网页

第二步:点击上图的Network选项卡,然后切换到headers,如下图

图中的Headers展开图

第三步:展开RequestHeaders,即可查看到浏览器的请求头部格式,直接将其复制到你的源文件即可,注意修改格式,并且Python2和Python3的格式可能不一样,需要自己调整,下面为完整代码

headers={Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8,Accept-Encoding:gzip,deflate,sdch,Accept-Language:zh-CN,zh;q=0.8,Cache-Control:max-age=0,Connection:keep-alive,Cookie:uuid=w:afb5ba14acd8e92ba;tt_webid=;csrftoken=8ae22db91e51cfd09db;_ga=GA1.2..;_gid=GA1.2..,Host:neihanshequ.


转载请注明:http://blog.hzbdfjk.com/xgyy/7055.html