您当前位置：chrome >> chrome资源

Python中requests爬虫伪装浏

北京看白癜风疗效最好专科 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/nxbdf/

直接使用requests爬取网页内容时，很容易被网站服务器拒绝，严重情况下会被封掉IP，出现各种各样的问题，解决的办法也很简单，在requests请求中添加headers，把自己伪装成实际的浏览器，这样就不会出现意想不到的问题了，首先需要一款浏览器来打开需要爬取的网页，用浏览器查看headers设置，这里推使用Google的Chrome浏览器，虽然由于众所周知的原因不能使用Google搜索，但仍然不妨碍Chrome是一款优秀的浏览器。这里用到的是其自带的开发者工具。

第一步：这里以爬取内涵段子主页为例，首先用Chrome打开内涵段子主页，然后打开开发者工具如下：

打开开发者工具后的网页

第二步：点击上图的Network选项卡，然后切换到headers，如下图

图中的Headers展开图

第三步：展开RequestHeaders，即可查看到浏览器的请求头部格式，直接将其复制到你的源文件即可，注意修改格式，并且Python2和Python3的格式可能不一样，需要自己调整，下面为完整代码

headers={Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8,Accept-Encoding:gzip,deflate,sdch,Accept-Language:zh-CN,zh;q=0.8,Cache-Control:max-age=0,Connection:keep-alive,Cookie:uuid=w:afb5ba14acd8e92ba;tt_webid=;csrftoken=8ae22db91e51cfd09db;_ga=GA1.2..;_gid=GA1.2..,Host:neihanshequ.

转载请注明：http://blog.hzbdfjk.com/xgyy/7055.html

上一篇文章：做外贸网络营销,为什么官网社媒邮件签名私

下一篇文章： bilibili哔哩哔哩助手插件推荐