来源:新浪众测
作者:AppSo新酷应用
不知大家是否总能在朋友圈看到类似的广告,‘加班完成的Excel用Python只需3分钟’、‘每天都能准点下班只因学会了Python’,似乎Python已经成为了当代年轻人的必备技能。
▲朋友圈广告
的确,作为一门易于上手的编程语言,Python在自动化办公中用处巨大,特别是对于网页数据的爬取,在这样一个大数据时代显得尤为重要。
爬取网页数据,也可以称为‘网络爬虫’,能帮助我们快速搜集互联网的海量内容,从而进行深度的数据分析与挖掘。比如抓取各大网站的排行榜、抓取各大购物网站的价格信息等。而我们日常用的搜索引擎就是一个个‘网络爬虫’。
但毕竟学习一门语言的成本太高了,有什么办法可以不学Python也能达到目的呢?当然有,借助Chrome浏览器的《WebScraper》插件,让你在不用写代码的情况下,就能快速抓取海量内容。
懒人目录
抓取页面中多条信息——bilibili排行榜为例
自动翻页抓取——豆瓣电影Top为例
抓取二级页面内容——知乎热榜为例
抓取页面中的多条信息——BiliBili排行榜为例
安装《WebScraper》后,在浏览器按F12进入开发者模式,就能在最后一个标签页看到《WebScraper》的菜单。需要注意的是,如果开发者模式面板不在下方,则会提示必须将其放到浏览器下方才能继续。
在菜单中选择‘Createnewsitemap-Createsitemap’以创建新的sitemap,填入名称与起始地址就可以开始了。这里以BiliBili排行榜为例,介绍如何抓取页面中的多条信息,起始地址设为‘