[花果山水帘洞] python3学习笔记(5)——网页爬虫

继续python。

python3学习笔记(5)——网页爬虫

2016-10-26 / vc12345679

老爸布置任务,要能自动提醒各个P2P网站的新项目,比如 银客,所以学习了一下网页抓取。

常见html直接抓取工具

python 上能实现网页内容抓取的第三方库很多,比如

  • httplib
  • httplib2
  • urllib
  • urllib2
  • urllib3
  • requests

了解了一下,据说 urllib 是 httplib 的封装,requests 是 urllib 的封装,于是简单扫了一遍 httplib 和 urllib 的 manual 之后直接上requests了

上手之后发现,CDN防爬虫啊,只得又去学习伪装 user-agent,终于能正常访问了

然而问题又来了,获取到的只是一坨页面,数据都是js动态加载的,这些库只干http的活,js并不会运行,于是我又搜到了 phatomjs 这种无头浏览器,目的确实达到了

等等,你以为有你想得那么简单吗?长者说 too naive!想部署到群晖上,群晖也得装phantomjs,一来太折腾,二来稍微耗点资源(第二条可忽略);另外又看到有大牛说,用无头浏览器不算真正的爬虫,于是心一横,开始分析页面

好在 chrome 强大,顺利找到了 quest 请求,复制了 http headers 的信息,包括 user-agent,cookie,referer 等等,总算把 json 拖了下来

对着上 MB 的json 一顿分析,需要的、不需要的、没想到却很有用的信息提了一堆,能完成任务了