通过路由,交换,安全,Qos四大典型技术模块同你分享网络运维中的技术难题,让老司机带你躲过网络运维常见的那些坑, 查看详情>>>
0

我的帖子

个人中心

设置

  发新话题
最近爬谷歌商店的评论,自己用urllib2 写了点瞎爬,还真爬到了100多页的评论,但是到112页的时候出400了,知道被谷歌ban了,然后用火狐浏览器调试,发现就算我换了国际IP代理,依然不吐数据给我了。
如图,访问第一页响应里是有html代码数据的。
而用火狐浏览器编辑重发改成115页的时候,响应数据就没了。
如果pagenumb改成110页之前的都有数据。
PS:
已经换过国际IP了,目前浏览器打开请求112页之后有的还是200 没数据,如果用python模拟头信息和请求参数去发 换了IP还是400 bad request。。。

谷歌的反爬机制有点看不懂。。。。第一次玩爬虫,不是很懂 求大神解救下。
QQ图片20180313161718.png (75.49 KB)

2018-3-13 16:23

QQ图片20180313161718.png

QQ图片20180313161750.png (132.64 KB)

2018-3-13 16:23

QQ图片20180313161750.png

QQ图片20180313161823.png (123.33 KB)

2018-3-13 16:23

QQ图片20180313161823.png




所以要爬虫,你应该先爬一些小的网站,这种反扒机制太强的,访问了就会被封ip,你应该提前弄个代理池,谷歌应该封的特殊,所以你还是找百度看一下。



‹‹ 上一贴:pycharm   |   下一贴:零基础自学Python十天,写了一款小游戏,附源码和软件下载 ... ››
  发新话题
快速回复主题
关于我们 | 诚聘英才 | 联系我们 | 网站大事 | 友情链接 |意见反馈 | 网站地图
Copyright©2005-2018 51CTO.COM
本论坛言论纯属发布者个人意见,不代表51CTO网站立场!如有疑义,请与管理员联系:bbs@51cto.com