简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为,去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来,就像一只虫子在一幢楼里不知疲倦地爬来爬去,你可以简单的想象每个爬虫都是你的分身,就像孙悟空拔了一撮汗毛吹出一堆猴子一样。你每天使用的百度其实就是利用了这种爬虫技术,每天放出无数爬虫到各个网站,把他们的信息抓回来,然后画好淡妆,还是小队等你来检索抢票软件就相当于撒出去无数个分身,每一个分身都帮助你不断刷新12306网站的火车余票,一旦发现有票就马上拍下来,然后对你喊,土豪,快来付款。
那么像这样的爬虫技术一旦被用来做有多可怕呢?正好在上周末,一位黑客朋友神秘兮兮的给我发来一份中国爬虫图鉴,这哥们在腾讯云里实验室,主要负责加班,顺便和同事们开发了很多黑科技,比如他们搞了一个威胁情报系统,称能探测到全世界的爬虫都在做什么。我吹着口哨打开图片,但一分钟以后,我整个人都不好了,please no,我看到了另一个平行世界,就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,他们善恶不同,各怀心思,而越是每个人切身利益所在的地方,就越是爬满了爬虫。看到最后,我发现这哪里是中国爬虫图鉴?这分明是一份中国交易图鉴。我们今天要说的就和这些app有关,爬虫的骚操作,爬虫也分善恶,像谷歌这样的搜索引擎,爬虫每隔几天对全网的网页扫一遍。
供大家查阅各个被扫的网站,大都很开心,这种就被定义为善意爬虫,但是像抢票软件这样的爬虫,对着12306每秒钟恨不得录几万次,铁总并不觉得很开心,这种就被定义为恶意爬虫。注意抢票的你觉得开心没用,被扫描的网站觉得不开心,他就是恶意的。给你看一张图,这张图里显示的就是各行各业被他骚扰的比例,注意,这张图显示是全世界,不是全中国,而每一个损坏背后都是一条真实而强大的利益链条。接下来就给你科普一下里面的骚操作。
一、排名第一的是出行,出行行业中爬虫的占比最高,20.87%,在出行的爬虫中,有89.02%的流量是冲着12306去的,这不意外,全中国卖火车票的如此一家,别无分号。你还记得当年12306上线王珞丹和白百何的史上最坑图片验证码吗?啊,这些东西不是为了故意哪位老老实实卖票的人的,而恰恰是为了阻止爬虫,也就是抢票软件的点击。刚才说了,爬虫只会简单的机械点击,他不认识白百何,所以很大一部分爬虫就被挡在了门外。你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。没错,抢票软件也不是吃素的,他们在和学生搞对抗。有一种东西叫做打码平台,你可以了解一下,打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好。哪个是白百何,哪个是王珞丹,然后再把结果传回去,总共的过程用不了几秒时间。当然这样的打码平台还有记忆功能,如果叔叔阿姨已经标记了这张图是国产,那么下次这张图片在出现的时候,系统就直接判断它是国产。时间一长,12306系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
你可能会问,为什么12306这么抠呢?他大方的让华众随意爬,会死吗?答,会死,你知道每年过年之前12306被点成什么样吗?公开数据是这么说的,最高峰时一天内页面浏览量达813.4亿次,一小时最高点击量59.31次,平均每秒164.8万次,这还是加上验证码防护之后的数据,可想而知被拦截在外面的爬虫还有多少。况且这里还没有讨论被抢票软件把票抢走对我们父母那样的不会抢票的人来说是不是公平呢?铁路被爬虫点击成这样已经够惨了,但他还有个难兄难弟就是航空,而航空里被搞得最惨的不是国航,不是海航,也不是东航,而是亚航。航空类爬虫的分布比例很多人可能都没做过亚洲航空,这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都累自费买,是屌丝穷x度假值首选。为什么爬出这么青睐亚航呢?因为它便宜,确切的说,因为它经常放出便宜的票。本来亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的,据我所知他们是这样玩的,技术宅黄牛党们利用爬虫不断刷新亚行的票务接口,一旦出现便宜的票,不管三七二十一,先拍下来再说。亚行有规定,你拍下来半小时,具体时间记不清了,不付款,票就自动回到票池继续卖。但是黄牛党们在发生交问里写好了精确的时间,到了半小时一毫秒都不多,他又把票开下来,如此循环,直到有人从黄牛党这里订了这个票,黄牛党就接着利用程序在亚行系统里放弃这张票,然后0.00001秒之后就帮你用你的名字预订了这张票,我是中间商,可就要赚差价。生活方操作探索完美。