技术曾经用来作恶有多可怕?

我不禁想起一个词——爬虫。 等等,图片不对,应该是这样的爬虫:。 爬虫是一种检测机器,它的基本操作是模拟人类的行为去各种网站,点击按钮,检查数据,或者返回查看信息。 就像一只虫子不知疲倦地爬在大楼里。 你可以简单地想象每个爬行动物都是你的“分裂“。 就像孙悟空抽出一撮头发,吹出一堆猴子一样。 你每天使用的百度,其实都在使用这种爬虫技术:每天,你都会向各种网站发送无数的爬虫,把他们的信息抢回来,然后化淡妆,安排团队等你搜索。 抢票软件相当于抛出无数个独立的部分,每一个都帮助你不断刷新12306网站的火车票。 一旦你找到一张票,拿着它对你喊:土豪,来付钱。就在上周末,一位黑客朋友玉峰神秘地给我发了一张“中国爬虫地图”,他在腾讯云顶实验室加班,和同事一起开发了很多黑科技。

 技术曾经用来作恶有多可怕

例如,他们有一个威胁情报系统,声称可以检测世界各地的爬行动物在做什么。我吹了一声口哨,打开了Tuche,但一分钟后,我一切都很糟糕。 我看到了另一个“平行世界“:。 在我们身边的网络中,已经覆盖了各种各样的网络爬行动物,它们不同于善恶,每一个心灵。 每个人的切身利益越大,爬行动物就越多。 最后,我发现这是中国爬行动物地图,它显然是一个中国焦虑地图。 我们今天要说的就是这些App。 爬虫类也分为善恶。 像谷歌这样的搜索引擎爬虫每隔几天扫一次网络,让每个人都能检查,大多数网站都很开心。 这被定义为“善意爬虫“。 但是像抓票软件这样的爬行动物想在12306的时候每秒手淫数万次。

 技术曾经用来作恶有多可怕

铁不觉得很开心。 这被定义为“恶意爬虫“。 注意,你感到快乐和无用,扫描的网站感到不快乐,这是恶意的。 这是一张照片:。此图为各行各业爬行的比例。 请注意,这张图片显示的是世界,而不是整个中国。 在每个色块后面,是一个真实而强大的利益链条。 。 接下来,钟哥将给大家介绍一下里面的节目操作。 。 1. 排名第一的是旅游。 爬行动物在旅游行业中的比例最高(20.87%)。 在旅游爬虫中,89.02%的流量指向12306。 这并不奇怪,中国唯一卖火车票的人没有分号。 。 你还记得12306年王罗丹和白百和的《历史上最可怜的画的核查准则吗? 。 。 这些东西不是为了故意让那些诚实卖票的人尴尬,而是为了防止爬虫(即抢票软件)点击。

正如我刚才所说,爬虫只能简单地机械地点击。 它不认识白百和,所以很大一部分爬虫被挡在门外。 。 你可能会说,这不对,我仍然可以使用抢票软件来抢票。 。 是的。抢票软件也不是素食。 他们与铁将军进行“对抗。 。 有一种叫做“编码平台”的东西,你可以了解它。 。 编码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前什么也不做,他们专门帮助人们识别验证码。 当抢票软件遇到验证码时,系统会自动将这些验证码传送给叔叔阿姨。 他们是手动的选择哪个是白百和,哪个是王洛丹,然后把结果发回。 整个过程不需要几秒钟。 。 当然,这样的编码平台也有记忆功能。 如果叔叔和阿姨已经将这张照片标记为“铲子”,那么下次再次出现这张图片时,系统将直接将其判断为“铲子。

经过很长一段时间,12306系统中的图片已经被标记出来了,机器可以识别它们,叔叔阿姨可以坐着和房东打架...你可能会问:12306为什么这么挑剔? 如果它允许爬行者随意爬行,它会死吗? 。 答:会死。 。 你知道每年农历新年前12306是什么吗? 公共数据显示:“在高峰时期,每天的页面浏览量为813.4亿次,每小时点击量为59.3亿次,平均每秒16.48亿次。” 这是添加验证码保护后的数据。 可以想象有多少爬行动物被拦截在外面。 此外,这里没有讨论。 对像我们父母这样的人来说,如果票被抢票软件抢了,他们就不能抢票,这公平吗? 。 铁路被爬行动物“指向”已经够惨了,但它也有一个困难的兄弟,航空。

。 在航空领域,最差的不是国航,不是海航,也不是东航。 是亚洲航空公司。 。 空中爬行动物分布。 许多人可能没有上过亚洲航空公司。 一家低成本的马来西亚航空公司,路线基本上是从中国各地到东南亚旅游胜地,甚至飞机上的矿泉水都要自费购买,是输家穷X假日的首选。 为什么爬行动物这么喜欢亚洲航空公司? 因为它很便宜。 确切地说,因为它经常开出便宜的票。 最初,亚洲航空最初只打算随机赠送一些便宜的门票来吸引游客,但黄牛党是有利可图的。 据我所知,他们就是这样玩的:。 技术房黄牛利用爬虫不断刷新航亚票务界面,一旦有便宜的票,不管3721先击落。 亚航有一条规定,如果拍摄半小时(具体时间不清楚),将自动返回机票池继续销售。

但是黄牛党在爬虫脚本中写了准确的时间,半个小时,不多毫秒,他又拿了票,这么圆。 直到有人从黄牛那里订购了票,黄牛才使用程序在AirAsia系统中放弃票,然后0.00001秒后,为您使用您的名字订了这张票。 “我是个中间人,我在做改变!” 这波骚操作,堪称完美。 第二名是社交。 社会爬行动物灾区是你最喜欢的微博。 这是一张照片:。 这是爬虫经常光顾的微博地址。 这里的代码实际上指向微博的一个接口。 可用于获取某人的微博列表,微博状态,指数等。 怎么做才能得到这个? 好好想想。 如果我能随心所欲地指挥一群机器人,打开某人的微博,刷到某个人,然后疯狂地喜欢它,或者留言,这就是标准的僵尸粉过程。

... 其实僵尸粉只是爬行类的常规操作,比较骚:。 1. 我是路人甲,我的微博没人关注,我用了大量的爬虫,为自己的僵尸粉,一群僵尸在我的微博下点赞评论,很开心。我去找一个游戏制作者告诉他:你看我有这么多粉丝,你可以在这里做广告。 我帮你发一个游戏注册链接,每个人通过我的链接注册游戏,你给我一毛钱。 广告商说,很好,这样做。我发送注册链接,没有人会点击。 不慌,我让十万爬虫继续点击注册链接,然后自动完成注册动作。 我躺在床上,数着我挣来的一万美元。 以上数据不一定符合实际,只是一个逻辑。 具体操作也会更加复杂。 )。 还有吗? 是的。 你不经常在微博上发红包吗? 好吧,我要10万僵尸粉。

你的红包怎么了? 你可以回忆一下,有几件事叫做“比价平台”、“聚合电商”和“返利平台“。 它们一般是一个原则:。 如果你搜索一个产品,这个聚合平台会自动把所有的电子商务产品放在你面前,供你选择。 有淘宝,京东,唯品会苏宁易购。 这是爬行动物的功劳。 他们去淘宝,删除杜蕾斯的图片和价格,并在这里展示。这一原则与谷歌相似。 只是他们没有展示网页,而是展示商品。 但是放在一起比较价格,淘宝被拒绝,京东也被拒绝啊。 ... 然鹅,因机器爬虫模型提出的是人点击,电子商务很难阻止这种事情。 他们甚至不能从12306中学到东西。 你想,如果你在每一点打开一个商品细节,淘宝让你先区分白百和和王洛丹,你一定不会有心情砍手,也许着刀砍马云。

当然,电子商务还有另一种方法来对抗爬虫,即“Web应用防火墙”,即WAF。 简而言之,我们稍后再单独讨论这个问题。 说到这里,童鞋有一个问题:。 那些聚合平台,自己写爬虫,然后帮淘宝京东卖货,他们叫雷锋? 醒醒,同学,雷锋叔叔已经走了很多年了。 让我告诉你这个聚合电商平台的盈利模式:。 1.假设有几家商店出售杜蕾斯,但当用户在这里搜索杜蕾斯时,我有权决定谁的商店在前面,谁在后面。谁给的钱多,我让谁在前面找。 @百度君,你说这个道理吗? 注意每个店铺和淘宝平台不是同一个演员。 淘宝平台不希望它的内容被聚合平台捕获,但每个商店都很高兴有一个更多的渠道来帮助他们销售商品。

) 如果你想投标的话排名良心会受到伤害,也会以更简单的方式——网页上展示独立的广告。 用户访问您的网站,看到页面上的广告,也可以点击。 每次点击,你就能赚钱一次。 也可以充当中间人,收取一些中介费用。 我帮你的商店卖货,你想给我意思吗。 除了给我意义,你还要给来买东西的用户赋予意义。 这种套路,就是“范蠡”这种平台玩法。 4. 接下来是O2O和搜索引擎。 你还记得我在你上车前问你一个问题吗? 你在大众点评看到的信息真的是吃货的评论吗? A:大多数时候,但有时不是。 其中的影响因素是爬行动物。 风告诉我,这些爬行动物可能用来做两件事:。 1. 大众点评毕竟是最好的评论网站。

许多网站从流行的评论中抓取数据,以丰富他们的信息。很多只是对商家的评论,信用价值不高,可以用爬虫模拟消息,点赞,刷他们的信用价值。 因此,理论上说,一旦大众点评对爬行动物的对抗松懈,一些商店就会“刷”到顶端。 。类似的是爬虫对搜索引擎的攻击。 。 正如你可能知道的,搜索引擎决定哪个页面排名第一,而(除了广告)主要的指标是查看哪些搜索结果被更频繁地点击。 。 在这种情况下,我会派爬虫去搜索某个“关键字”,然后拼命点击结果中的一个链接,那么这个网站的权重自然会上升。 这个过程称为SEO(搜索引擎优化)。 。 例如:。 我随机搜索一个关键词。 。 排名在前面的URL可能是SEO。

作为任何搜索引擎,外人绝对不允许使用自己的搜索结果,否则会失去宣传。 他们将通过不时调整算法来对抗SEO。 。 特别是对于许多赌博和色情网站来说,如果搜索引擎敢于收取广告费,让他们走到前面,那么他们就离破产不远了。因此,色情赌博和毒品网站只能使用黑色SEO强迫自己到前面。 在被搜索引擎发现之前,它们很快就会被“降级”。 不过,玉凤有最终决定权。 如果这些色情网站能在一两个小时内登上榜首,他们赚的钱远远超过SEO成本。这就解释了为什么有时我们回头看别人脱裤子。 最后是政府部门。 看看这张照片,都是关于政府信息的爬行。 第二名,北京预约挂号统一平台。 这壶,钉在木板上的小贩的背上。

其他如法院公告,信用中国,信用安徽,爬虫为什么爬取这些信息? 因为有些信息只提供给政府部门。 例如,谁被指控,哪个公司受到了行政处罚,谁进入了不诚实名单。 综合起来,这些信息可以用来记录公司或个人的信誉。 我试图打开排名第四的“信用中国“。 在这个平台上,你可以通过输入身份证号码或手机号码来检查一个人的信用状况。 拉到底部一看,这个网站真的是红苗。 如果一家公司想做信用银行服务,必须先下载信用中国信息到自己的图书馆,然后才能与其他数据结合。 这样,信用中国正在爬行,很容易解释。 但以那种形式,排名七是四川省住建厅。 这是什么样的表演操作? 。 根据玉峰的推测,这可能是一些公司提供的“特殊服务:。

他们编制了四川省各地区的招标情况,然后实时提醒房地产公司:不要睡觉,起床投标。 。 2. 爬行动物战争。 既然如此,我想你会有几个问题。 。 问题1。 爬虫做这么多手势是违法的吗? 。 这个问题真的不简单。 。 我打开了中国最大的互联网安全法“网络​​安全法”,仔细看了半个小时,发现里面没有条款“在互联网上爬取公共信息被认为是非法的”。 。 所以我继续搜索,找到了几个司法解释:。未经授权在用户手机通讯录中爬取50多条记录;未经授权爬取500多条用户淘宝交易记录;未经授权在用户运营商网站上读取500多条通话记录;未经授权获取用户公积金社保5万余条记录。 这些情况可以受到惩罚。

。 但是仔细一看,如果我只是用一台机器而不是用人手点击鼠标和敲击键盘,我所接触的只是公共信息,这并不违反这些司法解释。 (这只是我简单查询的结果,不是代表任何官方意见)。 然而,对于企业来说,爬行动物真的伤害了自己。 有句谚语说:“主救我。” 他们必须组织“民兵”自卫。 问题2谁将赢得爬行动物战争? 爬行者和爬行企业变得越来越敌对。 说白了,他们的对抗正在阻碍彼此的金融道路。 所以很重。 企业经典对抗,大概有几种:图片验证码,滑块验证,屏蔽IP,给访客添加一些加解密操作,爬虫程序资源的使用等。 .... 此图来自验证器的滑块验证技术。 除了这些小模块外,企业还可以通过WAF(Web应用防火墙)来保护,WAF的功能是设置一些规则来拦截那些不兼容的请求。

但是,爬山虎的要求,和真人的要求真的太相似了。我认为这场战争的象征是癌症。 癌细胞的目的是避免对免疫细胞的识别,而免疫细胞的目标是区分哪个是好细胞,哪个是癌细胞。 在我看来,这场针对爬行动物的常规战争即将升级为一场“聪明的战争”,前线将转向云层。 就像腾讯云世界动物基金会,听说人工智能最近被用来识别爬行动物。 他们不会在这里登广告。 还有很多其他的云安全厂商,也开始推防爬虫技术。 然而,正如人类现在很难消除癌症一样,企业也很难完全消除爬行动物。 但我相信这一战线将在对抗中取得微妙的平衡。 在这方面的每一步都需要安全研究人员的辛勤工作。 第三,“中国焦虑地图“。

最后,中格帮你拿到了一张秘密表格。 。 这是Top50。 受爬行昆虫影响最大(取样数据仅供参考)。 除谷歌、YouTube、ask、亚洲航空公司外,其他公司都是中国公司(或机构)。 正是从这些名字的背后,我意识到许多人的痛苦和焦虑。 爬行动物倾向于盈利,它们总是爬到名胜古迹。 而爬行动物觉得有好处,往往让我们忍无可忍的提起痛苦。你看,不。 中铁路客户服务中心“。 无数的旅行者像兄弟一样,他们挣扎在远离家乡的城市里,为了让他们的家人过上更幸福的生活。 是他买一张新年的家庭票很难,这一事实使12306成为爬行者的第一名。 你看,不。 最高人民法院公告查询“。 在中国,我们的信用体系仍然很不完善,骗子和流氓可以继续欺骗新人。

于是诞生了爬虫采集法院公告,形成了民间信用记录的服务。 您看,第十五届“北京预约挂号统一平台“。 我们的医疗改革正在进行中,但像你我这样的普通人仍然很难看到,而且很贵。 便宜又好的医疗资源需要竞争,这就有了“不。 1难求”的现实,只有用爬行动物拼命抢牛的数量现象。 别提坑的虚假广告,刷的数量,爬行动物的影子后面。 有人说技术是有罪的,也有人说技术是无辜的。 我不知道科技是否有罪。我所知道的是,栖息在我们广阔领土上的数十亿爬行动物时刻提醒我们:。 抱怨并不能让世界变得更好。 如果你想生活在一个世界里,用你的手来创造它。 。

编辑作者: Shelby

发布时间: 2020-09-16

声明:本文为原创,作者为 Shelby,转载时请保留本声明及附带文章链接:http://www.dadihl.cn/jichu/3895.html