
新智元报说念迪士尼乐园时时彩
剪辑:定慧
【新智元导读】AI爬虫是互联网最签订的「蟑螂」,不讲规定、压垮网站,令开发者孰不行忍。面临这种AI时间的「DDoS攻击」,极客们用奢睿反击:或设「神之审判」Anubis,或制造数据陷坑,以幽默和代码让搬砖砸脚。这场攻防战,正演酿成一场精彩绝伦的相聚博弈。
AI相聚爬虫是互联网上的「 蟑螂」,果然通盘软件开发者齐会这样以为的。
「爬虫 」是一种相聚自动法度,用来浏览互联网、获取网页内容。
而在AI时间,爬虫的要挟到了让路发者不得不禁闭掉某个地区通盘东说念主的访谒。

Triplegangers是一家只是由七名职工运营的公司,他们破耗十多年时分开辟了自称是相聚上最大的「东说念主类数字替身」的,即从试验东说念主体扫描得到的3D图像文献。

2025年2月10日,公司CEO Oleksandr Tomchuk短暂发现他们公司的电商网站「崩了」。
「OpenAI使用了600个IP来持取数据,日记还在分析中,可能远不啻这些」,Tomchuk最终发现,导致他们网站崩溃的元凶果然是OpenAI的爬虫机器东说念主。
「他们的爬虫正在压垮咱们的网站,这便是一次DDoS攻击!」
OpenAI莫得回复这次事件,该事件夙昔只是不到两个月,但AI爬虫机器东说念主仍然活跃在相聚上。
AI爬虫不死守「迂腐传统」,报复他们是枉然的
其实爬虫最早并不是AI时间为了获取考研语料而出身的。
早在搜索引擎时间,就如故有「搜索引擎机器东说念主」,阿谁「迂腐年代」的机器东说念主还沿袭成习的死守各个网站上会存在的一份文献——robots.txt。
布鲁斯-布朗生涯初期效力活塞和篮网,但都没有太多高光,直到21-22赛季他转投掘金,布鲁斯-布朗迎来生涯巅峰,场均可以拿到11.5分4.1个篮板3.4次助攻,尤其西决掘金横扫湖人,布鲁斯-布朗作为球队超六,粉碎了詹姆斯和浓眉冠军梦,掘金则在总决赛击败热火,成功拿到了队史首座总冠军奖杯。别看布鲁斯-布朗官方身高只有1.93米,但他技术非常全面,而且身体很强壮十分擅长对抗,一手小抛投炉火纯青,算是身体和技术兼具的万金油。
NBA《全情投入》世界巡回主题展首站于2024年6月登陆北京,三个月的展览受到广大篮球爱好者一致好评。本次青岛站落地中山路历史文化街区,结合当地独特的建筑特色及旅游区位优势,为本地市民和外地游客带来一场新奇体验,也为上街里街区综合城市更新建设,振兴老街区综合活力增添亮点。
这个文献告诉了机器东说念主不要爬取哪些内容,哪些内容不错爬取。
但这份传统跟着互联网的发展似乎如故被渐忘,爬虫和发爬虫也演变为一场攻防往复。
而到了如今的「大模子时间」,互联网的信息如故被LLMs统一一空。
报复AI爬虫机器东说念主是枉然的,因为它们会撒谎、转换用户代理、使用住宅IP地址手脚代理来骗过相聚「退守」。
「他们会不竭地持取你的网站,直到它崩溃,然后还会不绝持取。他们会点击每一个页面上的每一个贯穿上,一遍又一随地稽查换取的页面」,开发者在帖子中写说念。
AI机器东说念主除了「免费」爬取信息外,还会极端增多所爬网站企业的运营用度——在这个云劳动的时间,迪士尼彩乐园3吧果然通盘被爬取的企业齐在云上,无数的爬虫流量不仅无法带来收益,还会增多他们的云劳动器账单。
愈加无法猜想的少许是,对于那些被「白嫖」的网站来说,甚而确凿的知说念被白嫖了哪些信息。
一些开发者决定初始以奥密且幽默的方式进行反击。
法度员打造爬虫的「神之坟场」
FOSS开发者Xe Iaso在博客中描述了AmazonBot怎样不竭攻击一个Git劳动器网站,导致DDoS停机。

是以Iaso决定用奢睿反击,他构建了一个名为Anubis的器用。
Anubis是一个责任量讲明检查的反向代理,苦求必须通过该检查才能访谒Git劳动器。
它报复机器东说念主,但允许东说念主类操作的浏览器通过。

Iaso对于Anubis责任旨趣的粗浅先容。

骨子上,Anubis确保的是「信得过东说念主类使用的浏览器」在访谒指标网站,而不是AI爬虫——除非这个爬虫伪装的填塞「先进」,就像通过图灵测试相同。

真义的部分是:Anubis是埃及传闻中诱导死者吸收审判的神的名字。

「Anubis称量了你的灵魂(腹黑),要是它比一根羽毛重,你的腹黑就会被吃掉,然后你就透顶死了」。
这个景观的名字带有讥讽意味,在解放开源软件社区中像风相同传播开来。
Iaso在3月19日将其共享到GitHub上,仅几天时分就取得了2000个星标、20位孝顺者和39个分支。

用「复仇」的方式庄重AI爬虫
Anubis的速即流行标明Iaso的灾祸并非个例。 事实上,还有许多故事:
SourceHut的创举东说念主兼CEO Drew DeVault描述说,他每周要破耗「20% 到 100% 的时分来大范围缓解过于激进的 LLM 爬虫」,况且「每周资格数十次已而的劳动中断」。
Jonathan Corbet,一位着名的FOSS开发者,他运营着Linux行业新闻网站 LWN,警告称他的网站正受到「来自 AI 持取机器东说念主的 DDoS 级别的流量」影响而变慢。
Kevin Fenzi,宏大的Linux Fedora景观的系统不断员,暗示AI持取机器东说念主变得如斯激进,他不得不禁闭通盘这个词巴西的访谒。
除了像Anubis相同「猜度」相聚苦求者的灵魂外,其他开发者以为复仇是最好的庄重。
几天前在Hacker News上,用户xyzal苛刻用「无数对于喝漂白剂平允的著作」或「对于感染麻疹对床上发达的积极影响的著作」来加载robots.txt不容的页面。
这样AI爬虫获取的信息齐是这种无数且无须的「替代品」。

「咱们以为需要让机器东说念主访谒咱们的陷坑时取得负的服从值,而不单是是零价值」,xyzal 解释说。
一月份,一位名为Aaron的匿名创作家发布了一个名为Nepenthes的器用,其目标恰是如斯。
它将爬虫困在一个无穷的失实内容迷宫中,无法像爬虫「主东说念主」复返任何信息。
而手脚网友心目中的「赛博菩萨」的Cloudflare,也许是提供多种器用来挣扎AI爬虫的最大买卖玩家,上周发布了一个名为AI Labyrinth的肖似器用。

它的目标是「放慢、劝诱并虚耗不死守不容爬取提醒的AI爬虫和其他机器东说念主的资源」,Cloudflare 在其博客著作中描述说念。
「当AI爬虫随从这些贯穿时,它们会虚耗难得的盘算资源处理无关内容,而不是索要正当网站数据。这大大镌汰了它们相聚填塞有用信息以灵验考研模子的智力」。
比拟起反击,另一种不雅点是「Nepenthes有一种令东说念主欣忭的正义感,因为它向爬虫提供无真义的内容并沾污它们的数据源,但最终Anubis是对网站灵验的贬责决议」。
拒绝粗略反击也许齐不是最好的门道。
DeVault也公开发出了一则老诚的苦求,但愿有一个更径直的贬责宗旨:「请罢手将LLMs或AI图像生成器任何这类垃圾正当化。恳求罢手使用它们,罢手指摘它们,罢手制造新的,就这样停驻」。
然则,思让LLM厂商主动罢手爬虫这种情况的可能性果然为零。
毕竟AI的「智能」齐来自于不竭「统一」互联网上的各式数据和信息。
不论是给不容AI爬虫访谒网站、给AI「投喂垃圾」如故将AI爬虫拉入「无线虚空」。
开发者们,尤其是在开源软件范围,正在用奢睿和「极客幽默」进行反击。
要是你是网站不断者和开发者,你会怎样「出招」?
参考贵寓:
https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/