FoxThinking #1: 互联网殖民时代

by SouthFox

2025-10-19

一直以来都有为互联网测算流量占比的说法,有说是色情影片的有说是 P2P 的,那么到了现在关于这点的讨论已经 可以终结了——现在互联网上为了 AI 预料的抓取爬虫流量最多。

互联网殖民时代

在星期五下午毫无征兆地收到了有服务下线的告警,登录到服务器上一看,资源占用都被 git blame 占满了,之 前我已经遇到过这种情况马上定位到我的 forgejo 实例又被爬了。我打开 nginx 的日志一看发现我一个用作 缓存镜像的 guix 仓库历史记录被将近每秒十多次的请求着。仓库的历史记录会底层调取 git 之行一些计算操 作,而不出意外的服务器资源就被耗光而导致服务器上的所有服务除了意外。

马上我就对相关的请求写了条规则直接正则匹配相关历史记录的请求直接返回 401 ,同时观察 nginx 的访问日 志里的 agent 标识。之前遇到过类似的情况所以就更新了下 robots.txt 文件禁止了历史记录和其它一些消耗 资源路径的抓取,如果是还有点脸面的爬虫应该是要遵守规则不进行爬取,但现在看着日志种各种 PC 的、安卓的、MAC 的、 IOS 的花样繁多的 agent 标识看得我是一股无名火直冒啊。这些 AI 爬虫已经连最后的脸面都不要了开始伪装成正常的 访问请求开始不遵守 robots.txt 仅为抓取一点数据,哪怕对方的服务器已经开始哀嚎返回 504 错误也不管不顾。 AI 爬虫程序只需要启动队列就好了,服务方要考虑的东西就多了。

在暂时禁用访问相关 uri 后,我开始查看一些其它数据,发现我的服务器本月竟然已经产生了 750G 的带宽,这可真 是惊呆了,谁能想象我这样一个与世隔绝自娱自乐自用的服务能在不到二十天里产生那么多流量。这就像是我在荒野种某块 沙地上堆了个沙堡,结果隔天一看发现被围得水泄不通,闪光灯和聚光灯齐飞,当然都不是真人而全部都是爬虫。我愿称之为 互联网殖民主义,之前个人信息是算法的「燃料」,所以要搞平台化、垂直化,把众人变为「数字农奴」在自己的地盘上搞 「数字封建」。而现在随着 AI 风头任何其它网站的数据都是 AI 的「燃料」,所以就开始「大航海」远征践踏其它大陆了。

阅读

  • A small number of samples can poison LLMs of any size \ Anthropic

    对于 13B 参数的模型,哪怕占比 0.00016% 的 420k tokens 都会污染模型让其输出错误结果。说真的我还真有点打算 直接返回污染数据给哪些 AI 爬虫了,虽然不一定能「用得上」但至少也不能让爬虫方那么轻松啊。

  • Software update bricks some Jeep 4xe hybrids over the weekend - Ars Tech...

    在路上点了一下升级然后十多分钟后可能汽车就会卡在路边,这真是令人担忧……我想起了去年的 2024年CrowdStrike大规模蓝屏事件 ,没 有测试的软件升级总会出事。所以我想后半辈子我不太想去植入义体当赛博人了,会当个拄着杖子在路边看着哪 些小年轻叹道世风不古的老顽固。好吧,或许可以去做个人格重刷,只要我克服可能会发生运行了十几天卡死在 路边情况,战胜现在看得的这些个报道的影响。

  • Modern Linux Tools - Gamedev Guide

    一些 linux 系统下重用命令的「现代」替换,看了一些其实我已经在重度使用了其中几个了例如, fzfripgrepfd 。所以我又试用一些其它几个,基本很多应用在在 archlinux 源里都有,所以还是很 方便就能进行试用的:

    • dust: 很快的 du ,而且附带一个可视化的长度条,只不过有点让我过载一时有点看不清,不过确实很快

    • httpie: 一个用 python 写的 curl ?能为输出结果进行美观打印和高亮,感觉也是有点让人感官过载

    • zoxide: 用 z 代替 cd ,仓库的动图很形象展示了相关功能,不过想试试看有没有其它功能,否则还是令 人疑惑何必要代替 cd

    • glances: 一个用 python 写的 top ,布局和操作比 htop 好一点,之后看看有什么深入的操作吧

Present day, Present time

在周末靠着点点力气开始搞起了整理,把堆在地上的杂物(主要还是书)整理一下,发现我可能已经在做《瓦尔登湖》全收集 成就了,誓要把所有版次的都买到。同时整理中还检出了一两本连塑封都没拆的书籍,这让我顿感惭愧,还是少买点书吧,至 少要把没看完的看完了再买。然后给 steam deck 充上电打算玩点什么,当时看到了《奥伯拉丁的回归》打折的消息所 以也打算买下,然后打开库存发现我竟然已经买过了,这让我顿感惊讶同时和惭愧,还是少买点游戏吧,至少要把没玩完的完 了再买……

慢慢得已经在建立起一点结构性了,虽然很缓慢但至少有在推动,接下来就看看阅读文章和书籍的流程如何接上周刊。

如不想授权 Giscus 应用,也可以点击下方左上角数字直接跳转到 Github Discussions 进行评论。