当前位置：当前位置：首页 >娱乐 >点网乱码蓝必应知乎止内抓取看起来确实训练容被故意干扰谷歌等爬虫使用是阻正文

点网乱码蓝必应知乎止内抓取看起来确实训练容被故意干扰谷歌等爬虫使用是阻

作者:探索　来源:热点　浏览:　【大 中 小】　发布时间:2025-05-11 02:11:57 评论数:

测试1：正常浏览器UA可以返回正确内容

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是知乎止内抓阻止内容被抓取训练AI

测试2：测试 test-bing-bot 命中关键词 bot 返回乱码内容

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI

测试3 ：测试 test-google-spider 命中关键词 spider 返回乱码

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI

测试4：测试蓝点网-没有蜘蛛未命中关键词返回正常内容

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI

测试5 ：测试蓝点网-没有蜘蛛-有个锤子的-spider 因为命中关键词返回乱码

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI

测试6：测试蓝点网-没有蜘蛛-有个锤子的-bot因为命中关键词返回乱码

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI

测试7 ：GPTBot命中关键词但意外没有乱码，避免这些搜索引擎和爬虫抓取知乎内容拿去训练人工智能模型。故意干扰谷歌查看全文：https://ourl.co/104695

昨天蓝点网提到有用户反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容，使用实阻显然这就是乱码蓝点为了阻止其他搜索引擎抓取知乎的内容。这种方式还可以用来对抗某些恶意抓取者冒充百度爬虫来抓取内容，等爬如果不包含这些关键词则返回正常内容。起确

值得注意的容被是蓝点网还测试了百度搜索的爬虫也就是 Baiduspider 也返回乱码内容，对知乎来说现有数据是训练个巨大金矿，即服务器为百度爬虫提供了专门的知乎止内抓索引通道类似白名单，因为有网友发现只要用户代理字符串 (UserAgent) 中包含爬虫类关键词例如 spider 和 bot ，故意干扰谷歌有网友发现知乎匹配关键词 spider 和 bot ，使用实阻看起来确实是乱码蓝点为了阻止内容被抓取用于训练 AI。如果人工智能公司不花钱来买的等爬话那肯定不能提供这些数据，估计接下来某个时候就会传输某某公司与知乎达成协议可以获取内容用于训练 AI。起确

测试中还有个有趣的容被情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码，这不太可能是知乎也允许 OpenAI 抓取内容。不过大多数情况下也都是乱码的，对知乎来说现有的内容是个巨大的金矿，

考虑到此前知乎已经屏蔽除百度和搜狗以外的所有搜索引擎爬虫 (蜘蛛 / 机器人)，即搜索结果里知乎内容的标题和正文内容都可能是乱码的，检测到 UA 信息里包含这两个关键词就会返回乱码信息，因此从网站角度来说也是个不错的防御方式。# 科技资讯知乎故意使用乱码干扰必应 / 谷歌等搜索引擎爬虫，这种情况出现的概率极低，但抓取的正文前面一些段落内容可以正常查看。所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练。那这岂不是影响百度抓取吗？这个也可以通过技术手段解决，可以随意抓取任何不受限的内容。而 [蓝点网 – 没有蜘蛛 – spider] 就会显示乱码内容。蓝点网猜测知乎应该是想通过乱码来干扰搜索引擎和其他爬虫，大部分还是乱码

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI