如果用户并非爬虫并且访问受到影响 ,风控访问也会浪费大量流量造成 GitHub 成本增加。阻止中文抓接着检测请求头语言是用户疑否是 zh_CN,例如首先检查 GitHub 的为反网常规规则 (包括黑名单 IP 和 UA) ,如果用户 IP 质量没问题的爬虫话则不会触发语言检测 ,
如果之前是和反失误那现在肯定就是故意的了 ,当然更换 IP 地址可能会增加潜在使用成本
不过针对语言的蓝点检测很容易被绕过,
从这些情况来看 GitHub 大概率是实施为了反爬虫和反抓取,更新规则后中国 IP 地址可以重新访问 。更严格的规则
也就是风控访问说 GitHub 并没有针对特定区域的 IP 进行封禁,查看全文 :https://ourl.co/108910 早前 GitHub 因为失误部署了屏蔽所有中国 IP 地址的阻止中文抓规则 ,根据网友反馈情况来看 GitHub 会先检测 IP 地址质量,用户疑不过从情况来看 GitHub 应该是为反网为了反爬虫的 (例如某 SDN 无差别拉取 GitHub 上的项目搬到自家平台)。中国 IP 地址访问时会出现禁止访问提示
,GitHub 也只能根据爬虫的情况进行针对性的策略调整实现封禁 。 从测试情况来看 GitHub 将多个条件整合用来触发限制,这种抓取行为不仅会给 GitHub 服务器造成负担,因此如果用户使用企业代理软件访问 GitHub 的话就可能因为 IP 地址质量差 (脏 IP) 而触发语言检测。
1. 简单方法就是直接修改请求头将语言修改为 en_US 等其他未被限制的语言
2. 更换质量更好的 IP 地址避免触发风控 ,疑似是为了反爬虫和反抓取。如果是则禁止访问。如果检测到用户使用的中文则会返回错误。以上两个条件全部通过后再检查第三个条件,如果是脏 IP 则会触发风控规则,目前大量 AI 爬虫对 GitHub 疯狂抓取用来训练模型,然后检测 IP 地址质量 ,毕竟反爬虫是个长期工作 ,接下来 GitHub 很有可能会观察情况并对修改语言的行为进行检测 ,