Nginx服务器上如何配置规则,拦截AI爬虫、垃圾SEO蜘蛛采集器、拦截空UA
网站每天消耗大量流量,排查服务器日志后才发现,这些流量大多来自毫无价值的垃圾蜘蛛、AI爬虫、各种垃圾SEO采集器。
这些垃圾蜘蛛不仅不会为网站带来任何正向价值,反而会持续占用服务器带宽和资源,拖慢网站加载速度,甚至影响正常用户访问。想要从根源上解决这个问题,最直接有效的方法就是屏蔽它们。
当然,不能影响正常用户、不影响百度 / 谷歌 / 必应。我整理了一些规则,专门用于屏蔽各类常见垃圾蜘蛛及无效的ai爬虫,建议收藏备用或转摘。
Nginx 配置文件(以宝塔为例)
位置:网站 → 你的站点 → 设置 → 伪静态
# 1. 拦截 AI 爬虫
if ($http_user_agent ~* "GPTBot|ChatGPT|ClaudeBot|Anthropic|OpenAI|Perplexity|PPLX|Google-Extended|Applebot-Extended|Amazonbot") {
return 403;
}
# 2. 拦截垃圾 SEO 蜘蛛 / 采集器
if ($http_user_agent ~* "AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|Webdup|Ezooms") {
return 403;
}
# 3. 拦截 空UA / 极短UA(扫描器、恶意访问)
if ($http_user_agent ~* "^$|^.{0,5}$") {
return 403;
}同时配合加 robots.txt 规则
# AI 爬虫
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: PPLX-*
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: ByteDance
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
# 垃圾蜘蛛
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: Webdup
Disallow: /
User-agent: Ezooms
Disallow: /
User-agent: ScreamingFrog
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: AspiegelBot
Disallow: /
User-agent: Go-http-client
Disallow: /
# 正常搜索引擎
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Bingbot-Image
Allow: /
User-agent: *
Crawl-delay: 5
Allow: /保存为 robots.txt,文件拷贝放置到网站更目录下。访问测试:https://你的域名/robots.txt,能打开就说明生效。
爬虫 UA 详细说明(所属主体、用途、封禁原因)
一、AI 类爬虫(用于大模型训练 / AI 检索,纯消耗资源,无有效访客)
| User-Agent | 所属公司/项目 | 主要用途 | 封禁原因 |
|---|---|---|---|
| GPTBot、ChatGPT-User、OAI-SearchBot | OpenAI(美国) | 爬取全网内容,用于训练 ChatGPT 系列大模型、AI 检索服务 | 高并发抓取,占用带宽与服务器资源;站点内容被用于商业AI训练,不会带来真实访问流量 |
| ClaudeBot、anthropic-ai、Claude-Web | Anthropic(美国) | 为 Claude 系列AI大模型采集训练数据 | 纯资源消耗型爬虫,无访客转化,抓取频率高,加重服务器负载 |
| PerplexityBot、PPLX-* | Perplexity AI(美国) | AI 搜索引擎爬虫,依托全网内容提供问答、检索服务 | 访问量巨大,仅做数据抓取,无法为站点带来有效用户 |
| CCBot | Common Crawl(开源公共项目) | 全网网页数据归档,是全球绝大多数AI模型的基础数据源 | 抓取范围广、频次高,属于底层AI数据源爬虫,无任何商业/访客价值 |
| Google-Extended | Google(谷歌) | 专门为 Gemini 谷歌大模型采集训练内容 | 区别于正规搜索爬虫,仅服务AI训练,不产生搜索流量,无效请求多 |
| Applebot-Extended | Apple(苹果) | 为 Apple Intelligence 苹果智能系统抓取训练数据 | 商业AI专用爬虫,只消耗资源,不引流 |
| Amazonbot | Amazon(亚马逊) | 亚马逊旗下AI体系数据采集爬虫 | 纯数据抓取,无真实访客,占用服务器资源 |
| cohere-ai | Cohere AI(加拿大) | 海外主流商用大模型训练数据采集 | 高频抓取,仅服务自身AI业务,对站点无收益 |
| YouBot | You.com | 海外AI搜索引擎爬虫 | 以AI检索为目的抓取页面,引流能力极差,无效流量占比高 |
| ByteDance | 字节跳动 | 为旗下AI产品(豆包、内容推荐模型等)采集数据 | 并发访问量大,多为后台数据抓取,非正常用户访问 |
二、垃圾 SEO / 站点分析蜘蛛(第三方工具爬虫,用于竞品分析、数据统计)
| User-Agent | 所属公司/项目 | 主要用途 | 封禁原因 |
|---|---|---|---|
| AhrefsBot | Ahrefs(海外头部SEO工具厂商) | 网站外链、关键词排名、权重、竞品数据分析 | 抓取强度极高,单日请求量庞大,仅生成商业分析数据,不带来访客 |
| SemrushBot、BLEXBot | Semrush(海外知名SEO营销工具) | 网站流量、收录、关键词、竞品监控分析 | 高频轮询抓取,纯工具类访问,无任何转化价值,消耗大量带宽 |
| MJ12bot | Majestic | 专业外链查询、域名权重分析工具爬虫 | 业内公认暴力爬虫,常无视爬虫协议,疯狂扫站,极易造成服务器负载飙升 |
| DotBot | Raven Tools / Moz | 综合型站长SEO分析工具 | 周期性批量抓取页面,仅用于第三方数据统计,属于无效流量 |
| ScreamingFrog | Screaming Frog | 网站整站爬取、SEO审计、页面抓取工具 | 多用于批量扒取全站链接与内容,单IP短时间内大量请求,有爬虫/采集风险 |
| SeznamBot | Seznam | 捷克本土小型搜索引擎 | 海外小众引擎,几乎无国内访客,抓取行为频繁,收益远低于资源消耗 |
| PetalBot、AspiegelBot | 华为花瓣搜索 | 华为旗下搜索引擎爬虫 | 国内市场占有率低,有效访客极少,抓取频率偏高,性价比极低 |
三、采集器、扫描器类(恶意采集、漏洞扫描、自动化工具)
| User-Agent | 来源类型 | 主要用途 | 封禁原因 |
|---|---|---|---|
| Webdup、Ezooms | 通用采集工具 | 整站内容复制、文章批量采集、镜像站点搭建 | 直接盗取站点原创内容,属于恶意侵权行为,同时产生海量无效请求 |
| Go-http-client | 通用开源网络库 | 漏洞扫描、端口探测、恶意脚本、自动化攻击工具常用UA | 该UA基本对应扫描器、恶意测试程序,极少为正常访问,存在安全风险 |
| 空UA / 1-5位短UA | 各类扫描器、恶意工具、刷量脚本 | 匿名批量扫站、压力测试、恶意访问 | 无合法客户端标识,是网络扫描、CC攻击、恶意爬虫的典型特征,必须拦截 |
四、允许通行的正规搜索引擎(可带来真实访客,保留抓取权限)
| User-Agent | 所属主体 | 作用说明 |
|---|---|---|
| Baiduspider、Baiduspider-Image | 百度 | 国内主流搜索引擎爬虫,可带来大量自然搜索访客,正常收录页面 |
| Googlebot、Googlebot-Image | 谷歌 | 全球主流搜索引擎,面向海外流量,合规抓取页面 |
| Bingbot、Bingbot-Image | 必应 | 微软旗下搜索引擎,提供搜索流量,抓取行为规范 |
补充说明:
- robots.txt 性质:属于行业君子协议,正规AI、SEO爬虫会遵守;恶意扫描器、采集器会直接无视,因此必须搭配 Nginx/IIS 规则强制拦截。
- 核心封禁逻辑:上表所有被拦截UA,共性为只消耗服务器带宽、CPU资源,不产生真实用户与业务收益。
Crawl-delay: 5:针对未知爬虫限制爬取间隔为5秒,进一步降低突发流量压力。
Copyright Notice: This article is an original work. Copyright belongs to aijun's blog. Please contact the author for permission before reprinting.
Article URL: https://aijun.org/Nginx-rewrite-robots/
If you have any questions or concerns about this article, feel free to leave a comment. I will try my best to respond as soon as possible.