Nginx服务器上如何配置规则，拦截AI爬虫、垃圾SEO蜘蛛采集器、拦截空UA

网站每天消耗大量流量，排查服务器日志后才发现，这些流量大多来自毫无价值的垃圾蜘蛛、AI爬虫、各种垃圾SEO采集器。

这些垃圾蜘蛛不仅不会为网站带来任何正向价值，反而会持续占用服务器带宽和资源，拖慢网站加载速度，甚至影响正常用户访问。想要从根源上解决这个问题，最直接有效的方法就是屏蔽它们。

当然，不能影响正常用户、不影响百度 / 谷歌 / 必应。我整理了一些规则，专门用于屏蔽各类常见垃圾蜘蛛及无效的ai爬虫，建议收藏备用或转摘。

Nginx 配置文件（以宝塔为例）

位置：网站 → 你的站点 → 设置 → 伪静态

# 1. 拦截 AI 爬虫
if ($http_user_agent ~* "GPTBot|ChatGPT|ClaudeBot|Anthropic|OpenAI|Perplexity|PPLX|Google-Extended|Applebot-Extended|Amazonbot") {
    return 403;
}

# 2. 拦截垃圾 SEO 蜘蛛 / 采集器
if ($http_user_agent ~* "AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|Webdup|Ezooms") {
    return 403;
}

# 3. 拦截 空UA / 极短UA（扫描器、恶意访问）
if ($http_user_agent ~* "^$|^.{0,5}$") {
    return 403;
}

同时配合加 robots.txt 规则

# AI 爬虫
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: PPLX-*
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: ByteDance
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Claude-Web
Disallow: /

# 垃圾蜘蛛
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: Webdup
Disallow: /
User-agent: Ezooms
Disallow: /
User-agent: ScreamingFrog
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: AspiegelBot
Disallow: /
User-agent: Go-http-client
Disallow: /

# 正常搜索引擎
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Bingbot-Image
Allow: /
User-agent: *
Crawl-delay: 5
Allow: /

保存为 robots.txt，文件拷贝放置到网站更目录下。访问测试：https://你的域名/robots.txt，能打开就说明生效。

爬虫 UA 详细说明（所属主体、用途、封禁原因）

一、AI 类爬虫（用于大模型训练 / AI 检索，纯消耗资源，无有效访客）

User-Agent	所属公司/项目	主要用途	封禁原因
GPTBot、ChatGPT-User、OAI-SearchBot	OpenAI（美国）	爬取全网内容，用于训练 ChatGPT 系列大模型、AI 检索服务	高并发抓取，占用带宽与服务器资源；站点内容被用于商业AI训练，不会带来真实访问流量
ClaudeBot、anthropic-ai、Claude-Web	Anthropic（美国）	为 Claude 系列AI大模型采集训练数据	纯资源消耗型爬虫，无访客转化，抓取频率高，加重服务器负载
PerplexityBot、PPLX-*	Perplexity AI（美国）	AI 搜索引擎爬虫，依托全网内容提供问答、检索服务	访问量巨大，仅做数据抓取，无法为站点带来有效用户
CCBot	Common Crawl（开源公共项目）	全网网页数据归档，是全球绝大多数AI模型的基础数据源	抓取范围广、频次高，属于底层AI数据源爬虫，无任何商业/访客价值
Google-Extended	Google（谷歌）	专门为 Gemini 谷歌大模型采集训练内容	区别于正规搜索爬虫，仅服务AI训练，不产生搜索流量，无效请求多
Applebot-Extended	Apple（苹果）	为 Apple Intelligence 苹果智能系统抓取训练数据	商业AI专用爬虫，只消耗资源，不引流
Amazonbot	Amazon（亚马逊）	亚马逊旗下AI体系数据采集爬虫	纯数据抓取，无真实访客，占用服务器资源
cohere-ai	Cohere AI（加拿大）	海外主流商用大模型训练数据采集	高频抓取，仅服务自身AI业务，对站点无收益
YouBot	You.com	海外AI搜索引擎爬虫	以AI检索为目的抓取页面，引流能力极差，无效流量占比高
ByteDance	字节跳动	为旗下AI产品（豆包、内容推荐模型等）采集数据	并发访问量大，多为后台数据抓取，非正常用户访问

二、垃圾 SEO / 站点分析蜘蛛（第三方工具爬虫，用于竞品分析、数据统计）

User-Agent	所属公司/项目	主要用途	封禁原因
AhrefsBot	Ahrefs（海外头部SEO工具厂商）	网站外链、关键词排名、权重、竞品数据分析	抓取强度极高，单日请求量庞大，仅生成商业分析数据，不带来访客
SemrushBot、BLEXBot	Semrush（海外知名SEO营销工具）	网站流量、收录、关键词、竞品监控分析	高频轮询抓取，纯工具类访问，无任何转化价值，消耗大量带宽
MJ12bot	Majestic	专业外链查询、域名权重分析工具爬虫	业内公认暴力爬虫，常无视爬虫协议，疯狂扫站，极易造成服务器负载飙升
DotBot	Raven Tools / Moz	综合型站长SEO分析工具	周期性批量抓取页面，仅用于第三方数据统计，属于无效流量
ScreamingFrog	Screaming Frog	网站整站爬取、SEO审计、页面抓取工具	多用于批量扒取全站链接与内容，单IP短时间内大量请求，有爬虫/采集风险
SeznamBot	Seznam	捷克本土小型搜索引擎	海外小众引擎，几乎无国内访客，抓取行为频繁，收益远低于资源消耗
PetalBot、AspiegelBot	华为花瓣搜索	华为旗下搜索引擎爬虫	国内市场占有率低，有效访客极少，抓取频率偏高，性价比极低

三、采集器、扫描器类（恶意采集、漏洞扫描、自动化工具）

User-Agent	来源类型	主要用途	封禁原因
Webdup、Ezooms	通用采集工具	整站内容复制、文章批量采集、镜像站点搭建	直接盗取站点原创内容，属于恶意侵权行为，同时产生海量无效请求
Go-http-client	通用开源网络库	漏洞扫描、端口探测、恶意脚本、自动化攻击工具常用UA	该UA基本对应扫描器、恶意测试程序，极少为正常访问，存在安全风险
空UA / 1-5位短UA	各类扫描器、恶意工具、刷量脚本	匿名批量扫站、压力测试、恶意访问	无合法客户端标识，是网络扫描、CC攻击、恶意爬虫的典型特征，必须拦截

四、允许通行的正规搜索引擎（可带来真实访客，保留抓取权限）

User-Agent	所属主体	作用说明
Baiduspider、Baiduspider-Image	百度	国内主流搜索引擎爬虫，可带来大量自然搜索访客，正常收录页面
Googlebot、Googlebot-Image	谷歌	全球主流搜索引擎，面向海外流量，合规抓取页面
Bingbot、Bingbot-Image	必应	微软旗下搜索引擎，提供搜索流量，抓取行为规范

很多不讲武德的老六，只能去屏蔽 IP 段了。

补充说明：

robots.txt 性质：属于行业君子协议，正规AI、SEO爬虫会遵守；恶意扫描器、采集器会直接无视，因此必须搭配 Nginx/IIS 规则强制拦截。
核心封禁逻辑：上表所有被拦截UA，共性为只消耗服务器带宽、CPU资源，不产生真实用户与业务收益。
Crawl-delay: 5：针对未知爬虫限制爬取间隔为5秒，进一步降低突发流量压力。

本文地址：https://aijun.org/Nginx-rewrite-robots/

如果对本文有什么问题或疑问都可以在评论区留言，我看到后会尽量解答。