网站每天消耗大量流量,排查服务器日志后才发现,这些流量大多来自毫无价值的垃圾蜘蛛、AI爬虫、各种垃圾SEO采集器。

这些垃圾蜘蛛不仅不会为网站带来任何正向价值,反而会持续占用服务器带宽和资源,拖慢网站加载速度,甚至影响正常用户访问。想要从根源上解决这个问题,最直接有效的方法就是屏蔽它们。

当然,不能影响正常用户、不影响百度 / 谷歌 / 必应。我整理了一些规则,专门用于屏蔽各类常见垃圾蜘蛛及无效的ai爬虫,建议收藏备用或转摘。

Nginx 配置文件(以宝塔为例)

位置:网站 → 你的站点 → 设置 → 伪静态

# 1. 拦截 AI 爬虫
if ($http_user_agent ~* "GPTBot|ChatGPT|ClaudeBot|Anthropic|OpenAI|Perplexity|PPLX|Google-Extended|Applebot-Extended|Amazonbot") {
    return 403;
}

# 2. 拦截垃圾 SEO 蜘蛛 / 采集器
if ($http_user_agent ~* "AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|Webdup|Ezooms") {
    return 403;
}

# 3. 拦截 空UA / 极短UA(扫描器、恶意访问)
if ($http_user_agent ~* "^$|^.{0,5}$") {
    return 403;
}

同时配合加 robots.txt 规则

# AI 爬虫
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: PPLX-*
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: ByteDance
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Claude-Web
Disallow: /

# 垃圾蜘蛛
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: Webdup
Disallow: /
User-agent: Ezooms
Disallow: /
User-agent: ScreamingFrog
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: AspiegelBot
Disallow: /
User-agent: Go-http-client
Disallow: /

# 正常搜索引擎
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Bingbot-Image
Allow: /
User-agent: *
Crawl-delay: 5
Allow: /

保存为 robots.txt,文件拷贝放置到网站更目录下。访问测试:https://你的域名/robots.txt,能打开就说明生效。

爬虫 UA 详细说明(所属主体、用途、封禁原因)

一、AI 类爬虫(用于大模型训练 / AI 检索,纯消耗资源,无有效访客)

User-Agent所属公司/项目主要用途封禁原因
GPTBot、ChatGPT-User、OAI-SearchBotOpenAI(美国)爬取全网内容,用于训练 ChatGPT 系列大模型、AI 检索服务高并发抓取,占用带宽与服务器资源;站点内容被用于商业AI训练,不会带来真实访问流量
ClaudeBot、anthropic-ai、Claude-WebAnthropic(美国)为 Claude 系列AI大模型采集训练数据纯资源消耗型爬虫,无访客转化,抓取频率高,加重服务器负载
PerplexityBot、PPLX-*Perplexity AI(美国)AI 搜索引擎爬虫,依托全网内容提供问答、检索服务访问量巨大,仅做数据抓取,无法为站点带来有效用户
CCBotCommon Crawl(开源公共项目)全网网页数据归档,是全球绝大多数AI模型的基础数据源抓取范围广、频次高,属于底层AI数据源爬虫,无任何商业/访客价值
Google-ExtendedGoogle(谷歌)专门为 Gemini 谷歌大模型采集训练内容区别于正规搜索爬虫,仅服务AI训练,不产生搜索流量,无效请求多
Applebot-ExtendedApple(苹果)为 Apple Intelligence 苹果智能系统抓取训练数据商业AI专用爬虫,只消耗资源,不引流
AmazonbotAmazon(亚马逊)亚马逊旗下AI体系数据采集爬虫纯数据抓取,无真实访客,占用服务器资源
cohere-aiCohere AI(加拿大)海外主流商用大模型训练数据采集高频抓取,仅服务自身AI业务,对站点无收益
YouBotYou.com海外AI搜索引擎爬虫以AI检索为目的抓取页面,引流能力极差,无效流量占比高
ByteDance字节跳动为旗下AI产品(豆包、内容推荐模型等)采集数据并发访问量大,多为后台数据抓取,非正常用户访问

二、垃圾 SEO / 站点分析蜘蛛(第三方工具爬虫,用于竞品分析、数据统计)

User-Agent所属公司/项目主要用途封禁原因
AhrefsBotAhrefs(海外头部SEO工具厂商)网站外链、关键词排名、权重、竞品数据分析抓取强度极高,单日请求量庞大,仅生成商业分析数据,不带来访客
SemrushBot、BLEXBotSemrush(海外知名SEO营销工具)网站流量、收录、关键词、竞品监控分析高频轮询抓取,纯工具类访问,无任何转化价值,消耗大量带宽
MJ12botMajestic专业外链查询、域名权重分析工具爬虫业内公认暴力爬虫,常无视爬虫协议,疯狂扫站,极易造成服务器负载飙升
DotBotRaven Tools / Moz综合型站长SEO分析工具周期性批量抓取页面,仅用于第三方数据统计,属于无效流量
ScreamingFrogScreaming Frog网站整站爬取、SEO审计、页面抓取工具多用于批量扒取全站链接与内容,单IP短时间内大量请求,有爬虫/采集风险
SeznamBotSeznam捷克本土小型搜索引擎海外小众引擎,几乎无国内访客,抓取行为频繁,收益远低于资源消耗
PetalBot、AspiegelBot华为花瓣搜索华为旗下搜索引擎爬虫国内市场占有率低,有效访客极少,抓取频率偏高,性价比极低

三、采集器、扫描器类(恶意采集、漏洞扫描、自动化工具)

User-Agent来源类型主要用途封禁原因
Webdup、Ezooms通用采集工具整站内容复制、文章批量采集、镜像站点搭建直接盗取站点原创内容,属于恶意侵权行为,同时产生海量无效请求
Go-http-client通用开源网络库漏洞扫描、端口探测、恶意脚本、自动化攻击工具常用UA该UA基本对应扫描器、恶意测试程序,极少为正常访问,存在安全风险
空UA / 1-5位短UA各类扫描器、恶意工具、刷量脚本匿名批量扫站、压力测试、恶意访问无合法客户端标识,是网络扫描、CC攻击、恶意爬虫的典型特征,必须拦截

四、允许通行的正规搜索引擎(可带来真实访客,保留抓取权限)

User-Agent所属主体作用说明
Baiduspider、Baiduspider-Image百度国内主流搜索引擎爬虫,可带来大量自然搜索访客,正常收录页面
Googlebot、Googlebot-Image谷歌全球主流搜索引擎,面向海外流量,合规抓取页面
Bingbot、Bingbot-Image必应微软旗下搜索引擎,提供搜索流量,抓取行为规范

补充说明:

  1. robots.txt 性质:属于行业君子协议,正规AI、SEO爬虫会遵守;恶意扫描器、采集器会直接无视,因此必须搭配 Nginx/IIS 规则强制拦截。
  2. 核心封禁逻辑:上表所有被拦截UA,共性为只消耗服务器带宽、CPU资源,不产生真实用户与业务收益
  3. Crawl-delay: 5:针对未知爬虫限制爬取间隔为5秒,进一步降低突发流量压力。