S
SEO
393
24 Апреля
0

Список поисковых ботов (user agent) для ChatGPT и других AI-систем

Kate

Теперь мы есть в Telegram! Самое свежее на нашем канале

Мы собрали список всех ИИ-поисковых ботов, чтобы вы могли разрешить или, наоборот, запретить сканирование вашего сайта чат-ботам вроде ChatGPT.

ИИ-поиск меняет то, как люди находят наш контент. ChatGPT, Claude, Perplexity, Deepseek — эти инструменты являются растущим источником трафика для веб-сайтов (Semrush недавно сообщил о 300% росте доменов, получающих трафик ChatGPT).

Список поисковых ботов (user agent) для ChatGPT и других AI-систем

Большинство ИИ-ботов могут получить доступ к вашему контенту по умолчанию. Но с учетом того, как быстро развивается эта сфера, очень полезно знать, какие именно поисковые роботы существуют, и убедиться, что они действительно могут видеть ваш сайт.

Основные AI-поисковые боты, о которых стоит знать

Вот основные AI-боты, которые должны быть на вашем радаре:

Боты ChatGPT (OpenAI):

GPTBot (основной бот ChatGPT)Собирает текстовые данные для улучшения языковой модели ChatGPT.Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot)
ChatGPT-UserОбрабатывает взаимодействия с пользовательскими запросами в ChatGPT.Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot)
OAI-SearchBotИндексирует онлайн-контент для улучшения исследований и поиска в ChatGPT.Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot)

Боты Claude (Anthropic):

Anthropic AI BotСобирает информацию для разработки ИИ от Anthropic.Mozilla/5.0 (compatible; anthropic-ai/1.0; +http://www.anthropic.com/bot.html)
ClaudeBotОбрабатывает и извлекает веб-данные для ИИ, ориентированных на диалог.‍Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; [email protected])

Claude Web

 

Получает данные с сайтов для улучшения веб-ориентированных моделей Anthropic.Mozilla/5.0 (compatible; claude-web/1.0; +http://www.anthropic.com/bot.html)

Боты DeepSeek:

DeepSeekBotИндексирует многоязычный контент с акцентом на китайские ресурсы  для платформы DeepSeek.Mozilla/5.0 (compatible; DeepSeekBot/2.0; +http://www.deepseek.com/bot.html)
DeepSeek-AnalyzerОбрабатывает мультимедиаконтент, данные из документов и соцсетей.Mozilla/5.0 (compatible; DeepSeek-Analyzer/1.2; +http://www.deepseek.com/analyzer-bot.html)
DeepSeek-MobileСпециализируется на мобильном контенте.DeepSeek-Mobile/3.1 (Android; +http://www.deepseek.com/mobile-bot.html)

Боты Qwen (Alibaba)

QwenBotИндексирует веб-контент для обучения моделей искусственного интеллекта Alibaba Qwen.Mozilla/5.0 (compatible; QwenBot/1.0; +https://qwenlm.ai/bot.html)
Qwen-AnalyzerСпециализируется на анализе мультимодального контента, включая изображения, видео и структурированные данныеMozilla/5.0 (compatible; Qwen-Analyzer/1.0; +https://qwenlm.ai/analyzer-bot.html)
Qwen-MultiModalСобирает визуальный и аудиоконтент для обучения мультимодальных моделей.Mozilla/5.0 (compatible; Qwen-MultiModal/1.0; +https://qwenlm.ai/multimodal-bot.html)
Qwen-MobileИндексирует мобильный контент для оптимизации мобильных приложений на базе Qwen.Qwen-Mobile/2.0 (Android; +https://qwenlm.ai/mobile-bot.html)

Крупные технологические компании

Google-Extended (используется для Gemini)Собирает данные для AI-программ Google за пределами стандартного поиска.Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html)
Applebot & Applebot-Extended (Siri)Сканирует веб-страницы для улучшения результатов Siri и Spotlight.

Applebot: Mozilla/5.0 (compatible; Applebot/1.0; +http://www.apple.com/bot.html  

Applebot-Extended: Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html)

BingBotИндексирует сайты для поисковой системы Microsoft Bing.Mozilla/5.0 (compatible; BingBot/1.0; +http://www.bing.com/bot.html)
FacebookBot & Meta External FetcherПолучает контент для Facebook и других сервисов Meta.

FacebookBot: Mozilla/5.0 (compatible; FacebookBot/1.0; +http://www.facebook.com/bot.html  

Meta External Fetcher: Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler))

LinkedInBotСобирает данные с сайтов для функций платформы LinkedIn.‍LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)
AmazonbotСканирует сайты для улучшения веб-сервисов Amazon.Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Bytespider (ByteDance/TikTok)Исследует веб-страницы для поддержки поиска контента в TikTok.‍Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html)

Другие поисковые системы

PerplexityBotИзучает сайты для информирования ИИ-поиска Perplexity.‍Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
YouBotОбеспечивает ИИ-поиск на платформе You.com.Mozilla/5.0 (compatible; YouBot (+http://www.you.com))
DuckAssistBotСобирает данные для предоставления ответов на основе искусственного интеллекта на DuckDuckGo.Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html)

Исследования и разработка

AI2Bot (Allen Institute)Сканирует веб-сайты для исследований ИИ в Allen Institute.Mozilla/5.0 (compatible; AI2Bot/1.0; +http://www.allenai.org/crawler)
CCBot (Common Crawl)Собирает открытые веб-данные для архива Common Crawl.Mozilla/5.0 (compatible; CCBot/1.0; +http://www.commoncrawl.org/bot.html)
Cohere AIСобирает текстовые образцы для улучшения языковых моделей Cohere.Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html)
Omgili BotИндексирует данные, ориентированные на обсуждения, для исследований и анализа.Mozilla/5.0 (compatible; omgili/1.0; +http://www.omgili.com/bot.html)
TimpiИспользует распределённое сканирование для сбора данных для AI-приложений.Timpibot/0.8 (+http://www.timpi.io)
DiffBotСобирает данные со страниц для создания структурированных данных для AI-систем.Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com)

Примеры конфигураций robots.txt

Вот несколько фрагментов конфигурации robots.txt, которые разрешают некоторым AI-ботам доступ:

# Anthropic (ClaudeBot) 
User-agent: ClaudeBot 
Allow: /

# OpenAI (GPTBot)
User-agent: GPTBot 
Allow: /

# Perplexity (PerplexityBot) 
User-agent: PerplexityBot 
Allow: /
 

Краткий совет

Даже при правильной конфигурации robots.txt ваш веб-сервер или файрвол могут всё ещё блокировать AI-боты. Я рекомендую использовать AI Search Console от Knowatoa для упрощения проверки вашей настройки — она проверит ваш сайт на предмет доступности для 24 различных AI-агентов и отметит любые проблемы с доступом.

Панель инструментов AI Search Console от Knowatoa

В противном случае вы можете использовать тестер robots.txt от Merkle для проверки пользовательских агентов по одному.

Инструмент проверки и тестирования robots.txt от technicalseo.com

По мере развития ИИ-поиска этот список будет пополняться. Напишите комментарий, если вы заметите, что мы что-то упустили!

0 комментариев
Добавить комментарий