Как улучшить видимость нового сайта в ИИ: технические аспекты

Запускаешь новый сайт. Google его ещё толком не видит, а ChatGPT, Perplexity и Gemini – тем более. Спрашиваешь у нейросети про свою нишу – она радостно рекомендует конкурентов, которые в индексе уже лет пять. Тебя в ответе нет. Вообще.

Это не баг и не несправедливость. Это нормальная ситуация для нового домена. И с ней можно работать – причём руками, через техническую часть, а не через бесконечный контент-маркетинг и надежду «когда-нибудь заметят».

Ниже – разбор того, как улучшить видимость нового сайта в ИИ через технические аспекты: микроразметку, новые файлы вроде llms.txt, отдельные карты сайта под ИИ-краулеры и попадание бренда в обучающие датасеты. Без магии и без обещаний «топ-1 за неделю».

Почему ИИ вообще «не видит» новый сайт

Большие языковые модели работают на двух уровнях:

Обучение на датасетах. Это статичная база знаний – тексты, которые модель «прочитала» во время тренировки. Свежего сайта там по определению нет.
Поиск в реальном времени. Это когда ИИ-ассистент идёт в интернет и берёт актуальные данные – через свой краулер или поисковый индекс.

Новый сайт может попасть в ответы ИИ двумя путями: либо его подхватит краулер при онлайн-поиске, либо он окажется в следующей итерации обучения. Первый путь быстрый, второй – долгий, но более «прочный».

Технические настройки влияют на оба сценария. Дальше – по порядку.

Микроразметка: говорим с ИИ на его языке

ИИ-краулеры читают HTML, но структурированные данные понимают быстрее и точнее. Микроразметка Schema.org – это способ сказать машине: «вот тут название продукта, вот цена, вот автор, вот FAQ».

Какие типы разметки добавить в первую очередь

Для большинства сайтов хватит базового набора:

Organization – кто вы как бренд: название, логотип, контакты, соцсети.
WebSite – информация о сайте плюс блок SearchAction, если есть внутренний поиск.
BreadcrumbList – хлебные крошки. ИИ любит понимать иерархию страниц.
Article / BlogPosting – для статей. Автор, дата публикации, дата обновления.
Product + Offer – если продаёшь товары.
FAQPage – блоки «вопрос-ответ». ИИ часто цитирует именно их.
HowTo – пошаговые инструкции.
Person – авторы материалов. Это важно для E-E-A-T.

Формат и проверка

Используй JSON-LD. Это рекомендованный Google формат, и его проще всего поддерживать – блок просто вставляется в <head> или перед </body>.

Проверять разметку нужно в двух местах:

Schema Markup Validator (schema.org/validator) – проверяет валидность по стандарту.
Google Rich Results Test – проверяет, поймёт ли её Google.

Если разметка ломается – ИИ её игнорирует. Поэтому лучше пять рабочих типов, чем пятнадцать «почти готовых».

Чего не делать

Не размечай то, чего нет на странице. Это считается манипуляцией.
Не дублируй один и тот же Organization в десяти разных вариантах.
Не оставляй placeholder-значения вроде «Имя автора» в проде. Видел такое не раз.

llms.txt: новый файл, который стоит завести

llms.txt – это относительно свежая инициатива (предложение от Джереми Ховарда), аналог robots.txt, но для больших языковых моделей. Файл кладётся в корень сайта (/llms.txt) и содержит структурированную карту того, что на сайте есть и что важно для понимания.

По сути это markdown-документ с краткой выжимкой: кто вы, что предлагаете, ссылки на ключевые разделы с описаниями.

Зачем он нужен

Контекстное окно у ИИ-моделей ограничено. Когда ассистент пытается «прочитать» ваш сайт, он не загружает всё подряд – ему нужна короткая навигация. llms.txt даёт именно её: «вот основные разделы, вот документация, вот условия использования».

Как примерно выглядит структура

# Название компании

> Короткое описание в одно-два предложения.

## Основные разделы
- [О компании](https://site.ru/about): чем занимаемся
- [Продукты](https://site.ru/products): что предлагаем
- [Документация](https://site.ru/docs): технические гайды

## Дополнительно
- [Блог](https://site.ru/blog)
- [Контакты](https://site.ru/contacts)

Никакой магии – просто markdown. Но он сильно упрощает жизнь краулеру, который пытается понять, о чём вообще ваш сайт.

Важная оговорка

Стандарт пока не принят как обязательный. Не все ИИ-системы его читают. Но затраты на создание – минимальные, а потенциальная польза растёт по мере того, как индустрия движется в эту сторону. Логика та же, что была с sitemap.xml лет двадцать назад: лучше иметь, чем не иметь.

Sitemap для ИИ: отдельная карта или общая?

Классический sitemap.xml ИИ-краулеры читают так же, как поисковые. Но есть нюансы, которые стоит учесть именно под ИИ-видимость.

Что точно нужно сделать

Указать sitemap в robots.txt строкой Sitemap: https://site.ru/sitemap.xml. Базовая вещь, но её до сих пор забывают.
Держать lastmod актуальным. ИИ-системы при онлайн-поиске любят свежий контент. Если у вас все даты – 2022 год, краулер сделает вывод, что сайт мёртвый.
Разделять sitemap по типам контента. Отдельно для статей, отдельно для товаров, отдельно для категорий. Это помогает краулеру строить картину сайта.
Не пихать туда мусор. Страницы с noindex, дубли, технические URL – всё это в sitemap не должно попадать.

А что с «AI sitemap»

Иногда под этим понимают расширенные карты сайта с дополнительной информацией для ИИ – например, с краткими аннотациями каждой страницы. Единого стандарта тут нет. На практике задачу хорошо закрывает связка: обычный sitemap.xml + llms.txt + микроразметка на самих страницах. Это та же информация, только нарезанная под разные «вкусы» краулеров.

Robots.txt и ИИ-боты

Здесь нужно принять решение: пускать ИИ-краулеры или нет. Основные user-agent'ы, про которые стоит знать:

GPTBot – краулер OpenAI.
ClaudeBot / anthropic-ai – Anthropic.
Google-Extended – Google для тренировки Gemini.
PerplexityBot – Perplexity.
CCBot – Common Crawl, на котором учится половина мира.

Если хочешь, чтобы тебя видели в ИИ – не блокируй их. Если боишься, что твой контент используют для обучения без отдачи – блокируй и живи с тем, что в ответах нейросетей тебя не будет. Третьего варианта пока нет.

Попадание бренда в датасеты

Это самая медленная часть истории, но и самая ценная. Если бренд попадает в обучающие данные модели, ИИ начинает «знать» о вас без всякого онлайн-поиска. Это работает на годы вперёд.

Откуда модели берут данные

Основные источники, на которых учатся LLM:

Common Crawl – огромный публичный архив веб-страниц. Туда попадает почти любой открытый сайт, но процесс занимает время.
Wikipedia и связанные проекты – высокий вес в обучении.
GitHub – особенно для кода и технической документации.
Reddit, Stack Overflow, Quora – обсуждения, вопросы-ответы.
Новостные сайты и крупные медиа – через лицензионные соглашения.
Тематические базы и каталоги – зависит от ниши.

Что с этим делать практически

Список действий, который реально влияет на попадание в датасеты:

Сайт должен быть открыт для краулеров. Никаких авторизаций, JS-only рендеринга без SSR, блокировок в robots.txt. Если Common Crawl не сможет вас прочитать – ни одна модель про вас не узнает.
Упоминания на крупных площадках. Гостевые статьи, экспертные комментарии, профили на отраслевых ресурсах. Чем чаще ваш бренд встречается в связке с темой – тем выше шанс, что модель усвоит эту связь.
Wikipedia – если есть основания. Создавать статью «потому что хочется» бесполезно: её снесут. Но если компания/продукт реально известен и есть независимые источники – статья на Wikipedia даёт огромный буст. Модели её цитируют почти буквально.
GitHub-присутствие. Открытые репозитории, документация в markdown, README с описанием продукта. Особенно работает для tech-брендов.
Reddit и тематические сообщества. Не спам, а нормальные ответы по теме с упоминанием продукта, где это уместно.
Структурированные профили. Crunchbase, отраслевые каталоги, G2, Product Hunt – все эти источники модели читают.
Согласованная подача бренда. Одинаковое написание названия, одинаковое короткое описание, одинаковые ключевые формулировки везде. Модели учатся на повторении.

Чего не стоит ждать

Нового сайта не будет в обучающих данных GPT-5 завтра. Циклы тренировки длинные – по опыту от нескольких месяцев до пары лет между большими версиями. Но онлайн-поиск ИИ-ассистентов работает уже сейчас, и именно туда направлены первые шаги из этой статьи.

Контент под ИИ: технические нюансы, о которых забывают

Микроразметка и файлы – это половина дела. Есть ещё чисто технические штуки на уровне самих страниц, которые сильно влияют на то, как ИИ воспринимает контент.

Серверный рендеринг. Если контент появляется только после выполнения JS, многие краулеры его просто не увидят. SSR или статика – безопаснее.
Семантический HTML. <article>, <section>, <h1>-<h6> в правильной иерархии, <nav>, <aside>. Это не «для красоты», это карта для машины.
Понятные <title> и <meta description>. ИИ часто берёт их как короткое описание страницы при цитировании.
Alt-тексты на изображениях. Описывают суть, а не «картинка 1».
Чистые URL. /product/red-shoes лучше, чем /p?id=8472&cat=11.
Скорость и доступность. Если страница отдаётся 8 секунд, краулер уйдёт. Базовый Core Web Vitals здесь работает на ИИ так же, как на Google.
Канонические URL. Чтобы модель не пыталась осмыслить пять версий одной и той же страницы.

С чего начать на новом сайте: короткий план

Если только запускаетесь и хотите системно улучшить видимость в ИИ, порядок такой:

Закрыть базу: sitemap.xml, robots.txt, корректные title и description, SSR.
Добавить микроразметку: Organization, WebSite, BreadcrumbList, Article/Product в зависимости от типа сайта.
Прописать Person и Article на материалах блога – с реальными авторами.
Создать llms.txt с короткой картой основных разделов.
Не блокировать GPTBot, ClaudeBot, Google-Extended, PerplexityBot, CCBot, если хотите попадать в ответы ИИ.
Завести и заполнить профили на крупных каталогах (Crunchbase, отраслевые площадки, при наличии оснований – Wikipedia).
Через 4–8 недель проверить, начали ли ИИ-ассистенты подтягивать ваш сайт по тематическим запросам. Если нет – докручивать упоминания и контент.

Это не разовая работа. Это техническая база, на которой потом стоит весь остальной маркетинг под ИИ-поиск.

Что в итоге

Чтобы улучшить видимость нового сайта в ИИ через технические аспекты, нужно работать сразу на двух фронтах. Первый – сделать сайт максимально читаемым здесь и сейчас: микроразметка, llms.txt, нормальный sitemap, открытые ИИ-краулеры, семантический HTML. Это даёт результат в онлайн-режиме, когда ассистент идёт за свежими данными. Второй – играть в долгую: упоминания, профили, согласованная подача бренда, присутствие на тех площадках, откуда модели берут обучающие данные.

Чудес здесь нет. Есть набор технических действий, каждое из которых даёт небольшой плюс. Вместе они создают разницу между «ИИ не знает, что вы существуете» и «ИИ уверенно рекомендует вас в нише».

Вы можете всё это делать руками сами – инструкции выше дают полную картину. Либо передать задачу экспертам и получить максимально точные рекомендации под ваш конкретный сайт в нашем сервисе.

FAQ

Через сколько после внедрения изменений ИИ начнёт меня «видеть»?

По опыту, онлайн-поиск ИИ-ассистентов начинает подтягивать новый сайт в течение нескольких недель после того, как его проиндексировали поисковики. Попадание в обучающие данные – история на месяцы и годы, зависит от циклов тренировки моделей.

Что важнее: микроразметка или llms.txt?

Микроразметка. Она работает уже сейчас, её читают все основные краулеры, и она напрямую влияет на то, как ИИ цитирует ваши страницы. llms.txt – полезное дополнение и задел на будущее, но без микроразметки толку от него мало.

Стоит ли блокировать ИИ-боты в robots.txt?

Зависит от модели бизнеса. Если ваш доход – это люди, которые приходят через поиск и ассистентов, блокировать нет смысла: лишите себя трафика. Если контент – основной актив, который не хочется отдавать на обучение бесплатно, блокировка имеет смысл, но видимость в ИИ упадёт.

Нужна ли отдельная sitemap специально для ИИ?

Отдельный файл с пометкой «AI sitemap» как стандарт не существует. Достаточно качественного sitemap.xml с актуальными lastmod, плюс llms.txt в корне. Этого хватает большинству ИИ-краулеров.

Можно ли как-то «попросить» ChatGPT добавить мой сайт в базу?

Напрямую – нет. Модели обучаются на больших выборках данных, и точечно туда что-то добавить нельзя. Но можно повысить шансы: открыть сайт для Common Crawl, наращивать упоминания на крупных площадках, добиться согласованного присутствия бренда в каталогах и медиа.