Как закрыть сайт от индексации в поисковых системах

Основное управление индексацией сайта в поисковых систем осуществляется с помощью текстового файла robots.txt, расположенного в корне сайта.

Описание директив robots.txt на Яндексе и Google.

User-agent: *
Disallow: /
TEXT

Закрыть весь сайт только для Яндекса:

User-agent: Yandex
Disallow: /   
TEXT

Закрыть весь сайт только для Google:

User-agent: Googlebot
Disallow: /   
TEXT

Закрыть весь сайт для ботов, кроме Яндекса и Google:

User-agent: *
Disallow: /

User-agent: Yandex
Allow: /

User-agent: Googlebot
Allow: /
TEXT

Запретить индексирование одной страницы:

User-agent: *
Disallow: /page.html
TEXT

Запретить индексировать каталог и всё его содержимое:

User-agent: *
Disallow: /path$
Disallow: /path/
TEXT

Результат проверки:

Запрет индексировать каталог, но оставить его содержимое:

User-agent: *
Disallow: /path$
Disallow: /path/$
TEXT

Результат проверки:

Закрыть всё, корме одной категории:

User-agent: *
Disallow: /
Allow: /path/$
TEXT

Результат проверки:

Запретить индексировать картинки можно по расширению файлов:

User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.webp$
TEXT

Запретить только для Яндекса можно по имени бота:

User-agent: YandexImages
Disallow: /
TEXT

Запретить индексацию изображений только для Google:

User-agent: Googlebot-Image
Disallow: /
TEXT

По расширению файла:

User-agent: *
Disallow: /*.doc$
Disallow: /*.docx$
Disallow: /*.xls$
Disallow: /*.xlsx$
Disallow: /*.pdf$
TEXT

Запретить все расширения, кроме pdf:

User-agent: *
Disallow: *.*$
Allow: *.pdf$
TEXT

Результат проверки:

Если в адресах сайта используется приписка .htm, .html и .xml, то их необходимо тоже разрешить.

Яндекс поддерживает директиву Clean-param и рекомендуется использовать её, в Google такой поддержки нет, поэтому GET-параметры всё равно придется закрывать дрективани Disallow/Allow.

Запретить все GET-параметры:

User-agent: *
Disallow: /*?*
TEXT

Запретить определенный GET-параметр:

User-agent: *
Disallow: /*?sort=
Disallow: /*&sort=
TEXT

Результат проверки:

Запретить все GET-параметры, кроме:

User-agent: *
Disallow: /*?*
Allow: /*?id=
Allow: /*&id=
TEXT

Запретить обход поисковыми роботами определенных страниц можно метатегом robots, достаточно поместить его в <head> страницы:

<!doctype html>
<html lang="en">
<head>
	<meta name="robots" content="noindex">
</head>
<body>
	...
</body>
</html>
HTML

Метатег robots только для Яндекса:

<meta name="yandex" content="noindex, nofollow" />
HTML

Метатег robots только для Google:

<meta name="googlebot" content="noindex">
HTML

Оба поисковика поддерживают управление индексированием с помощью заголовка «X-Robots-Tag». Например в PHP:

Пример в PHP:

header("X-Robots-Tag: noindex");
PHP

В .htaccess:

Header Set X-Robots-Tag "noindex"
htaccess
Запретить поисковикам переходить по ссылке можно с помощью атрибута rel="nofollow", например:
<a href="https://example.com" rel="nofollow">Ссылка</a>
HTML
rel="nofollow" Робот будет игнорировать ссылку.
rel="ugc" Для ссылок, опубликованных пользователями, например в комментарии или записи на форуме.
rel="sponsored"

Если ссылка носит рекламный характер, указывает на рекламное место или размещение в рамках партнерской программы с другим сайтом.

Можно указать несколько значений через запятую или пробел:

<a href="https://example.com" rel="ugc nofollow">Ссылка</a>
<a href="https://example.com" rel="ugc,nofollow">Ссылка</a>
HTML

У атрибута «rel» есть другие значения:

rel="noreferrer" В Google Analytics трафик, приходящий по ссылкам, будет отображаться как прямой трафик вместо указания источника.

rel="noopener"

Препятствует тому, чтобы страница назначения могла получить доступ к исходной странице.

Закрыть часть контента можно только для Яндекса, элементом <noindex>:

<noindex>текст, индексирование которого нужно запретить</noindex>
HTML
Или валидный вариант:
<!--noindex-->текст, индексирование которого нужно запретить<!--/noindex-->
HTML
24.02.2022
947

Комментарии

, чтобы добавить комментарий.

Другие публикации

Переезд сайта на HTTPS
В последнее время вопрос переезда сайта с HTTP на HTTPS перешел из рекомендаций в необходимость, как со стороны поисковиков, так и браузеров.
3138
+1
Определение поисковых роботов
PHP функция определяет является посетитель ботом по User-Agent.
8190
+6
Список MIME типов
Ниже приведён список MIME-заголовков и расширений файлов.
14065
+4
Массив $_SERVER
Описание значений глобального массива $_SERVER с примерами.
30733
+2
Бот Телеграм на PHP
Примеры как зарегистрировать бота в Телеграм, описание и взаимодействие с основными методами API.
104082
+41
Рекомендации по SEO настройке сайта
Сборник рекомендаций по настройке сайта помогающий исключить проблемы при индексировании поисковыми системами.
6894
+5