Как закрыть сайт от индексации в поисковых системах

Основное управление индексацией сайта в поисковых систем осуществляется с помощью текстового файла robots.txt, расположенного в корне сайта.

Описание директив robots.txt на Яндексе и Google.

1
User-agent: *
Disallow: /
TEXT
User-agent: Yandex
Disallow: /   
TEXT
User-agent: Googlebot
Disallow: /   
TEXT
User-agent: *
Disallow: /

User-agent: Yandex
Allow: /

User-agent: Googlebot
Allow: /
TEXT
2
User-agent: *
Disallow: /page.html
TEXT
User-agent: *
Disallow: /path$
Disallow: /path/
TEXT

Результат проверки:

User-agent: *
Disallow: /path$
Disallow: /path/$
TEXT

Результат проверки:

User-agent: *
Disallow: /
Allow: /path/$
TEXT

Результат проверки:

3

Запретить индексировать картинки можно по расширению файлов:

User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.webp$
TEXT

Запретить только для Яндекса можно по имени бота:

User-agent: YandexImages
Disallow: /
TEXT

Запретить индексацию изображений только для Google:

User-agent: Googlebot-Image
Disallow: /
TEXT
4
User-agent: *
Disallow: /*.doc$
Disallow: /*.docx$
Disallow: /*.xls$
Disallow: /*.xlsx$
Disallow: /*.pdf$
TEXT
User-agent: *
Disallow: *.*$
Allow: *.pdf$
TEXT

Результат проверки:

Если в адресах сайта используется приписка .htm, .html и .xml, то их необходимо тоже разрешить.

5

Яндекс поддерживает директиву Clean-param и рекомендуется использовать её, в Google такой поддержки нет, поэтому GET-параметры всё равно придется закрывать дрективани Disallow/Allow.

User-agent: *
Disallow: /*?*
TEXT
User-agent: *
Disallow: /*?sort=
Disallow: /*&sort=
TEXT

Результат проверки:

User-agent: *
Disallow: /*?*
Allow: /*?id=
Allow: /*&id=
TEXT
6

Запретить обход поисковыми роботами определенных страниц можно метатегом robots, достаточно поместить его в <head> страницы:

<!doctype html>
<html lang="en">
<head>
	<meta name="robots" content="noindex">
</head>
<body>
	...
</body>
</html>
HTML
<meta name="yandex" content="noindex, nofollow" />
HTML
<meta name="googlebot" content="noindex">
HTML
7

Оба поисковика поддерживают управление индексированием с помощью заголовка «X-Robots-Tag». Например в PHP:

Пример в PHP:

header("X-Robots-Tag: noindex");
PHP

В .htaccess:

Header Set X-Robots-Tag "noindex"
htaccess
8
Запретить поисковикам переходить по ссылке можно с помощью атрибута rel="nofollow", например:
<a href="https://example.com" rel="nofollow">Ссылка</a>
HTML
rel="nofollow" Робот будет игнорировать ссылку.
rel="ugc" Для ссылок, опубликованных пользователями, например в комментарии или записи на форуме.
rel="sponsored"

Если ссылка носит рекламный характер, указывает на рекламное место или размещение в рамках партнерской программы с другим сайтом.

Можно указать несколько значений через запятую или пробел:

<a href="https://example.com" rel="ugc nofollow">Ссылка</a>
<a href="https://example.com" rel="ugc,nofollow">Ссылка</a>
HTML

У атрибута «rel» есть другие значения:

rel="noreferrer" В Google Analytics трафик, приходящий по ссылкам, будет отображаться как прямой трафик вместо указания источника.

rel="noopener"

Препятствует тому, чтобы страница назначения могла получить доступ к исходной странице.
9

Закрыть часть контента можно только для Яндекса, элементом <noindex>:

<noindex>текст, индексирование которого нужно запретить</noindex>
HTML
Или валидный вариант:
<!--noindex-->текст, индексирование которого нужно запретить<!--/noindex-->
HTML
24.02.2022
5482

Комментарии

, чтобы добавить комментарий.

Другие публикации

Переезд сайта на HTTPS
В последнее время вопрос переезда сайта с HTTP на HTTPS перешел из рекомендаций в необходимость, как со стороны поисковиков, так и браузеров.
5081
+1
Определение поисковых роботов
PHP функция определяет является посетитель ботом по User-Agent.
11003
+7
Список MIME типов
Ниже приведён список MIME-заголовков и расширений файлов.
27352
+9
Массив $_SERVER
Описание значений глобального массива $_SERVER с примерами.
58696
+4
Бот Телеграм на PHP
Примеры как зарегистрировать бота в Телеграм, описание и взаимодействие с основными методами API.
152095
+45
Рекомендации по SEO настройке сайта
Сборник рекомендаций по настройке сайта помогающий исключить проблемы при индексировании поисковыми системами.
9895
+4