Основное управление индексацией сайта в поисковых систем осуществляется с помощью текстового файла robots.txt, расположенного в корне сайта.
Описание директив robots.txt на Яндексе и Google.
Закрыть весь сайт только для Яндекса:
Закрыть весь сайт только для Google:
Закрыть весь сайт для ботов, кроме Яндекса и Google:
Запретить индексирование одной страницы:
Запретить индексировать каталог и всё его содержимое:
Результат проверки:
Запрет индексировать каталог, но оставить его содержимое:
Результат проверки:
Закрыть всё, корме одной категории:
Результат проверки:
Запретить индексировать картинки можно по расширению файлов:
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.webp$
Запретить только для Яндекса можно по имени бота:
Запретить индексацию изображений только для Google:
По расширению файла:
User-agent: *
Disallow: /*.doc$
Disallow: /*.docx$
Disallow: /*.xls$
Disallow: /*.xlsx$
Disallow: /*.pdf$
Запретить все расширения, кроме pdf:
Результат проверки:
Если в адресах сайта используется приписка .htm, .html и .xml, то их необходимо тоже разрешить.
Яндекс поддерживает директиву Clean-param и рекомендуется использовать её, в Google такой поддержки нет, поэтому GET-параметры всё равно придется закрывать дрективани Disallow/Allow.
Запретить все GET-параметры:
Запретить определенный GET-параметр:
Результат проверки:
Запретить все GET-параметры, кроме:
Запретить обход поисковыми роботами определенных страниц можно метатегом robots, достаточно поместить его в <head>
страницы:
<!doctype html>
<html lang="en">
<head>
<meta name="robots" content="noindex">
</head>
<body>
...
</body>
</html>
Метатег robots только для Яндекса:
Метатег robots только для Google:
Оба поисковика поддерживают управление индексированием с помощью заголовка «X-Robots-Tag
». Например в PHP:
Пример в PHP:
В .htaccess:
rel="nofollow"
, например:
rel="nofollow" |
Робот будет игнорировать ссылку. |
rel="ugc" |
Для ссылок, опубликованных пользователями, например в комментарии или записи на форуме. |
rel="sponsored" |
Если ссылка носит рекламный характер, указывает на рекламное место или размещение в рамках партнерской программы с другим сайтом. |
Можно указать несколько значений через запятую или пробел:
<a href="https://example.com" rel="ugc nofollow">Ссылка</a>
<a href="https://example.com" rel="ugc,nofollow">Ссылка</a>
У атрибута «rel» есть другие значения:
rel="noreferrer" |
В Google Analytics трафик, приходящий по ссылкам, будет отображаться как прямой трафик вместо указания источника. |
|
Препятствует тому, чтобы страница назначения могла получить доступ к исходной странице. |
Закрыть часть контента можно только для Яндекса, элементом <noindex>
: