Яндекс: описание, валидатор
Google: описание, валидатор
Указывает для каких ботов будут действовать последующие правила.
User-agent: Googlebot
Disallow: /category
User-agent: *
Disallow: /
Недопустимы пустые строки между директивами User-agent, Disallow и Allow.
Основные роботы поисковиков
Яндекс
| YandexBot | Основной робот |
| YandexImages | Яндекс.Картинки |
| YandexMedia | Мультимедийные данные |
| YandexNews | Яндекс.Новости |
| YandexBlogs | Поиск по блогам |
| YandexCalendar | Яндекс.Календарь |
| YandexDirect | Рекламная сеть |
| YandexMarket | Яндекс.Маркет |
| YandexMetrika | Яндекс.Метрика |
| Googlebot | Основной робот |
| Googlebot-Image | Изображения |
| Googlebot-Video | Видео |
| Mediapartners-Google | AdSense |
Директива запрещающая индексировать указанные адреса страниц.
Запретить GET параметр view:
Disallow: *view=*$
Запретить все GET параметры:
Disallow: /*?
Запретить http://example.com/page и все дочерние страницы:
Disallow: /page/
Запретить страницу http://example.com/page, но не дочерние:
Disallow: /page/$
Запрет индексирования php файлов:
Disallow: /*.php$
Запретить индексирование pdf файлы:
Disallow: /*.pdf$
Не индексировать UTM-метки:
Disallow: /*?utm_source*
Разрешает индексирование страниц сайта, используется в основном в связке Disallow.
Например, следующая запись запрещает индексирование всего сайта кроме раздела http://example.com/category.
Allow: /category
Disallow: /
Директива задает интервал в секундах между загрузками страниц Яндексом. Эту директиву следует выносить в отдельный блок т.к. файл не пройдет валидацию в Google.
Например, задержка 5 сек:
User-agent: Yandex
Crawl-delay: 5.0
User-agent: *
...
Чтобы не индексировать страницы с динамическими GET параметрами (сортировки, сессии и т.д.) Яндекс ввел директиву Clean-param которая сводит такие адреса к одному. Также директиву следует выносить в отдельный блок.
В robots.txt указывается имя GET переменной которая будет игнорироваться и через пробел адрес страницы которая будет использована.
Например для следующих адресов:
http://example.com/category
http://example.com/category?sort=asc
http://example.com/category?sort=desc
Запись будет следующая:
User-agent: Yandex
Clean-param: sort /category
Можно указать несколько GET переменных через символ &:
User-agent: Yandex
Clean-param: sort&session /category
Указывает основное зеркало сайта.
Host: example.com
Основное зеркало с www:
Host: http://www.example.com
Если сайт работает на https:
Host: https://example.com
С апреля 2018 года Яндекс прекратил поддержку директивы Host, Google эту директиву никогда не поддерживал.
Карта сайта – файл sitimap.xml
Sitemap: http://example.com/sitemap.xml
- Кодировка файла должна быть в UTF-8.
- Максимальное количество ссылок – 50 000
Можно указать несколько файлов:
Sitemap: http://example.com/sitemap.xml
Sitemap: http://example.com/sitemap-2.xml
Sitemap: http://example.com/sitemap-3.xml
User-agent: *
Disallow: /search
Disallow: /themes
Disallow: /plugins
Sitemap: http://example.com/sitemap.xml





