Как настроить robots.txt

Robots.txt - текстовый документ, который размещается в корневом каталоге сайта и содержит запреты для поисковых роботов на индексацию технических страниц ресурса, с целью недопущения попадания них в поисковую выдачу.

Поисковые роботы используют сессионный принцип, во время каждой сессии робот формирует список страниц сайта, которые планирует загрузить. При заходе на сайт, робот первым делом смотрит файл robots.txt, чтобы знать что можно смотреть на сайте, а что нет.

Предлагаем посмотреть короткое видео от Яндекс, где при помощи простых сравнений наглядно рассказывается о задачах документа robots.txt:

Создание robots txt

01 При помощи любого текстового редактора (к примеру стандартного блокнота), создайте файл вида robots.txt.

02 Пропишите в нем индивидуальные настройки, инструкция как это сделать описанная ниже. 03 Проверьте файл при помощи сервиса Яндекс Анализ robots.txt, все технические страницы должны быть под запретом, обязательно должны быть прописаны директивы Host и Sitemap. 04 Загрузите составленный файл robots.txt в корневую директорию сайта и проверьте его доступность по адресу yoursite.ru/robots.txt.

Как правильно составить robots txt?

01 Директива User-agent: содержит название поискового робота, к которому будут применены описанные ниже нее ограничения. Если использовано несколько разных директив User-agent, то перед каждой рекомендуется вставлять пустой перевод строки. Примеры User-agent: User-agent: YandexBot # для основного индексирующего робота Яндекс User-agent: Googlebot # для поискового робота компании Google User-agent: * #для всех роботов-индексаторов 02 Директивы Disallow и Allow: используются для запрета и разрешения доступа робота к конкретным разделам сайта. Примеры Disallow: Disallow: / # запрет на индексацию всего сайта
Disallow: /admin #для запрета индексации всех страниц на сайте, которые начинаются с "/admin" Примеры использования Disallow и Allow: User-agent: YandexBot
Disallow: / # запрещает индексировать весь сайт
Allow: /katalog # но разрешено индексировать страницы, которые начинаются с "/katalog" 03 Спецсимволы * и $ — используются для задавания определенных регулярных выражений при указании путей директив Allow и Disallow: используются для запрета и разрешения доступа робота к конкретным разделам сайта. Примеры использования: User-agent: YandexBot
Disallow: /profile/*.aspx # запрещает "/profile/example.aspx" и "/profile/private/test.aspx"
Disallow: /*private # запрещает не только "/private", но и "/profile/private"
Disallow: /admin* # запрещает индексировать страницы начинающиеся с "/admin"
Disallow: /example$ # запрещает "/example", но не запрещает "/example.html" 04 Директива Sitemap - указывает местоположение xml карты сайта, которая содержит URL адреса всех допустимых к индексированию страниц сайта. используются для запрета и разрешения доступа робота к конкретным разделам сайта. Примеры использования: User-agent: YandexBot
Allow: Sitemap: http://site.com/sitemap.xml 05 Директива Host - указывает на главное зеркало сайта, которое и будет впоследствии участвовать в поиске. Если основным зеркалом является сайт, который доступен по защищенному протоколу HTTPS, это обязательно необходимо указать. Примеры использования: User-agent: YandexBot
Allow: /
Sitemap: http://www.site.com/sitemap.xml
Host: www.site.com 06 Директива Crawl-delay - используется для минимизации нагрузок на сервер, с ее помощью можно задать период времени в секундах, который должен быть между запросами роботами страниц сайта. Примеры использования: User-agent: YandexBot
Crawl-delay: 2 # задает таймаут в 2 секунды

Рекомендуем проанализировать в ручном режиме страницы Вашего сайта, которые попали в индекс поисковых систем, сделать это можно при помощи нашего инструмента по анализу сайтов, в разделе “индексация сайта”, это поможет максимально быстро и эффективно найти все технические страницы и закрыть их посредством файла robots.txt и директивы Disallow.

Наши инструменты для продвижения сайтов