Шаг 3. Настройка robots.txt

Сегодня мы поговорим про настройку файла robots.txt, он помогает закрывать не нужные страницы и экономить краулинговый бюджет который выделяет ПС на ваш сайт.

Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем. Файл должен быть размещён в корневом каталоге сайта и быть доступен по адресу https://mysite.com/robots.txt.


Что обычно закрывают от индексации в robots.txt


  • страницы с личной информацией пользователей;
  • корзину и сравнение товаров;
  • страницы поиска;
  • страницы с шаблонами сайта;
  • страницы регистрации и авторизации;
  • страницы для печати;
  • административную часть сайта.


Что должен содержать файл robots.txt


  • User-agent: *;
  • Disallow: /админка сайта/;
  • Адрес Sitemap;
    Sitemap: http://mysite.com/sitemap.xml
  • Директива Host для Яндекса;
    Host: mysite.com


Другие индивидуальные настройки


  • Crawl-delay;
    Директива Crawl-delay указывает время, которое роботы должны выдерживать между загрузкой двух страниц.
  • Clean-param;
    Для исключения страниц сайта, которые содержат динамические (GET) параметры.
  • Спецсимволы $, *, /, #;
    1. Спецсимвол * (звёздочка) означает любую последовательность символов.
    2. Спецсимвол # (решётка) используется для комментариев в файле для себя, пользователей.
    3. Спецсимвол / (слеш) используется в каждой директиве Allow и Disallow. С помощью слеша можно запретить доступ к папке и её содержимому /category/ или ко всем страницам, которые начинаются с /category.
    4. Спецсимвол $ запрещает конкретный url который вы указали



Как создать robots.txt


Многие CMS уже имеют файл в корне сайта по умолчанию, и поэтому вам не обязательно создавать его с нуля. Вы можете только немного его подкорректировать под свои нужды.

Шаг 1. В текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами.
Это не конечный вариант файла robots.txt. Этот набор правил редактируется под каждый сайт отдельно и зависит от того, что нужно закрыть, а что — оставить открытым.

Robots.txt для WordPress



User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads/
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/*.css*
Allow: /wp-content/*.jpg
Allow: /wp-content/*.gif
Allow: /wp-content/*.png
Allow: /wp-content/*.js*
Allow: /wp-includes/js/
Host: mysite.com
Sitemap: http://mysite.com/sitemap.xml


Robots.txt для Joomla


User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /media/*.png
Allow: /media/*.js
Allow: /modules/*.css
Allow: /modules/*.js
Host: mysite.com
Sitemap: http://mysite.com/sitemap.xml


Robots.txt для Bitrix


User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Allow: /bitrix/*.css
Allow: /bitrix/*.js
Host: mysite.com
Sitemap: http://mysite.com/sitemap.xml


Шаг 2. Проверьте файл в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt).
Шаг 3. Загрузите файл в корневую директорию вашего сайта с помощью ФТП клиента.
Шаг 4. Проверить открываться ли файл по адресу http://Вашсайт.ру/robots.txt

Вывод: Мы рассмотрели основные настройки файла Robots.txt. Для более подробного изучения читайте faq.
Использование robots.txt справка Яндекс
Часто задаваемые вопросы о роботах
О файлах robots.txt справка Google

Домашнее задание: Проверить правильно ли настроен robots.txt на вашем сайте. Все ли важные страницы находятся в индексе ПС. На все вопросы я отвечу в комментариях.

Бонус для читателей блога, генератор картинок для robots.txt http://picascii.com

Добавить комментарий

    • bowtiesmilelaughingblushsmileyrelaxedsmirk
      heart_eyeskissing_heartkissing_closed_eyesflushedrelievedsatisfiedgrin
      winkstuck_out_tongue_winking_eyestuck_out_tongue_closed_eyesgrinningkissingstuck_out_tonguesleeping
      worriedfrowninganguishedopen_mouthgrimacingconfusedhushed
      expressionlessunamusedsweat_smilesweatdisappointed_relievedwearypensive
      disappointedconfoundedfearfulcold_sweatperseverecrysob
      joyastonishedscreamtired_faceangryragetriumph
      sleepyyummasksunglassesdizzy_faceimpsmiling_imp
      neutral_faceno_mouthinnocent