Как создать файл robots.txt для wordpress. Настройка robots.txt

Привет! Сейчас разберемся, как создать файл robots.txt для wordpress. И узнаем, как настроить robots.txt.

Это очень важный файл для сайтов и блогов.  Он показывает роботам поисковых систем, что и как нужно индексировать на Вашем блоге.

Этот тот самый файл, который нужно настроить одним из первых на блоге. Его отсутствие или пренебрежительное отношение к нему — это одна из главных ошибок блоггеров- новичков.

Как создать файл robots.txt для wordpress.

Файл  robots.txt, так же, как и карта сайта sitemap.xml, предназначены  для управления индексацией.  Первым делом правильно пропишем   в файле robots.txt  правила для поисковиков.   А затем добавим папку с файлом  в корневой каталог.  Делается это легко на раз два. И тогда робот будет подчиняться Вашим правилам. А именно, он поймет, что ему индексировать, а что не стоит. Вы сами пропишите эти правила. Безусловно, это повлияет на успешное продвижение сайта.

Нужно понимать, что не все файлы, находящиеся на блоге или  в корневом каталоге нужно индексировать поисковыми системами. Разберем этот вопрос по- подробней.  Корневой каталог это не что иное, как   основная папка вашего сайта со всеми файлами, будь то видео аудио и картинки , то есть все до последнего файла, находящегося на Вашем блоге(его содержимое). В зависимости от того какой у Вас  хостинг,  это будет или httpdocs или public_html. Но суть одна. Запомните это!

Все блоги и сайты  на wordpress  имеют   папки и файлы, обусловленные самим движком. Кто не знает что такое движок, поясняю. Движок- это конструктор хоста или хостинга. Или по другому, это система управления хостингом. Вот пример.  Система управления хостингом  TimeWeb — есть WordpRess.  Другими словами -это огромный конструктор без которого Вы не сможете работать на хостинге. Конструкторы или движки бывают разные, но WordPress наиболее известный и популярный.

 Идем дальше. В каталоге  есть папки  wp-admin и  wp-includes,  которые  не несут никакой ценности и для читателей и  поисковых систем. Они нужны  для работы самого конструктора. Их не нужно индексировать.

Поисковые роботы, зайдя на Ваш сайт будут индексировать все подряд.

Поэтому им нужно указать, что индексировать, а что не  нужно. Теперь понимаете,  для чего нам нужен файл robots.txt.   А как  запретить  роботам индексацию,  иначе поисковые роботы, зайдя на ваш ресурс, будут индексировать все, что попадется на их пути.

Дело в том, что лимит  есть и у поисковых систем.  Оставив без внимания настройку файла robots.txt  Вы рискуете обрасти дублированным контентом  и быть не проиндексированными  там где это необходимо. Поисковики этого очень не любят и как следствие наложение фильтра на Ваш сайт или АГС. То есть Ваш сайт попадает в черный список неблагонадежных из за нерадивого хозяина.

 Где появляются дубли страниц? Дублями страниц в wordpress в основном  выступают рубрики, архивы и  метки.  Если их  не закрывать  от индекса, тогда их расплодится  очень много  и со стремительной скоростью.  Чтобы этого не случилось   для  движка wordpress существует  плагин поисковой оптимизации All In One SEO Pack.  Он при  правильной его настройке предотвращает все неприятности связанные с этим явлением как дубли.

Еще очень Важно!!! Если Вы добавляете в корень сайта (каталог)  папки с файлами, в которых  много  внешних ссылок или скриптов, тогда нужно  не забывать  их  обязательно закрывать от индексации в файле robots.txt.  Читем  дальше, как это сделать легко и просто.

Настройка robots.txt

Robots.txt  это обычный  файл txt  он составляется в обычной программе блокнот или  в текстовом редакторе notepad++  и включает  несколько важных директив. Первая  самая важная User-agent. Это попросту говоря обращение к поисковому роботу.  Чтобы обратиться  ко  всем поисковым роботам, которые будут заходить к вам на блог необходимо в самом начале документа  прописать эту фразу :

User-agent: *

Далее  идет  директива, без которой не  может обходится ни  один файл robots.txt и она прописывается  так: Disallow.

 Директива Disallow  это  значит запретить, а директива Allow:/ разрешить

И так наш документ имеет такой вид:

Disallow:
Добавим  к Disallow  правый слэш «/»:

И документ выглядит так:

User-agent: *
Disallow: /

Это означает запрет всем поисковым системам индексировать Ваш сайт.

Но весь сайт запрещать индексировать  не нужно, иначе, зачем нам  такой сайт.

Поэтому внимательно прописываем запрет только тех папок, которые индексировать мы не хотим.  Например, папка  wp-admin

Тогда  прописываем следующее:

User-agent: *
Disallow: /wp-admin

Друзья, я Вас долго не буду мучить и дам Вам правильный файл robots.txt для wordpress, рекомендуемый разработчиками. Но сначала  дочитайте статью до конца.

А сейчас рассмотрим еще  очень  важную директиву Host. Эта директива Host -предназначена  только  для поисковика  Яндекс. Дело в том, что  это правило придумал сам Яндекс. Поисковая система Яндекс  имеет  большой  вес в русскоязычном интернете  и это  явилось важным фактором  или капризом.  Но это должно выполняться и все без возражений и обсуждений.

Также Яндекс требует   выделить отдельный блок для  себя и выглядит он так:

User-agent: Yandex

Уясните это к сведению), что во избежание неправильной индексации  блога или сайта, директива Host прописывается  для Яндекса. Она  указывает на основное зеркало  ресурса, то есть  адрес по которому  будет доступен Ваш сайт:

 www.sait.ru или sait.ru.

Другие поисковики  не понимают директиву Host!

И так для Яндекса  этот блок в файле robots.txt должен выглядеть  так:

User-agent: Yandex
Disallow:
Host: www.sait.ru

или
User-agent: Yandex
Disallow:
Host: sait.ru

Рассмотрим последнюю директиву, которую  включает  правильный robots.txt для wordpress. Она имеет знакомое  название, sitemap.

Это не что иное, как карта сайта  для роботов или sitemap.xml У меня по этому поводу есть статья. Читать Sitemap.xml — создаём карту сайта для роботов.

Эта важная директива Sitemap, которая указывает  роботам на место, где расположена карта Вашего  сайта. Она  прописывается отдельно от предыдущих директив  один раз. Ее понимают все поисковые роботы без исключения и такой главный робот как Google. Это выглядит так:

Sitemap:  http://ваш сайт.ru/sitemap.xml  или в моем в  моем случае  Sitemap: http://ritabk.ru/sitemap.xml    или   http://ritabk.ru/sitemap.xml.gz

Мы  тут рассмотрели основные директивы, которые нужно использовать  в правильном robots.txt

Пример правильного файла robots.txt. У меня это так:

User-agent: *
Allow: /
Disallow: /jexr
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
Host: ritabk.ru
Sitemap: http://ritabk.ru/sitemap.xml

Смело копируйте, только впишите свое доменное имя. 

Вот этот пункт,  Disallow: /jexr/( который выделен желтым) вставляете если у Вас на блоге установлен плагин (J) ExR

Выводы:

Что необходимо скормить поисковым роботам в первую очередь  для индексации- конечно это  Ваш уникальный контент. Что Вы получаете?

Ваш блог на wordpress будет  правильно и быстро индексироваться. И не одна Ваша статья не останется без внимания.  Поисковые роботы не будут тратить  время на не нужный  контент.

Я изучала и сравнивала  множество  файлов robots.txt  на разных   блогах  wordpress. Они  все  примерно одинаковы.

Как проверить  и  посмотреть, как выглядит robots.txt   с  другого  ресурса,  нужно прописать в строке браузера, после доменного имени через слеш (/) файл  /robots.txt.

 Пример:  ritabk.ru/robots.txt 

Важно! Имя файла должно быть всегда одинаковым! Это выглядит так:

robots.txt

Это Важно. 

Никаких заглавных букв  не должно быть. А  на конце не забывайте писать  "s". Смело копируйте файл robots.txt, который я Вам дала выше. Только не забудьте поменять  мои данные на свои. И загрузите (robots.txt),  в  корневой каталог. Я это делаю через программу filezilla. Она проста и удобна. Как пользоваться и загружать файлы в корень сайта.  Об этом прочитайте Здесь. 

На этом все! Жду отзывы. 

C уважением, Рита Молчанова, автор блога ritabk.ru

  • Олия

    Рита, привет. Хорошая статья. Но у меня в robots.txt всё открыто для индексации роботам, а что не надо индексировать закрыто плагином All in One Seo Pack и в ручную установлен метатег noindex для страниц пагинации. Вот, как-то так)

    [Ответить]

    Рита Молчанова Reply:

    Можно и так. Каждый выбирает, что ему понятно и удобно.

    [Ответить]

  • Юлия

    А я всерьез подумываю пойти на курсы по созданию сайтов. Слишком много пробелов и непоняток для меня во всем... и в файле robots.txt. Все-таки, думаю, это важно, хорошенько разобраться в самой сути сайта, его настройках, иначе просто как слепой котенок! За статью спасибо, кое-что для себя поняла, но мне явно нужно восполнять пробел в своих знаниях!

    [Ответить]

    Алексей Щукин Reply:

    Юлия, а вы собрались делать сайты на заказ? Подумайте 2 раза, надо ли оно вам.

    По статье скажу вот что. Как-то искал толковую информацию по созданию robot.txt, и почему я не на ткнулся на ваш блог. Довольно доходчиво написано, да и настройки почти те, что мне нужны были.

    Нашел бы раньше, не пришлось бы перечитывать кучу неизвестных и не понятных советов. Спасибо вам, Рита.

    [Ответить]

    Рита Молчанова Reply:

    Алексей, а почему такое негативное отношение к сайтостроению. Я занимаюсь сайто строением и очень довольна. Опять же лишний рубль карман не тянет. Спасибо, Алексей за отзыв. Буду и впредь стараться доносить полезную информацию. Удачи ВАМ!!!

    [Ответить]

  • Виталий

    Надо будет и на своих блогах проверить правильность составления файла robots.txt. Когда то составлял его по грамотным подсказкам. Но с тех полр много воды утекло. Наверное, кое-что пора и подправить в этом файле.

    Спасибо, Рита, будем редактировать!

    [Ответить]

  • Рита Молчанова

    Виталий, думаю что вы правы. Ведь все меняется. Нужно просматривать и проверять. Идти в ногу со временем. Спасибо!

    [Ответить]

  • Уже переписала. Да существенные изменения произошли.

    [Ответить]

Остались вопросы? Напишите на E-mail: rita.mol4anova@yandex.ru или позвоните Skype: margo19596