Блоговедение        13 марта 2013        500         59

Как создать файл robots.txt? Настройка robots.txt для wordpress!

Всем привет!

Сегодня я вам покажу, как создать файл robots.txt для wordpress. Robots.txt является очень важным файлом для сайтов. Этот файл позволяет указать поисковым системам, как правильно нужно индексировать ваш ресурс.

настройка robots.txt

Он является первоочередным файлом для вашего блога, как только тот появился в сети! Отсутствие данного файла или неправильное его составление является распространенной ошибкой среди блоггеров — новичков. Поэтому, если на вашем блоге его нет или настройка robots.txt вызывает у вас сомнение, внимательно изучите данную статью!

Как создать файл robots.txt

Файл robots.txt, так же как и карта сайта (sitemap.xml), предназначен для управления индексацией вашего блога! Задав в файле robots.txt определенные правила для поисковиков, которые мы разберем чуть ниже и, поместив его в корневой каталог, вы сможете правильно управлять индексацией своего ресурса, что очень важно для его успешного продвижения!

Здесь главное четко понимать, что не все файлы, находящиеся в корневом каталоге, должны быть проиндексированы поисковыми системами. Сейчас я вам расскажу об этом более подробно. Если кто не знает, корневой каталог, это основная папка вашего сайта со всем его содержимым. В зависимости от хостинга, это будет или «httpdocs» или «public_html».

Любой блог на wordpress, имеет определенные папки и файлы, обусловленные самим движком, например (wp-admin, wp-includes). Так вот, эти папки и файлы не несут никакой ценности ни для читателей, ни для поисковых систем. Они нужны лишь для работы самого движка. И если их оставить без внимания и не запретить индексацию, то поисковые роботы, зайдя на ваш ресурс, будут индексировать все, что попадется на их пути.

А у них есть определенный лимит! И бывают такие случаи, когда они не успевают проиндексировать нужные вам файлы, занимаясь индексацией не нужных! Плюс ко всему, если не прописать определенные правила, со временем ваш блог обрастет дублированным контентом, что поисковые системы просто ненавидят и жестко наказывают, накладывая на блог различные фильтры. Особенно это касается поисковой системы Яндекс.

Дублями страниц в wordpress в большинстве случаев выступают рубрики, архивы, архивы меток. Если их не закрыть от индексации, то по мере появления новых страниц, дублированный контент будет распространяться на вашем блоге со стремительной скоростью. Во избежание всего этого, для wordpress существует очень важный плагин поисковой оптимизации All In One SEO Pack. Который, при правильной его настройке, способен предотвратить все неприятности!

Также, если вы добавляете в корневой каталог какие-то папки с файлами, в которых содержится множество внешних ссылок или скриптов, не забывайте их закрывать от индексации в файле robots.txt. Дальше мы с вами разберем, как это делается.

Настройка robots.txt

Robots.txt является обычным файлом, созданным в текстовом редакторе, например notepad++ и включает в себя несколько важных директив. Первая и самая основная директива User-agent, содержит в себе название поискового робота. Чтобы адресовать User-agent всем поисковым роботам, зашедшим на ваш ресурс, ее следуют прописать таким образом:

User-agent: *

Следующая директива, без которой не обходится не один файл robots.txt, обозначается так: Disallow. Директива Disallow предназначена для запрета определенных папок и файлов и любой правильный robots.txt должен обязательно содержать после User-agent директиву Disallow. Вот простой пример, разрешающий всем поисковым системам индексировать все содержимое вашего ресурса:

User-agent: *
Disallow:

Если к Disallow добавить правый слэш «/»:

User-agent: *
Disallow: /

Вы напротив, запретите всем поисковым системам индексировать ваш сайт. Теперь, что касается не нужных файлов и папок самого движка wordpress. Для запрета индексации поисковыми системами, например всего содержимого папки wp-admin, вам следует прописать следующее:

User-agent: *
Disallow: /wp-admin/

Дальше, я вам покажу полноценный и правильный robots.txt для wordpress, рекомендуемый разработчиками, а пока что рассмотрим еще одну важную директиву Host. Директива Host предназначена исключительно для Яндекса. С какой это радости такие привилегии? Так повелось, что поисковая система Яндекс по статистике имеет наибольший вес в русскоязычном интернете, что является самим собой разумеющимся подстраиваться под ее капризы!

При всем при этом рекомендуется еще, и выделить отдельный блок для Яндекса:

User-agent: Yandex

Во избежание неправильной индексации ресурса, директива Host прописывается только для Яндекса и указывает на основное зеркало вашего ресурса, т.е. по какому адресу будет доступен ваш сайт: www.sait.ru или sait.ru.  Другие поисковые системы не понимают директиву Host! Для Яндекса блок в файле robots.txt должен выглядеть следующим образом:

User-agent: Yandex
Disallow:
Host: www.sait.ru

или

User-agent: Yandex
Disallow:
Host: sait.ru

В этом случае, во избежание лишних неприятностей, правильнее будет настроить 301 редирект, но о нем я как-нибудь, расскажу в отдельном посте. Подпишитесь на обновления блога, чтобы ничего не пропустить, а пока рассмотрим последнюю директиву, которую должен включать в себя правильный robots.txt для wordpress. Она имеет знакомое вам название, Sitemap. О ней я более подробно рассказывал в статье «Как сделать карту сайта», ссылка приведена чуть выше.

Директива Sitemap указывает поисковым роботам на месторасположение карты сайта и прописывается отдельно от предыдущих директив и только один раз. Ее понимают все поисковые системы. Вот как это выглядит:

Sitemap: http://blogiseo.ru/sitemap.xml
Sitemap: http://blogiseo.ru/sitemap.xml.gz

Мы с вами рассмотрели основные директивы, которые используются в правильном robots.txt и рекомендуются разработчиками. Больше я не буду вас грузить заумными словами, а покажу конкретный пример правильного файла robots.txt. У меня он выглядит следующим образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
Disallow: /*?replytocom
Disallow: /*?*
Disallow: /*?

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /category/*/*
Disallow: */comments
Disallow: /*?replytocom
Disallow: /*?*
Disallow: /*?
Host: blogiseo.ru

Sitemap: http://blogiseo.ru/sitemap.xml
Sitemap: http://blogiseo.ru/sitemap.xml.gz

Первоочередное, что необходимо скормить поисковикам для индексации, является контент! При таком раскладе, ваш блог на wordpress будет замечательно себя чувствовать, и что самое важное, правильно и быстро индексироваться. Не одна ваша статья не останется без внимания, и поисковые роботы не будут тратить свое время на ненужный хлам! Если вы сомневаетесь в правильности его составления, можете изучить данный вопрос более подробно на этом сайте.

Также, вы можете сравнить несколько файлов robots.txt на различных блогах имеющих платформу wordpress, все они будут примерно одинаковы! Чтобы посмотреть, как он выглядит на другом ресурсе, достаточно прописать в строке браузера, после доменного имени /robots.txt. И последнее, что я еще не сказал, имя файла должно быть всегда одинаковым и иметь следующий вид:

robots.txt

Никаких заглавных букв быть не должно и на конце не забывайте прописывать «s»! Запомните это! Вот, наверное, и все, что я хотел сегодня вам рассказать. Теперь вам тоже известно, как создать и настроить файл robots.txt. И остается наградить победителей кроссворда.

Победители кроссворда на blogiseo.ru №8

В этот раз кроссворд был немного необычным, но все-таки все справились и оценили его. В дальнейшем время от времени постараюсь изменять правила кроссворда, чтобы было интереснее! Ну а теперь встречаем наших победителей:

Победители кроссворда на blogiseo.ru №8:
1 место — Михаил (pizza-gotova.com) — 200 рублей
2 место — Дмитрий (duke@dukeseo.com) — 100 рублей
3 место — Евгения (domhozka.ru) — 50 рублей


Молодцы ребята. Поздравляю вас с заслуженной победой и жду ваши кошельки для перевода вознаграждений! На этом я свой пост буду заканчивать. Желаю всем отличного настроения, пока и до новых встреч!

Как вам статья? А у вас на блоге имеется файл robots.txt? Жду ваших комментариев!

—>Подписаться на обновления блога<—

С уважением, Николай Коротков

Обсуждение: 59 комментариев
  1. Какой робот.txt все же знаменитый! Практически у каждого блоггера есть статья на эту тему. Отличается только подачей, Ваша подача мне очень понравилась! К счастью я свой файлик уже настроил и теперь не нуждаюсь в таких статьях, но за материал все равно спасибо! Я тоже недавно писал статью на эту тему, посетителям понравилось 🙂

    [Ответить]

    Ответить
  2. Да, как же я могу забыть: поздравляю победителей кроссворда! Было не легко, но Вы справились — молодцы!

    [Ответить]

    Ответить
  3. Александр:

    У меня этот файл настроен давно. С тех пор ничего не менял. Сверю с Твоим Николай, потом отпишусь, что сходится, а что нет. Может что добавить надо. И очень жду информацию про редирект 301. Дело в том, что добрые люди подсказали, что у меня есть клей на Блоге. Вот, что они мне посоветовали:

    Необходимо, чтобы при запросе любых некорректных URLs вида vedrogaek.ru/?N, где N – любой численный или строковый параметр, сервер отдавал HTTP/1.1 404 Not Found, либо HTTP/1.1 301 Moved Permanently c переадресацией на главную.
    В индексе поисковой системы Яндекс присутствует полный дубль главной страницы сайта vedrogaek.ru/index.php. Рекомендуем сделать с этой страницы редирект 301 на страницу vedrogaek.ru с помощью файла настройки сервера .htaccess.

    Не сталкивался с таким?

    [Ответить]

    Николай Коротков

    Александр
    Я конечно изучу этот вопрос более подробно, но пока у тебя все нормально! Посмотри любые блоги и сравни! При вводе ?N и index.php у всех идет перенаправление на главную страницу! А у Тебе в корне присутствует файл .htaccess? В нем настроен 301 редирект? Если да, то не парься, так и должно быть!

    [Ответить]

    Ответить
  4. Alex:

    Николай, я как-то задавал вам вопрос по этой теме в комментариях. Вы там же ответили — я все сделал вчера. Но до сих пор Яндекс и Рамблер сайт индексируют по старому. Там после изменения время какое-то должно пройти или нет, пока пойдет как надо?

    [Ответить]

    Николай Коротков

    Alex
    Должно пройти время пока поисковики проиндексируют ваш robots.txt. И не понял что значит «…пока пойдет как надо?»

    [Ответить]

    Ответить
  5. Ура, наконец-то удалось занять хотя бы 3 место в кроссворде. Роботс у меня настроен, но надо будет сверить.

    [Ответить]

    Николай Коротков

    Евгения
    Поздравляю! Третье место тоже не плохо! 🙂

    [Ответить]

    Ответить
  6. Приз получила, спасибо. А роботс слегка подкорректировала, хотя почти все было правильно.

    [Ответить]

    Николай Коротков

    Евгения
    Пожалуйста! Ну и отлично, что у вас все было настроено корректно!

    [Ответить]

    Ответить
  7. Кто бы еще Гугл заставил на указанные в robots.txt запреты на индексацию реагировать. Роботс в каких только вариантах не использовался — все равно индексирует совсем ненужные страницы 😯

    [Ответить]

    Александр

    А никак не заставишь. Гугл напрочь игнорирует любые запреты в этом файле.

    [Ответить]

    Ответить
  8. Alex:

    Николай, а как исправить это: почему-то Яндекс все еще дает ссылку в поисковике на мой сайт вот так — history-tema.com.xsph.ru, а Гугл почти с самого начала стал показывать history-tema.com. 😐

    [Ответить]

    Николай Коротков

    Alex
    Не переживайте, все будет хорошо! Просто Яндекс намного медленне реагирует на все изменения, чем Google. Пройдет еще какое-то время и все будет ОК!

    [Ответить]

    Ответить
  9. Alex:

    Понял. Спасибо. 🙂

    [Ответить]

    Ответить
  10. Наталия:

    Спасибо за полную и ценную информацию. Действительно отлично изложено. Очень четко и точно. Прослушала видеокурсы. Там затрагивалась эта тема. Но так и не смогла настроить этот файл правильно. А сейчас все получилось.

    [Ответить]

    Ответить
  11. Alex:

    Наконец, настроил робота. Но, если честно, скопировал ваш, заменил только название сайта. 😉

    [Ответить]

    Ответить
  12. Тимур:

    а я недавно настроил роботс, поисковые роботы каждый день заходят на сайт практически

    [Ответить]

    Ответить
  13. Николай, а как настроить robots.txt так, чтобы бот обращался с большим интервалом к сайту. У меня на одном из сайтов из логов к сайту происходят обращения от поискового бота MSN это сервиса Microsoft я так поняла этих обращений слишком много, из за чего тормозит сайт.

    [Ответить]

    Николай Коротков

    Светлана Ткаченко
    Для задания интервала в файле robots.txt необходимо прописать директиву для поисковой системы Crawl-delay: и задать необходимый вам интервал, в секундах. Например: Crawl-delay: 10. Но я бы вам не советовал это делать, т.к. это может ухудшить индексацию вашего ресурса.

    [Ответить]

    Ответить
  14. из-за бота MSN очень сильно тормозит сайт, как тогда быть?

    [Ответить]

    Ответить
  15. Николай мне только добавить строчку: Crawl-delay: 10, а прописывать вот так надо?:
    User-agent: MSN
    Crawl-delay: 60 #

    [Ответить]

    Николай Коротков

    Светлана Ткаченко
    Совершенно верно, только решетка (#) после 60 не нужна

    [Ответить]

    Ответить
  16. вот так:
    User-agent: MSN
    Crawl-delay: 60

    [Ответить]

    Николай Коротков

    Светлана Ткаченко
    Да, так будет правильно.

    [Ответить]

    Ответить
  17. спасибо большое

    [Ответить]

    Николай Коротков

    Не за что. Всегда рад помочь.

    [Ответить]

    Ответить
  18. Здравствуйте Николай! Я пытаюсь решить проблемму такого рода:При установки нового движка WordPress появился robots.txt, прописан так;User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    В корневой папке он не присутсвует, скрыт где то в файлах. Вроде пересмотрел все, не могу найти. Я закачал в корневую папку свой robots.txt. Не читается, выставил права, не помогло. Может есть ответ на данную проблему?

    [Ответить]

    Николай Коротков

    Здравствуйте Константин!
    При просмотре файла robots.txt на вашем сайте выводится следующая ошибка: «Предупреждение: call_user_func_array() ожидает параметр 1 должен быть допустимым обратного вызова, функция » do_robots » не найден или неверный имя функции в /home/konsta03/e.kherson.ua/www/wp-includes/plugin.php on line 406″. Я не знаю, что вы там натворили, нужно разбираться…

    [Ответить]

    Ответить
  19. У меня почемуто не индексируется

    Николай подскажите пожалуйста что обозначает следующая строка?
    Disallow: /category/*/*

    [Ответить]

    Ответить
  20. и что обозначает

    Disallow: */
    Disallow: /*?replytocom
    Disallow: /*?*
    Disallow: /*?

    [Ответить]

    Николай Коротков

    Disallow: /category/*/* — запрещает к индексации рубрики (категории) вашего сайта. Данную функцию также можно обеспечить в настройках плагина All In One SEO Pack.
    Disallow: */ — означает запрет индексации всех без исключения страниц. Поэтому в таком виде данная директива не используется. Обычно следом за ней прописывается отдельная категория файлов для запрета…
    Disallow: /*?replytocom — исключает дубли страниц при включенных древовидных комментариях, т.к. включенная функция в wordpress генерирует дополнительные страницы, которые дублирую основной контент.
    Disallow: /*?* — означает запрет любых страниц, где в URL — адресе встречается “?”, не зависимо от того, какие символы идут до и после этого знака. По умолчанию спецсимвол “*” добавляется к концу каждого правила, даже если он не прописан специально. И если у вас не настроены ЧПУ (имеют вид sait.ru/?p=123), то обязательно удалите данную строку из robots.txt или настройте постоянные ссылки правильно. В противном случае, в индексе останется только главная страница сайта, а остальные выпадут из индекса.
    Disallow: /*? – запрет индексации всех страниц без исключения, по сути она дублирует Disallow: /*?*, но почему-то большинство веб мастеров советует прописывать и ту и другую директивы, хотя вразумительного ответа (в чем отличие), я так и не нашел в сети.
    Проверить правильность составления robots.txt возможно в панели Яндекс.Вебмастер.

    [Ответить]

    Ответить
  21. Николай!
    У меня к Вам вопрос.
    Кроме кулинарного, у меня есть ещё один сайт.
    Так вот на нём происходит следующее.
    В связи с болезнью, я не обновлял на нём контент больше месяца. А когда вышел из больницы, то 8.07 опубликовал статью и показал её в аддурилке. Роботы заходили через день, но статью не индексировали. 22.07. я выставил новую статью, но прошло уже 7 дней, а статьи не индексируются.Роботы так же регулярно заходят ( был вчера 28.07.)
    Подскажите, что может быть?

    [Ответить]

    Николай Коротков

    Александр Иванович
    Трудно сказать когда не видишь ресурс, адрес сайта скажите.

    [Ответить]

    Ответить
  22. Николай!
    Спасибо за ответ. Даю адрес сайта.
    alsirko.ru
    Заранее спасибо.

    [Ответить]

    Николай Коротков

    Александр Иванович
    Как буду посвободнее, обязательно проанализирую ваш ресурс и пришлю ответ на e-mail.

    [Ответить]

    Ответить
  23. Уважаемый Николай!
    Меня преследует таже проблема — робот на сайт заходт через день, но статьи не индексирует (с 8 июля — 5 статей)
    Посмотрите на вырезку из кода страницы

    О чём говорят эти два слова «noindex,nofollow» ?

    [Ответить]

    Николай Коротков

    Александр Иванович
    Не совсем понял про какую вырезку из кода вы говорите? Noindex — запрещает поисковым роботом индексировать ссылки, а nofollow — запрещает переходить по ссылкам.

    [Ответить]

    Ответить
  24. Николай, подскажи..Такая проблема…Все настроил, все работало..Во всяком случае на старом сайте…Яндекс мой роботс съел без проблем, а вот Гугл не хочет,показывает ошибку…Что не может загрузить?

    Это со временем пройдет? Дело в том, что я по ошибке файл sitemap.xlm закинул со старого сайта и после индексации повалились ошибки, я исправил,ошибки с возвратом 404 отметил, как исправленые…Но все равно он его не может загрузить…

    [Ответить]

    Николай Коротков

    Александр
    Да, косячок вышел… Ну не переживай, со следующим заходом роботов Google и переиндексацией твоего сайта все должно стабилизироваться! А новые файлы sitemap.xlm отправил в Google? Карту сайта перестроил?

    [Ответить]

    Александр

    Да, все перестроил и отправил…Дело в том, что Яндекс тоже застопорился и выдавал ошибки, но после загрузки роботса и карты сайта все нормализовалось…А вот Гугл парится…

    У Яндекса можно ручками карту загрузить, а Гугл самостоятельно..Вот и думаю…Хотя, 5 урлов уже в индексе Гугла..

    [Ответить]

    Николай Коротков

    Александр
    Подожди еще денек — другой, должно все встать на свои места. Рановато паниковать…

    [Ответить]

    Александр

    Да паники та особо нет никакой…Просто может это нужно руками вправлять, а я не знаю…А если автоматически через некоторое время, то значит вообще паники нет =)

    В справке сам черт ногу сломит…Нигде нет пояснений как загрузить роботс Гуглу =)

    [Ответить]

    Николай Коротков

    Александр
    При обходе сайта, Google его сам найдет.

    Ответить
  25. Все нормализовалось после парочку заходов Гугла..Спасибо!

    [Ответить]

    Ответить
  26. Спасибо! После комментариев пришлось убрать:
    Disallow: /*?*
    Disallow: /*?
    т.к. у меня именно такая форма новостей

    [Ответить]

    Ответить
  27. Nick:

    Спасибо за полезную статью. Я создаю robots.txt через сервис, экономлю массу времени: hotorg.ru/webmaster/tools/robots-txt-builder/index.php 😈 😎

    [Ответить]

    Ответить
  28. Николай, помогите пож-ста разобраться. Почему в гугле вебмастере при проверке файла robots пишет, что заблокировано 28 URL. «В течение последних 90 дней робот Google пытался просканировать эти URL, но был заблокирован посредством файла robots.txt.»
    Буду очень благодарна за помощь!

    [Ответить]

    Николай Коротков

    Наталья, эти 26 URL — адресов прописаны в вашем файле robots.txt. Он у вас составлен верно, так что не переживайте, так и должно быть.

    [Ответить]

    Ответить
  29. Николай, тоже прошу Вашей помощи. Вебмастер пишет, что все страницы моего сайта запрещены к индексации в роботе. Что делать, ума не приложу.

    [Ответить]

    Николай Коротков

    Наталья, robots.txt у вас составлен правильно. Посмотрите в административной панели вордпрес/настройка приватности, у вас случайно не стоит галочка, запрещающая индексировать сайт поисковым системам?

    [Ответить]

    Наталья

    Николай, спасибо за отевет. Нет, в настройках админки разрешено к индексаци.

    [Ответить]

    Наталья

    Адреса страниц, запрещенных к индексации в вебмастере указаны с числовым значением, у меня сначала так было на сайте, я потом переделала на смысловые латинские названия. А в вебмастере остались старые числовые варианты. Может быть из-за этого? И как это исправить, на сайте ведь еже нормально вроде бы?

    [Ответить]

    Николай Коротков

    Наталья, а давно вы меняли URL — адреса страниц? Если недавно, то стоит немного подождать пока пройдет переиндексация.

    [Ответить]

    Наталья

    Я меняла 28 августа, подожду, может, само все восстановится. Спасибо, Николай!

    [Ответить]

    Ответить
  30. Александр:

    Здравствуйте, в плагине All In One SEO Pack есть модуль Robots.txt (то есть можно создавать этот файл прямо в админке). Хотел узнать, есть ли принципиальная разница в создании этого файла своими руками или с помощью плагина? И есть ли у вас статья с описанием всех модулей данного плагина, хотелось бы почитать.

    [Ответить]

    Николай Коротков

    Здравствуйте, Александр!
    Принципиальной разницы создания файла robots.txt, я думаю нет. Просто раньше в старых версиях плагина All In One SEO Pack не было возможности создать файл robots.txt и приходилось создавать его отдельно, сейчас же можно воспользоваться плагином, однако лично я этого не делал, оставил все «по старинке». Что касается описания всех модулей плагина, то на моем блоге его нет, т.к. я не использую их все.

    [Ответить]

    Ответить
  31. Николай, помоги пжлст и мне разобраться…У меня на сайте много исключенных Яндексом страниц. Насколько понимаю, проблема во многом из-за файла robots.txt, хотя устанавливала про «образцу» из Youtube…по крайней мере с вашим примером много отличий. Что нужно предпринять? Удалить свой прежний файл с хостинга и установить новый? Заранее спасибо.

    [Ответить]

    Николай Коротков

    Оксана, посмотрел ваш robots.txt он у вас составлен верно. А то, что вы наблюдаете исключенные страницы Яндексом, так это так и должно быть. Ведь в robots.txt установлен на них запрет, т.е. индексация всего ненужного запрещена.

    [Ответить]

    Ответить

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Поиск по блогу
Подписка на обновления

Введите Ваш e-mail:

rss

twitter

 google

Интересная информация
Хостинг от Макхост

ВОСПОЛЬЗУЙТЕСЬ ПРИ РЕГИСТРАЦИИ КУПОНОМ "blogiseo" И ПОЛУЧИТЕ 3 МЕС. БЕСПЛАТНОГО ИСПОЛЬЗОВАНИЯ ХОСТИНГА ПО ТАРИФУ МАК-10.