Как создать файл robots.txt? Настройка robots.txt для wordpress!
Материал принадлежит автору сайта https://blogiseo.ru/
Разместил
Николай Коротков
Дата: 13 марта 2013 в 10:56
Всем привет!
Сегодня я вам покажу, как создать файл robots.txt для wordpress. Robots.txt является очень важным файлом для сайтов. Этот файл позволяет указать поисковым системам, как правильно нужно индексировать ваш ресурс.
Он является первоочередным файлом для вашего блога, как только тот появился в сети! Отсутствие данного файла или неправильное его составление является распространенной ошибкой среди блоггеров — новичков. Поэтому, если на вашем блоге его нет или настройка robots.txt вызывает у вас сомнение, внимательно изучите данную статью!
Как создать файл robots.txt
Файл robots.txt, так же как и карта сайта (sitemap.xml), предназначен для управления индексацией вашего блога! Задав в файле robots.txt определенные правила для поисковиков, которые мы разберем чуть ниже и, поместив его в корневой каталог, вы сможете правильно управлять индексацией своего ресурса, что очень важно для его успешного продвижения!
Здесь главное четко понимать, что не все файлы, находящиеся в корневом каталоге, должны быть проиндексированы поисковыми системами. Сейчас я вам расскажу об этом более подробно. Если кто не знает, корневой каталог, это основная папка вашего сайта со всем его содержимым. В зависимости от хостинга, это будет или «httpsdocs» или «public_html».
Любой блог на wordpress, имеет определенные папки и файлы, обусловленные самим движком, например (wp-admin, wp-includes). Так вот, эти папки и файлы не несут никакой ценности ни для читателей, ни для поисковых систем. Они нужны лишь для работы самого движка. И если их оставить без внимания и не запретить индексацию, то поисковые роботы, зайдя на ваш ресурс, будут индексировать все, что попадется на их пути.
А у них есть определенный лимит! И бывают такие случаи, когда они не успевают проиндексировать нужные вам файлы, занимаясь индексацией не нужных! Плюс ко всему, если не прописать определенные правила, со временем ваш блог обрастет дублированным контентом, что поисковые системы просто ненавидят и жестко наказывают, накладывая на блог различные фильтры. Особенно это касается поисковой системы Яндекс.
Дублями страниц в wordpress в большинстве случаев выступают рубрики, архивы, архивы меток. Если их не закрыть от индексации, то по мере появления новых страниц, дублированный контент будет распространяться на вашем блоге со стремительной скоростью. Во избежание всего этого, для wordpress существует очень важный плагин поисковой оптимизации All In One SEO Pack. Который, при правильной его настройке, способен предотвратить все неприятности!
Также, если вы добавляете в корневой каталог какие-то папки с файлами, в которых содержится множество внешних ссылок или скриптов, не забывайте их закрывать от индексации в файле robots.txt. Дальше мы с вами разберем, как это делается.
Настройка robots.txt
Robots.txt является обычным файлом, созданным в текстовом редакторе, например notepad++ и включает в себя несколько важных директив. Первая и самая основная директива User-agent, содержит в себе название поискового робота. Чтобы адресовать User-agent всем поисковым роботам, зашедшим на ваш ресурс, ее следуют прописать таким образом:
User-agent: *
Следующая директива, без которой не обходится не один файл robots.txt, обозначается так: Disallow. Директива Disallow предназначена для запрета определенных папок и файлов и любой правильный robots.txt должен обязательно содержать после User-agent директиву Disallow. Вот простой пример, разрешающий всем поисковым системам индексировать все содержимое вашего ресурса:
User-agent: *
Disallow:
Если к Disallow добавить правый слэш «/»:
User-agent: *
Disallow: /
Вы напротив, запретите всем поисковым системам индексировать ваш сайт. Теперь, что касается не нужных файлов и папок самого движка wordpress. Для запрета индексации поисковыми системами, например всего содержимого папки wp-admin, вам следует прописать следующее:
User-agent: *
Disallow: /wp-admin/
Дальше, я вам покажу полноценный и правильный robots.txt для wordpress, рекомендуемый разработчиками, а пока что рассмотрим еще одну важную директиву Host. Директива Host предназначена исключительно для Яндекса. С какой это радости такие привилегии? Так повелось, что поисковая система Яндекс по статистике имеет наибольший вес в русскоязычном интернете, что является самим собой разумеющимся подстраиваться под ее капризы!
При всем при этом рекомендуется еще, и выделить отдельный блок для Яндекса:
User-agent: Yandex
Во избежание неправильной индексации ресурса, директива Host прописывается только для Яндекса и указывает на основное зеркало вашего ресурса, т.е. по какому адресу будет доступен ваш сайт: www.sait.ru или sait.ru. Другие поисковые системы не понимают директиву Host! Для Яндекса блок в файле robots.txt должен выглядеть следующим образом:
User-agent: Yandex
Disallow:
Host: www.sait.ru
или
User-agent: Yandex
Disallow:
Host: sait.ru
В этом случае, во избежание лишних неприятностей, правильнее будет настроить 301 редирект, но о нем я как-нибудь, расскажу в отдельном посте. Подпишитесь на обновления блога, чтобы ничего не пропустить, а пока рассмотрим последнюю директиву, которую должен включать в себя правильный robots.txt для wordpress. Она имеет знакомое вам название, Sitemap. О ней я более подробно рассказывал в статье «Как сделать карту сайта», ссылка приведена чуть выше.
Директива Sitemap указывает поисковым роботам на месторасположение карты сайта и прописывается отдельно от предыдущих директив и только один раз. Ее понимают все поисковые системы. Вот как это выглядит:
Мы с вами рассмотрели основные директивы, которые используются в правильном robots.txt и рекомендуются разработчиками. Больше я не буду вас грузить заумными словами, а покажу конкретный пример правильного файла robots.txt. У меня он выглядит следующим образом:
Первоочередное, что необходимо скормить поисковикам для индексации, является контент! При таком раскладе, ваш блог на wordpress будет замечательно себя чувствовать, и что самое важное, правильно и быстро индексироваться. Не одна ваша статья не останется без внимания, и поисковые роботы не будут тратить свое время на ненужный хлам! Если вы сомневаетесь в правильности его составления, можете изучить данный вопрос более подробно на этом сайте.
Также, вы можете сравнить несколько файлов robots.txt на различных блогах имеющих платформу wordpress, все они будут примерно одинаковы! Чтобы посмотреть, как он выглядит на другом ресурсе, достаточно прописать в строке браузера, после доменного имени /robots.txt. И последнее, что я еще не сказал, имя файла должно быть всегда одинаковым и иметь следующий вид:
robots.txt
Никаких заглавных букв быть не должно и на конце не забывайте прописывать «s»! Запомните это! Вот, наверное, и все, что я хотел сегодня вам рассказать. Теперь вам тоже известно, как создать и настроить файл robots.txt. И остается наградить победителей кроссворда.
Победители кроссворда на blogiseo.ru №8
В этот раз кроссворд был немного необычным, но все-таки все справились и оценили его. В дальнейшем время от времени постараюсь изменять правила кроссворда, чтобы было интереснее! Ну а теперь встречаем наших победителей:
Победители кроссворда на blogiseo.ru №8: 1 место — Михаил (pizza-gotova.com) — 200 рублей 2 место — Дмитрий ([email protected]) — 100 рублей 3 место — Евгения (domhozka.ru) — 50 рублей
Молодцы ребята. Поздравляю вас с заслуженной победой и жду ваши кошельки для перевода вознаграждений! На этом я свой пост буду заканчивать. Желаю всем отличного настроения, пока и до новых встреч!
Как вам статья? А у вас на блоге имеется файл robots.txt? Жду ваших комментариев!
Какой робот.txt все же знаменитый! Практически у каждого блоггера есть статья на эту тему. Отличается только подачей, Ваша подача мне очень понравилась! К счастью я свой файлик уже настроил и теперь не нуждаюсь в таких статьях, но за материал все равно спасибо! Я тоже недавно писал статью на эту тему, посетителям понравилось
У меня этот файл настроен давно. С тех пор ничего не менял. Сверю с Твоим Николай, потом отпишусь, что сходится, а что нет. Может что добавить надо. И очень жду информацию про редирект 301. Дело в том, что добрые люди подсказали, что у меня есть клей на Блоге. Вот, что они мне посоветовали:
Необходимо, чтобы при запросе любых некорректных URLs вида vedrogaek.ru/?N, где N – любой численный или строковый параметр, сервер отдавал https/1.1 404 Not Found, либо https/1.1 301 Moved Permanently c переадресацией на главную.
В индексе поисковой системы Яндекс присутствует полный дубль главной страницы сайта vedrogaek.ru/index.php. Рекомендуем сделать с этой страницы редирект 301 на страницу vedrogaek.ru с помощью файла настройки сервера .htaccess.
Я конечно изучу этот вопрос более подробно, но пока у тебя все нормально! Посмотри любые блоги и сравни! При вводе ?N и index.php у всех идет перенаправление на главную страницу! А у Тебе в корне присутствует файл .htaccess? В нем настроен 301 редирект? Если да, то не парься, так и должно быть!
Николай, я как-то задавал вам вопрос по этой теме в комментариях. Вы там же ответили — я все сделал вчера. Но до сих пор Яндекс и Рамблер сайт индексируют по старому. Там после изменения время какое-то должно пройти или нет, пока пойдет как надо?
Кто бы еще Гугл заставил на указанные в robots.txt запреты на индексацию реагировать. Роботс в каких только вариантах не использовался — все равно индексирует совсем ненужные страницы
Николай, а как исправить это: почему-то Яндекс все еще дает ссылку в поисковике на мой сайт вот так — history-tema.com.xsph.ru, а Гугл почти с самого начала стал показывать history-tema.com.
Спасибо за полную и ценную информацию. Действительно отлично изложено. Очень четко и точно. Прослушала видеокурсы. Там затрагивалась эта тема. Но так и не смогла настроить этот файл правильно. А сейчас все получилось.
Николай, а как настроить robots.txt так, чтобы бот обращался с большим интервалом к сайту. У меня на одном из сайтов из логов к сайту происходят обращения от поискового бота MSN это сервиса Microsoft я так поняла этих обращений слишком много, из за чего тормозит сайт.
Для задания интервала в файле robots.txt необходимо прописать директиву для поисковой системы Crawl-delay: и задать необходимый вам интервал, в секундах. Например: Crawl-delay: 10. Но я бы вам не советовал это делать, т.к. это может ухудшить индексацию вашего ресурса.
Здравствуйте Николай! Я пытаюсь решить проблемму такого рода:При установки нового движка WordPress появился robots.txt, прописан так;User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
В корневой папке он не присутсвует, скрыт где то в файлах. Вроде пересмотрел все, не могу найти. Я закачал в корневую папку свой robots.txt. Не читается, выставил права, не помогло. Может есть ответ на данную проблему?
При просмотре файла robots.txt на вашем сайте выводится следующая ошибка: "Предупреждение: call_user_func_array () ожидает параметр 1 должен быть допустимым обратного вызова, функция " do_robots « не найден или неверный имя функции в /home/konsta03/e.kherson.ua/www/wp-includes/plugin.php on line 406». Я не знаю, что вы там натворили, нужно разбираться...
Disallow: /category/*/* — запрещает к индексации рубрики (категории) вашего сайта. Данную функцию также можно обеспечить в настройках плагина All In One SEO Pack.
Disallow: */ — означает запрет индексации всех без исключения страниц. Поэтому в таком виде данная директива не используется. Обычно следом за ней прописывается отдельная категория файлов для запрета…
Disallow: /*?replytocom — исключает дубли страниц при включенных древовидных комментариях, т.к. включенная функция в wordpress генерирует дополнительные страницы, которые дублирую основной контент.
Disallow: /*?* — означает запрет любых страниц, где в URL — адресе встречается “?”, не зависимо от того, какие символы идут до и после этого знака. По умолчанию спецсимвол “*” добавляется к концу каждого правила, даже если он не прописан специально. И если у вас не настроены ЧПУ (имеют вид sait.ru/?p=123), то обязательно удалите данную строку из robots.txt или настройте постоянные ссылки правильно. В противном случае, в индексе останется только главная страница сайта, а остальные выпадут из индекса.
Disallow: /*? – запрет индексации всех страниц без исключения, по сути она дублирует Disallow: /*?*, но почему-то большинство веб мастеров советует прописывать и ту и другую директивы, хотя вразумительного ответа (в чем отличие), я так и не нашел в сети.
Проверить правильность составления robots.txt возможно в панели Яндекс.Вебмастер.
В связи с болезнью, я не обновлял на нём контент больше месяца. А когда вышел из больницы, то 8.07 опубликовал статью и показал её в аддурилке. Роботы заходили через день, но статью не индексировали. 22.07. я выставил новую статью, но прошло уже 7 дней, а статьи не индексируются.Роботы так же регулярно заходят ( был вчера 28.07.)
Не совсем понял про какую вырезку из кода вы говорите? Noindex — запрещает поисковым роботом индексировать ссылки, а nofollow — запрещает переходить по ссылкам.
Николай, подскажи...Такая проблема...Все настроил, все работало...Во всяком случае на старом сайте...Яндекс мой роботс съел без проблем, а вот Гугл не хочет,показывает ошибку...Что не может загрузить?
Это со временем пройдет? Дело в том, что я по ошибке файл sitemap.xlm закинул со старого сайта и после индексации повалились ошибки, я исправил,ошибки с возвратом 404 отметил, как исправленые...Но все равно он его не может загрузить...
Да, косячок вышел... Ну не переживай, со следующим заходом роботов Google и переиндексацией твоего сайта все должно стабилизироваться! А новые файлы sitemap.xlm отправил в Google? Карту сайта перестроил?
Да, все перестроил и отправил...Дело в том, что Яндекс тоже застопорился и выдавал ошибки, но после загрузки роботса и карты сайта все нормализовалось...А вот Гугл парится...
У Яндекса можно ручками карту загрузить, а Гугл самостоятельно...Вот и думаю...Хотя, 5 урлов уже в индексе Гугла...
Да паники та особо нет никакой...Просто может это нужно руками вправлять, а я не знаю...А если автоматически через некоторое время, то значит вообще паники нет =)
В справке сам черт ногу сломит...Нигде нет пояснений как загрузить роботс Гуглу =)
Николай, помогите пож-ста разобраться. Почему в гугле вебмастере при проверке файла robots пишет, что заблокировано 28 URL. «В течение последних 90 дней робот Google пытался просканировать эти URL, но был заблокирован посредством файла robots.txt.»
Наталья, robots.txt у вас составлен правильно. Посмотрите в административной панели вордпрес/настройка приватности, у вас случайно не стоит галочка, запрещающая индексировать сайт поисковым системам?
Адреса страниц, запрещенных к индексации в вебмастере указаны с числовым значением, у меня сначала так было на сайте, я потом переделала на смысловые латинские названия. А в вебмастере остались старые числовые варианты. Может быть из-за этого? И как это исправить, на сайте ведь еже нормально вроде бы?
Здравствуйте, в плагине All In One SEO Pack есть модуль Robots.txt (то есть можно создавать этот файл прямо в админке). Хотел узнать, есть ли принципиальная разница в создании этого файла своими руками или с помощью плагина? И есть ли у вас статья с описанием всех модулей данного плагина, хотелось бы почитать.
Принципиальной разницы создания файла robots.txt, я думаю нет. Просто раньше в старых версиях плагина All In One SEO Pack не было возможности создать файл robots.txt и приходилось создавать его отдельно, сейчас же можно воспользоваться плагином, однако лично я этого не делал, оставил все «по старинке». Что касается описания всех модулей плагина, то на моем блоге его нет, т.к. я не использую их все.
Николай, помоги пжлст и мне разобраться...У меня на сайте много исключенных Яндексом страниц. Насколько понимаю, проблема во многом из-за файла robots.txt, хотя устанавливала про «образцу» из Youtube...по крайней мере с вашим примером много отличий. Что нужно предпринять? Удалить свой прежний файл с хостинга и установить новый? Заранее спасибо.
Оксана, посмотрел ваш robots.txt он у вас составлен верно. А то, что вы наблюдаете исключенные страницы Яндексом, так это так и должно быть. Ведь в robots.txt установлен на них запрет, т.е. индексация всего ненужного запрещена.
Какой робот.txt все же знаменитый! Практически у каждого блоггера есть статья на эту тему. Отличается только подачей, Ваша подача мне очень понравилась! К счастью я свой файлик уже настроил и теперь не нуждаюсь в таких статьях, но за материал все равно спасибо! Я тоже недавно писал статью на эту тему, посетителям понравилось
[Ответить]
Да, как же я могу забыть: поздравляю победителей кроссворда! Было не легко, но Вы справились — молодцы!
[Ответить]
У меня этот файл настроен давно. С тех пор ничего не менял. Сверю с Твоим Николай, потом отпишусь, что сходится, а что нет. Может что добавить надо. И очень жду информацию про редирект 301. Дело в том, что добрые люди подсказали, что у меня есть клей на Блоге. Вот, что они мне посоветовали:
Необходимо, чтобы при запросе любых некорректных URLs вида vedrogaek.ru/?N, где N – любой численный или строковый параметр, сервер отдавал https/1.1 404 Not Found, либо https/1.1 301 Moved Permanently c переадресацией на главную.
В индексе поисковой системы Яндекс присутствует полный дубль главной страницы сайта vedrogaek.ru/index.php. Рекомендуем сделать с этой страницы редирект 301 на страницу vedrogaek.ru с помощью файла настройки сервера .htaccess.
Не сталкивался с таким?
[Ответить]
Николай Коротков
13 марта 2013 12:43
Александр
Я конечно изучу этот вопрос более подробно, но пока у тебя все нормально! Посмотри любые блоги и сравни! При вводе ?N и index.php у всех идет перенаправление на главную страницу! А у Тебе в корне присутствует файл .htaccess? В нем настроен 301 редирект? Если да, то не парься, так и должно быть!
[Ответить]
Николай, я как-то задавал вам вопрос по этой теме в комментариях. Вы там же ответили — я все сделал вчера. Но до сих пор Яндекс и Рамблер сайт индексируют по старому. Там после изменения время какое-то должно пройти или нет, пока пойдет как надо?
[Ответить]
Николай Коротков
13 марта 2013 12:39
Alex
Должно пройти время пока поисковики проиндексируют ваш robots.txt. И не понял что значит «...пока пойдет как надо?»
[Ответить]
Ура, наконец-то удалось занять хотя бы 3 место в кроссворде. Роботс у меня настроен, но надо будет сверить.
[Ответить]
Николай Коротков
14 марта 2013 19:11
Евгения
Поздравляю! Третье место тоже не плохо!
[Ответить]
Приз получила, спасибо. А роботс слегка подкорректировала, хотя почти все было правильно.
[Ответить]
Николай Коротков
14 марта 2013 20:56
Евгения
Пожалуйста! Ну и отлично, что у вас все было настроено корректно!
[Ответить]
Кто бы еще Гугл заставил на указанные в robots.txt запреты на индексацию реагировать. Роботс в каких только вариантах не использовался — все равно индексирует совсем ненужные страницы
[Ответить]
Александр
16 марта 2013 14:10
А никак не заставишь. Гугл напрочь игнорирует любые запреты в этом файле.
[Ответить]
Николай, а как исправить это: почему-то Яндекс все еще дает ссылку в поисковике на мой сайт вот так — history-tema.com.xsph.ru, а Гугл почти с самого начала стал показывать history-tema.com.
[Ответить]
Николай Коротков
29 марта 2013 08:12
Alex
Не переживайте, все будет хорошо! Просто Яндекс намного медленне реагирует на все изменения, чем Google. Пройдет еще какое-то время и все будет ОК!
[Ответить]
Понял. Спасибо.
[Ответить]
Спасибо за полную и ценную информацию. Действительно отлично изложено. Очень четко и точно. Прослушала видеокурсы. Там затрагивалась эта тема. Но так и не смогла настроить этот файл правильно. А сейчас все получилось.
[Ответить]
Наконец, настроил робота. Но, если честно, скопировал ваш, заменил только название сайта.
[Ответить]
а я недавно настроил роботс, поисковые роботы каждый день заходят на сайт практически
[Ответить]
Николай, а как настроить robots.txt так, чтобы бот обращался с большим интервалом к сайту. У меня на одном из сайтов из логов к сайту происходят обращения от поискового бота MSN это сервиса Microsoft я так поняла этих обращений слишком много, из за чего тормозит сайт.
[Ответить]
Николай Коротков
18 июня 2013 08:30
Светлана Ткаченко
Для задания интервала в файле robots.txt необходимо прописать директиву для поисковой системы Crawl-delay: и задать необходимый вам интервал, в секундах. Например: Crawl-delay: 10. Но я бы вам не советовал это делать, т.к. это может ухудшить индексацию вашего ресурса.
[Ответить]
из-за бота MSN очень сильно тормозит сайт, как тогда быть?
[Ответить]
Николай мне только добавить строчку: Crawl-delay: 10, а прописывать вот так надо?:
User-agent: MSN
Crawl-delay: 60 #
[Ответить]
Николай Коротков
18 июня 2013 10:20
Светлана Ткаченко
Совершенно верно, только решетка (#) после 60 не нужна
[Ответить]
вот так:
User-agent: MSN
Crawl-delay: 60
[Ответить]
Николай Коротков
18 июня 2013 10:22
Светлана Ткаченко
Да, так будет правильно.
[Ответить]
спасибо большое
[Ответить]
Николай Коротков
18 июня 2013 10:24
Не за что. Всегда рад помочь.
[Ответить]
Здравствуйте Николай! Я пытаюсь решить проблемму такого рода:При установки нового движка WordPress появился robots.txt, прописан так;User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
В корневой папке он не присутсвует, скрыт где то в файлах. Вроде пересмотрел все, не могу найти. Я закачал в корневую папку свой robots.txt. Не читается, выставил права, не помогло. Может есть ответ на данную проблему?
[Ответить]
Николай Коротков
14 июля 2013 12:34
Здравствуйте Константин!
При просмотре файла robots.txt на вашем сайте выводится следующая ошибка: "Предупреждение: call_user_func_array () ожидает параметр 1 должен быть допустимым обратного вызова, функция " do_robots « не найден или неверный имя функции в /home/konsta03/e.kherson.ua/www/wp-includes/plugin.php on line 406». Я не знаю, что вы там натворили, нужно разбираться...
[Ответить]
У меня почемуто не индексируется
Николай подскажите пожалуйста что обозначает следующая строка?
Disallow: /category/*/*
[Ответить]
и что обозначает
Disallow: */
Disallow: /*?replytocom
Disallow: /*?*
Disallow: /*?
[Ответить]
Николай Коротков
22 июля 2013 18:18
Disallow: /category/*/* — запрещает к индексации рубрики (категории) вашего сайта. Данную функцию также можно обеспечить в настройках плагина All In One SEO Pack.
Disallow: */ — означает запрет индексации всех без исключения страниц. Поэтому в таком виде данная директива не используется. Обычно следом за ней прописывается отдельная категория файлов для запрета…
Disallow: /*?replytocom — исключает дубли страниц при включенных древовидных комментариях, т.к. включенная функция в wordpress генерирует дополнительные страницы, которые дублирую основной контент.
Disallow: /*?* — означает запрет любых страниц, где в URL — адресе встречается “?”, не зависимо от того, какие символы идут до и после этого знака. По умолчанию спецсимвол “*” добавляется к концу каждого правила, даже если он не прописан специально. И если у вас не настроены ЧПУ (имеют вид sait.ru/?p=123), то обязательно удалите данную строку из robots.txt или настройте постоянные ссылки правильно. В противном случае, в индексе останется только главная страница сайта, а остальные выпадут из индекса.
Disallow: /*? – запрет индексации всех страниц без исключения, по сути она дублирует Disallow: /*?*, но почему-то большинство веб мастеров советует прописывать и ту и другую директивы, хотя вразумительного ответа (в чем отличие), я так и не нашел в сети.
Проверить правильность составления robots.txt возможно в панели Яндекс.Вебмастер.
[Ответить]
Николай!
У меня к Вам вопрос.
Кроме кулинарного, у меня есть ещё один сайт.
Так вот на нём происходит следующее.
В связи с болезнью, я не обновлял на нём контент больше месяца. А когда вышел из больницы, то 8.07 опубликовал статью и показал её в аддурилке. Роботы заходили через день, но статью не индексировали. 22.07. я выставил новую статью, но прошло уже 7 дней, а статьи не индексируются.Роботы так же регулярно заходят ( был вчера 28.07.)
Подскажите, что может быть?
[Ответить]
Николай Коротков
29 июля 2013 19:42
Александр Иванович
Трудно сказать когда не видишь ресурс, адрес сайта скажите.
[Ответить]
Николай!
Спасибо за ответ. Даю адрес сайта.
alsirko.ru
Заранее спасибо.
[Ответить]
Николай Коротков
5 августа 2013 14:13
Александр Иванович
Как буду посвободнее, обязательно проанализирую ваш ресурс и пришлю ответ на e-mail.
[Ответить]
Уважаемый Николай!
Меня преследует таже проблема — робот на сайт заходт через день, но статьи не индексирует (с 8 июля—5 статей)
Посмотрите на вырезку из кода страницы
О чём говорят эти два слова «noindex,nofollow» ?
[Ответить]
Николай Коротков
11 августа 2013 22:54
Александр Иванович
Не совсем понял про какую вырезку из кода вы говорите? Noindex — запрещает поисковым роботом индексировать ссылки, а nofollow — запрещает переходить по ссылкам.
[Ответить]
Николай, подскажи...Такая проблема...Все настроил, все работало...Во всяком случае на старом сайте...Яндекс мой роботс съел без проблем, а вот Гугл не хочет,показывает ошибку...Что не может загрузить?
Это со временем пройдет? Дело в том, что я по ошибке файл sitemap.xlm закинул со старого сайта и после индексации повалились ошибки, я исправил,ошибки с возвратом 404 отметил, как исправленые...Но все равно он его не может загрузить...
[Ответить]
Николай Коротков
12 сентября 2013 13:15
Александр
Да, косячок вышел... Ну не переживай, со следующим заходом роботов Google и переиндексацией твоего сайта все должно стабилизироваться! А новые файлы sitemap.xlm отправил в Google? Карту сайта перестроил?
[Ответить]
12 сентября 2013 13:22
Да, все перестроил и отправил...Дело в том, что Яндекс тоже застопорился и выдавал ошибки, но после загрузки роботса и карты сайта все нормализовалось...А вот Гугл парится...
У Яндекса можно ручками карту загрузить, а Гугл самостоятельно...Вот и думаю...Хотя, 5 урлов уже в индексе Гугла...
[Ответить]
Николай Коротков
12 сентября 2013 13:24
Александр
Подожди еще денек — другой, должно все встать на свои места. Рановато паниковать...
[Ответить]
12 сентября 2013 13:26
Да паники та особо нет никакой...Просто может это нужно руками вправлять, а я не знаю...А если автоматически через некоторое время, то значит вообще паники нет =)
В справке сам черт ногу сломит...Нигде нет пояснений как загрузить роботс Гуглу =)
[Ответить]
Николай Коротков
12 сентября 2013 13:28
Александр
При обходе сайта, Google его сам найдет.
Все нормализовалось после парочку заходов Гугла...Спасибо!
[Ответить]
Спасибо! После комментариев пришлось убрать:
Disallow: /*?*
Disallow: /*?
т.к. у меня именно такая форма новостей
[Ответить]
Спасибо за полезную статью. Я создаю robots.txt через сервис, экономлю массу времени: hotorg.ru/webmaster/tools/robots-txt-builder/index.php
[Ответить]
Николай, помогите пож-ста разобраться. Почему в гугле вебмастере при проверке файла robots пишет, что заблокировано 28 URL. «В течение последних 90 дней робот Google пытался просканировать эти URL, но был заблокирован посредством файла robots.txt.»
Буду очень благодарна за помощь!
[Ответить]
Николай Коротков
1 июня 2014 20:20
Наталья, эти 26 URL — адресов прописаны в вашем файле robots.txt. Он у вас составлен верно, так что не переживайте, так и должно быть.
[Ответить]
Николай, тоже прошу Вашей помощи. Вебмастер пишет, что все страницы моего сайта запрещены к индексации в роботе. Что делать, ума не приложу.
[Ответить]
Николай Коротков
2 сентября 2014 10:00
Наталья, robots.txt у вас составлен правильно. Посмотрите в административной панели вордпрес/настройка приватности, у вас случайно не стоит галочка, запрещающая индексировать сайт поисковым системам?
[Ответить]
2 сентября 2014 10:39
Николай, спасибо за отевет. Нет, в настройках админки разрешено к индексаци.
[Ответить]
2 сентября 2014 10:50
Адреса страниц, запрещенных к индексации в вебмастере указаны с числовым значением, у меня сначала так было на сайте, я потом переделала на смысловые латинские названия. А в вебмастере остались старые числовые варианты. Может быть из-за этого? И как это исправить, на сайте ведь еже нормально вроде бы?
[Ответить]
Николай Коротков
3 сентября 2014 08:59
Наталья, а давно вы меняли URL — адреса страниц? Если недавно, то стоит немного подождать пока пройдет переиндексация.
[Ответить]
3 сентября 2014 14:02
Я меняла 28 августа, подожду, может, само все восстановится. Спасибо, Николай!
[Ответить]
Здравствуйте, в плагине All In One SEO Pack есть модуль Robots.txt (то есть можно создавать этот файл прямо в админке). Хотел узнать, есть ли принципиальная разница в создании этого файла своими руками или с помощью плагина? И есть ли у вас статья с описанием всех модулей данного плагина, хотелось бы почитать.
[Ответить]
Николай Коротков
18 сентября 2014 09:29
Здравствуйте, Александр!
Принципиальной разницы создания файла robots.txt, я думаю нет. Просто раньше в старых версиях плагина All In One SEO Pack не было возможности создать файл robots.txt и приходилось создавать его отдельно, сейчас же можно воспользоваться плагином, однако лично я этого не делал, оставил все «по старинке». Что касается описания всех модулей плагина, то на моем блоге его нет, т.к. я не использую их все.
[Ответить]
Николай, помоги пжлст и мне разобраться...У меня на сайте много исключенных Яндексом страниц. Насколько понимаю, проблема во многом из-за файла robots.txt, хотя устанавливала про «образцу» из Youtube...по крайней мере с вашим примером много отличий. Что нужно предпринять? Удалить свой прежний файл с хостинга и установить новый? Заранее спасибо.
[Ответить]
Николай Коротков
21 октября 2014 08:14
Оксана, посмотрел ваш robots.txt он у вас составлен верно. А то, что вы наблюдаете исключенные страницы Яндексом, так это так и должно быть. Ведь в robots.txt установлен на них запрет, т.е. индексация всего ненужного запрещена.
[Ответить]