Какой правильный robots.txt для WordPress и OpenCart. Зачем нужен файл robots.txt
|В статье про карту сайта для поисковиков (sitemap.xml) мы писали что существует еще такое понятие как robots.txt который нужен каждому сайту. В этой статье мы с вами обсудим зачем вообще нужен этот файл, для чего он, и как его правильно настроить для двух самых полулярных движков: WordPress — движок для блогов, и OpenCart — движок для магазинов.
Сразу оговорюсь, эта статья очень важна, ведь неправильно настроенный файл robots.txt может привести к тому что у вас сайт вообще не будет индексироваться, хоть у вас будет на 100% уникальный контент.
Зачем нужен robots.txt и что он делает?
Обычным пользователям понадобилось искать какую-то информацию со времени появления интернета. Но в то время сайт состоял из простых файлов .html, которые были между собой перелинкованные. Поисковикам было понятно что индексировать. Зашел в корень сайта, и индексируй все, ведь все файлы HTML это и есть контент для пользователей ресурса.
Но с того времени много воды утекло, HTML страницами уже никто не пользуется, а CMS все сложнее и сложнее. Более того сейчас весь контент, текст, храниться не в файлах, а в базах данных, а уже от туда достается по требованию php скриптами. Естественно, из-за этого файлы на сайте поделились на две части, первая — которую не надо индексировать потому что они относятся к файлам движка, а вторая которую наоборот надо индексировать.
Чтобы сэкономить время поисковику и дать понять какие файлы стоят его внимания а какие нет, существует файл robots.txt. Точнее у него есть две миссии:
- Показать какие файлы не надо индексировать
- Дать ссылку на карту сайта, а она покажет какие статьи надо индексировать.
Также это важно, потому что на каждый сайт поисковый робот уделяет какое-то время. По истечении этого времени он уходит, и вполне может не посмотреть что у вас еще есть страницы которые не попали в индекс. Для того чтобы все 100% времени он занимался тем чем надо вам требуется всего лишь правильно настроить robots.txt для OpenCart и WordPress
Какой правильный robots.txt для WordPress, OpenCart
Чтобы не разводить полемику, я решил сначала выложить правильные файлы для двух самых популярных CMS, а потом объяснить почему именно так. Также в следующем абзаце мы рассмотрим синтаксис этого файла.
Итак, для WordPress вам надо создать пустой документ в блокноте. Назвать его robots и сохранить в формате txt. Пользователи Mac OS могут воспользоваться любым другим удобным редактором. Лично я использую SubEthaEdit.
В этот файл вам надо скопировать текст который вы можете взять из моего файла Robots.txt. Само собой что вам надо будет в строчках:
Host: napositive.com.ua Sitemap: http://napositive.com.ua/sitemap.xml.gz Sitemap: http://napositive.com.ua/sitemap.xml
Поменять мой домен, на домен вашего блога.
После чего загрузите файл в корень сайта. Чтобы проверить что файл нормально работает перейдите по адресу http://napositive.com.ua/robots.txt Домен этого блога, который я подчеркнул, замените на свой.
Что касается OpenCart, то тут все сложнее. Поскольку в магазине кроме стандартных ссылок есть еще функции фильтрации товара, отображение товара и.т.д. Поэтому файл будет чуть длиннее и тяжелее. Хороший, а самое главное, не раз проверенный файл robots.txt вы можете посмотреть тут
Опять же, надо заменить в строках:
Host: Vash_domen Sitemap: http://Vash_domen/sitemap.xml
Vash_domen на ваш домен.
Синтаксиис robots.txt
Как вы видели в файлах выше, параметров в файле очень мало. Давайте разберем что они означают, чтобы лучше понимать. Возможно вам эта информация поможет, если захотите самостоятельно закрыть ту или иную страницу от индексации.
- На самом верху есть запись: User-agent: * Этот параметр показывает для какого поисковика правила. Самая верхняя запись означает что правила которые идут ниже для всех поисковиков. Чуть ниже есть запись User-agent: Yandex она означает что правила которые идут ниже предназначены только для Yandex. Почему я вывел в обоих CMS Yandex отдельной графой? Потому что как правило именно бот яндекса самый капризный, и для его нормальной работы лучше вынести правила специально для него.
- Disallow: Показывает что по этому пути ничего индексировать не надо. К примеру запись Disallow: /wp-admin Показывает что индексировать все что находиться по пути http://napositive.com.ua/wp-admin/ не надо.
- Парамерт Host: помогает дать понять поисковикам главный домен, ведь сайт может быть доступен по нескольким адресам. К примеру www.napositive.com.ua и napositive.com.ua
- Параметр Sitemap: показывает путь к карте сайта, ведь он может быть отличным от ваш_домен/sitemap.xml
Если у вас остались какие-то вопросы, напишите мне в комментариях, попробую вам помочь.
Спасибо за статью, позновательно)
а где взять sitemap.xml если предустановленного не было?
Вы можете прочитать про это по ссылке http://napositive.com.ua/kak-sozdat-sitemap-v-ruchnom-i-avtomaticheskom-rezhime-wordpress-i-opencart/