Какой правильный robots.txt для WordPress и OpenCart. Зачем нужен файл robots.txt

В статье про карту сайта для поисковиков (sitemap.xml) мы писали что существует еще такое понятие как robots.txt который нужен каждому сайту. В этой статье мы с вами обсудим зачем вообще нужен этот файл, для чего он, и как его правильно настроить для двух самых полулярных движков: WordPress — движок для блогов, и OpenCart — движок для магазинов.

Сразу оговорюсь, эта статья очень важна, ведь неправильно настроенный файл robots.txt может привести к тому что у вас сайт вообще не будет индексироваться, хоть у вас будет на 100% уникальный контент.

Зачем нужен  robots.txt и что он делает?

Обычным пользователям понадобилось искать какую-то информацию со времени появления интернета. Но в то время сайт состоял из простых файлов .html, которые были между собой перелинкованные. Поисковикам было понятно что индексировать. Зашел в корень сайта, и индексируй все, ведь все файлы HTML это и есть контент для пользователей ресурса.

Но с того времени много воды утекло, HTML страницами уже никто не пользуется, а CMS все сложнее и сложнее. Более того сейчас весь контент, текст, храниться не в файлах, а в базах данных, а уже от туда достается по требованию php скриптами. Естественно, из-за этого файлы на сайте поделились на две части, первая — которую не надо индексировать потому что они относятся к файлам движка, а вторая которую наоборот надо индексировать.

Чтобы сэкономить время поисковику и дать понять какие файлы стоят его внимания а какие нет, существует файл robots.txt. Точнее у него есть две миссии:

  1. Показать какие файлы не надо индексировать
  2. Дать ссылку на карту сайта, а она покажет какие статьи надо индексировать.

Также это важно, потому что на каждый сайт поисковый робот уделяет какое-то время. По истечении этого времени он уходит, и вполне может не посмотреть что у вас еще есть страницы которые не попали в индекс. Для того чтобы все 100% времени он занимался тем чем надо вам требуется всего лишь правильно настроить robots.txt для OpenCart и WordPress

Какой правильный robots.txt для WordPress, OpenCart

Чтобы не разводить полемику, я решил сначала выложить правильные файлы для двух самых популярных CMS, а потом объяснить почему именно так. Также в следующем абзаце мы рассмотрим синтаксис этого файла.

Итак, для WordPress вам надо создать пустой документ в блокноте. Назвать его robots и сохранить в формате txt. Пользователи Mac OS могут воспользоваться любым другим удобным редактором. Лично я использую SubEthaEdit.

В этот файл вам надо скопировать текст который вы можете взять из моего файла Robots.txt. Само собой что вам надо будет в строчках:

Host: napositive.com.ua
Sitemap: http://napositive.com.ua/sitemap.xml.gz
Sitemap: http://napositive.com.ua/sitemap.xml

Поменять мой домен, на домен вашего блога.

После чего загрузите файл в корень сайта. Чтобы проверить что файл нормально работает перейдите по адресу http://napositive.com.ua/robots.txt Домен этого блога, который я подчеркнул, замените на свой.

Что касается OpenCart, то тут все сложнее. Поскольку в магазине кроме стандартных ссылок есть еще функции фильтрации товара, отображение товара и.т.д. Поэтому файл будет чуть длиннее и тяжелее. Хороший, а самое главное, не раз проверенный файл robots.txt вы можете посмотреть тут

Опять же, надо заменить в строках:

Host: Vash_domen
Sitemap: http://Vash_domen/sitemap.xml

Vash_domen на ваш домен.

Синтаксиис robots.txt

Как вы видели в файлах выше, параметров в файле очень мало. Давайте разберем что они означают, чтобы лучше понимать. Возможно вам эта информация поможет, если захотите самостоятельно закрыть ту или иную страницу от индексации.

  • На самом верху есть запись: User-agent: * Этот параметр показывает для какого поисковика правила. Самая верхняя запись означает что правила которые идут ниже для всех поисковиков. Чуть ниже есть запись User-agent: Yandex она означает что правила которые идут ниже предназначены только для Yandex. Почему я вывел в обоих CMS Yandex отдельной графой? Потому что как правило именно бот яндекса самый капризный, и для его нормальной работы лучше вынести правила специально для него.
  • Disallow:  Показывает что по этому пути ничего индексировать не надо. К примеру запись Disallow: /wp-admin Показывает что индексировать все что находиться по пути http://napositive.com.ua/wp-admin/ не надо.
  • Парамерт Host: помогает дать понять поисковикам главный домен, ведь сайт может быть доступен по нескольким адресам. К примеру www.napositive.com.ua и napositive.com.ua
  • Параметр Sitemap: показывает путь к карте сайта, ведь он может быть отличным от ваш_домен/sitemap.xml

Если у вас остались какие-то вопросы, напишите мне в комментариях, попробую вам помочь.

загрузка...
Ошибка d3dx9.dll и d3dx9_43.dll как исправить эту ошибку
3 комментария

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *