Файл robots txt для wordpress правильный и рабочий вариант для всех сайтов

SEO оптимизация не легкая задача, и первым шагом нужно закрыть все вопросы по технической части вопроса, а потом приступать к созданию и продвижению контента. Для максимального эффекта нужно создать robots txt для wordpress. В современном интернете нужно всегда пользоваться современными методами и держать сайты в порядке иначе потерять позиции в поиске очень легко.

Для чего нужен robots.txt

Robots.txt создан для регулирования поведения поисковых роботов на сайтах, а именно куда им заходить можно и брать в поиск, а куда нельзя. Лет 10 назад сила данного файла была велика, по его правилам работали все поисковые системы, но сейчас он скорее как рекомендация, чем правило.

Но пока не отменили, вебмастера должны делать его и настраивать правильно исходя из структуры и иерархии сайтов. Отдельная тема это WordPress, потому что CMS содержит множество элементов, которые не нужно сканировать и отдавать в индекс. Разберемся как правильно составить robots.txt

Где лежит файл robots в WordPress

На любом из ресурсов robots.txt должен лежать в корневой папке. В случае с вордпресс, там где находится папка wp-admin и ей подобные.

Где располагается robots txt
Расположение на сервере

Если не создавался и не загружался администратором сайта, то по умолчанию на сервере не найти. Стандартная сборка WordPress не предусматривает наличие такого объекта.

Как создать правильный robots txt

Создать правильный robots txt задача не трудная, сложнее прописать в нем правильные директивы. Сначала создадим документ, открываем программу блокнот и нажимаем сохранить как.

Блокнот
Сохраняем документ

В следующем окне задаем название robots, оставляем расширение txt, кодировку ANSI и нажимаем сохранить. Объект появится в папке куда произошло сохранение. Пока документ пустой и ничего не содержит в себе, давайте разберемся какие именно директивы он может поддерживать.

При желании можете сразу скачать его на сервер в корень через программу FileZilla.

Кодировка и сохранение
Сохранение роботса

Настройка команд

Выделю четыре основные команды:

  • User-agent: показывает правила для разных поисковых роботов, либо для всех, либо для отдельных
  • Disalow: запрещает доступ
  • Allow: разрешаем доступ
  • Sitemap: адрес до XML карты

Устаревшие и ненужные конфигурации:

  1. Host: указывает главное зеркало, стало не нужным, потому что поиск сам определит правильный вариант
  2. Crawl-delay: ограничивает время на пребывание робота на странице, сейчас сервера мощные и беспокоится о производительности не нужно
  3. Clean-param: ограничивает загрузку дублирующегося контента, прописать можно, но толку не будет, поисковик проиндексирует все, что есть на сайте и возьмет по–максимому страниц

Рабочий пример инструкций для WordPress

Дело в том что поисковой робот не любит запрещающие директивы, и все равно возьмет в оборот, что ему нужно. Запрет на индексацию должен быть объектов, которые 100% не должны быть в поиске и в базе Яндекса и Гугла. Данный рабочий пример кода помещаем в robots txt.

User-agent: *
Disallow: /wp-
Disallow: /tag/
Disallow: */trackback
Disallow: */page
Disallow: /author/*
Disallow: /template.html
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: *.js
Allow: *.css
Allow: *.png
Allow: *.gif
Allow: *.jpg
Sitemap: https://ваш домен/sitemap.xml

Разберемся с текстом и посмотрим что именно мы разрешили, а что запретили:

  • User-agent, поставили знак *, тем самым сообщив что все поисковые машины должны подчиняться правилам
  • Блок с Disallow запрещает к индексу все технические страницы и дубли. обратите внимание что я заблокировал папки начинающиеся на wp-
  • Блок Allow разрешает сканировать скрипты, картинки и css файлы, это необходимо для правильного представления проекта в поиске иначе вы получите портянку без оформления
  • Sitemap: показывает путь до XML карты сайта, обязательно нужно ее сделать, а так же заменить надпись»ваш домен»

Остальные директивы рекомендую не вносить, после сохранения и внесения правок, загружаем стандартный robots txt в корень WordPress. Для проверки наличия открываем такой адрес https://your-domain/robots.txt, заменяем домен на свой, должно отобразится так.

url расположения
Адрес в строке запроса

Как проверить работу robots.txt

Стандартный способ проверить через сервис yandex webmaster.  Для лучшего анализа нужно зарегистрировать и установить на сайт сервис. Вверху видим загрузившийся robots, нажимаем проверить.

Валидатор yandex
Проверка документа в yandex

Ниже появится блок с ошибками, если их нет то переходим к следующему шагу, если неверно отображается команда, то исправляем и снова проверяем.

Ошибки всего файла robots
Отсутствие ошибок в валидаторе

Проверим правильно ли Яндекс обрабатывает команды, спускаемся чуть ниже, введем два запрещенных и разрешенных адреса, не забываем нажать проверить. На снимке видим что инструкция сработала, красным помечено что вход запрещен, а зеленой галочкой, что индексирование записей разрешена.

Проверка отдельный страниц
Проверка папок и страниц в яндексе

Проверили, все срабатывает, перейдем к следующему способу это настройка robots с помощью плагинов. Если процесс не понятен, то смотрите наше видео.

Плагин–генератор Virtual Robots.txt

Если не хочется связываться с FTP подключением, то приходит на помощь один отличный WordPress плагин–генератор называется Virtual Robots.txt. Устанавливаем стандартно из админки вордпресс поиском или загрузкой архива, выглядит так.

Плагин Virtual Robots.txt
Как выглядит Virtual Robots.txt

Переходим в админку Настройки > Virtual Robots.txt, видим знакомую конфигурацию, но нам нужно ее заменить, на нашу из статьи. Копируем и вставляем, не забываем сохранять.

Загрузка данных в Virtual Robots.txt
Настройка Virtual Robots.txt

Роботс автоматически создастся и станет доступен по тому же адресу. При желании проверить есть он в файлах WordPress – ничего не увидим, потому что документ виртуальный и редактировать можно только из плагина, но Yandex и Google он будет виден.

Добавить с помощью Yoast SEO

Знаменитый плагин Yoast SEO предоставляет возможность добавить и изменить robots.txt из панели WordPress. Причем созданный файл появляется на сервере (а не виртуально) и находится в корне сайта, то есть после удаления или деактивации роботс остается. Переходим в Инструменты > Редактор.

Редактор в Yoast Seo
Yoast SEO редактор файлов

Если robots есть, то отобразится на странице, если нет есть кнопка «создать», нажимаем на нее.

Создание файла индексации
Кнопка создания robots

Выйдет текстовая область, записываем, имеющийся текст из универсальной конфигурации и сохраняем. Можно проверить по FTP соединению документ появится.

Изменить модулем в All in One SEO

Старый плагин All in One SEO умеет изменять robots txt, чтобы активировать возможность переходим в раздел модули и находим одноименный пункт, нажимаем Activate.

Модуль AIOSP
Модули в All In one Seo

В меню All in One SEO появится новый раздел, заходим, видим функционал конструктора.

Добавление и удаление директив
Работа в модуле AIOS
  1. Записываем имя агента, в нашем случае * или оставляем пустым
  2. Разрешаем или запрещаем индексацию
  3. Директория или страница куда не нужно идти
  4. Результат

Модуль не удобный, создать по такому принципу валидный и корректный robots.txt трудно. Лучше используйте другие инструменты.

Правильная настройка для плагина WooCommerce

Чтобы сделать правильную настройку для плагина интернет магазина на WordPress WooCommerce, добавьте эти строки к остальным:

Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

Делаем аналогичные действия и загружаем на сервер через FTP или плагином.

Итог

Подведем итог что нужно сделать чтобы на сайте WordPress был корректный файл для поисковиков:

  • Создаем вручную или с помощью плагина файл
  • Записываем в него инструкции из статьи
  • Загружаем на сервер
  • Проверяем в валидаторе Yandex
  • Не пользуйтесь генераторами robots txt в интернете, пошевелите немного руками

Совершенствуйте свои блоги на WordPress, продвигайтесь и правильно настраивайте все параметры, а мы в этом поможем, успехов!

Пожалуйста, оцените материал:

Давно занимаюсь и разрабатываю сайты на Wordpress. Считаю что лучшего решения для ведения бизнеса не найти, поэтому считаю долгом делиться информацией с остальными.
Получай полезные материалы удобным способом!
Комментарии:
  1. Disallow: */page Я правильно понял, вы закрыли страницы блога от индексации, если так то зачем закрывать страницы???

    1. Надо закрыть страницы иначе вот такие page/33/ /page/37/ /page/35/ /page/50 страницы появляются в индексации

  2. Благодарю за отличную статью и инструкции по robots txt для wordpress! По поводу ранее написанного комментария, я получил ответ под видео в ютуб, БлагоДарю!

  3. Здравствуйте
    Disallow: /tag/
    Это я так понял теговые страницы от индексации закрывает?
    В плагине Clearfy Pro такого нет) там вообще немного по другому

    1. Здравствуйте. Да немного по другому, но почти одинаковые. Про tag да правильно это страницы меток, просто 99% ими никто не продвигается на самом деле, но бывает случайно они появляются. Поэтому если вы пользуетесь метками при продвижении сайта, то эту строку убирайте.

  4. Отличная статья!
    Как вы думаете, вот тут c-wd.ru/tools/robots/ нормальный robots генерируется?
    Или стоит самостоятельно его сделать?

    1. Спасибо. Вроде нормальный но короткий, не хватает некоторых команд.

  5. Здравствуйте, а на элементоре если сайт, что то нужно в роботс добавлять?
    Ссылки такого плана при вашем роботе будут блочится: https://resurs-2012.ru/zakazat-dissertatsiyu?elementor-preview=235&ver=1602069225

  6. А что значит User-agent? У Вас он только один и в виде звездочки, а в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress их куча и всяких разных

    1. Светлана, в нашем примере один юзер-агент для всех поисковых роботов, которые могут забежать на сайт. Некоторые действительно прописывают в robots.txt разные условия индексации для разных поисковых систем, но мы считаем этот подход избыточным и даже вредным.

  7. Здравствуйте!
    1.Подскажите, зачем нужна * при создании директив. Приме у Вас указана директива в таком виде -Disallow: */page, у автора другого ресурса указано Disallow: /page/. Так же от чего тозакрыто /, у Вас он отсутствует.
    2. Почему Вы не предлагаете закрывать /readme.html, yeb ещё некоторые файлы.
    На эксперименты нет времени. Хочется сделать сразу правильно.
    Спасибо.

Добавить комментарий