Файл robots txt для wordpress правильный и рабочий вариант для всех сайтов

SEO оптимизация не легкая задача, и первым шагом нужно закрыть все вопросы по технической части вопроса, а потом приступать к созданию и продвижению контента. Для максимального эффекта нужно создать robots txt для wordpress. В современном интернете нужно всегда пользоваться современными методами и держать сайты в порядке иначе потерять позиции в поиске очень легко.

SEO оптимизация

22.10.2019

49k.

Содержание

Для чего нужен robots.txt
Где лежит файл robots в WordPress
Как создать правильный robots txt
Настройка команд
Рабочий пример инструкций для WordPress
Как проверить работу robots.txt
Плагин Clearfy Pro — самый простой способ создать идеальный robots.txt
Плагин–генератор Virtual Robots.txt
Добавить с помощью Yoast SEO
Изменить модулем в All in One SEO
Правильная настройка для плагина WooCommerce
Итог

Для чего нужен robots.txt

Robots.txt создан для регулирования поведения поисковых роботов на сайтах, а именно куда им заходить можно и брать в поиск, а куда нельзя. Лет 10 назад сила данного файла была велика, по его правилам работали все поисковые системы, но сейчас он скорее как рекомендация, чем правило. Но пока не отменили, вебмастера должны делать его и настраивать правильно исходя из структуры и иерархии сайтов. Отдельная тема это WordPress, потому что CMS содержит множество элементов, которые не нужно сканировать и отдавать в индекс. Разберемся как правильно составить robots.txt

Где лежит файл robots в WordPress

На любом из ресурсов robots.txt должен лежать в корневой папке. В случае с вордпресс, там где находится папка wp-admin и ей подобные.

Где располагается robots txt — Расположение на сервере

Если не создавался и не загружался администратором сайта, то по умолчанию на сервере не найти. Стандартная сборка WordPress не предусматривает наличие такого объекта.

Как создать правильный robots txt

Создать правильный robots txt задача не трудная, сложнее прописать в нем правильные директивы. Сначала создадим документ, открываем программу блокнот и нажимаем сохранить как.

Блокнот — Сохраняем документ

В следующем окне задаем название robots, оставляем расширение txt, кодировку ANSI и нажимаем сохранить. Объект появится в папке куда произошло сохранение. Пока документ пустой и ничего не содержит в себе, давайте разберемся какие именно директивы он может поддерживать.

При желании можете сразу скачать его на сервер в корень через программу FileZilla.

Кодировка и сохранение — Сохранение роботса

Настройка команд

Выделю четыре основные команды:

User-agent: показывает правила для разных поисковых роботов, либо для всех, либо для отдельных
Disalow: запрещает доступ
Allow: разрешаем доступ
Sitemap: адрес до XML карты

Устаревшие и ненужные конфигурации:

Host: указывает главное зеркало, стало не нужным, потому что поиск сам определит правильный вариант
Crawl-delay: ограничивает время на пребывание робота на странице, сейчас сервера мощные и беспокоится о производительности не нужно
Clean-param: ограничивает загрузку дублирующегося контента, прописать можно, но толку не будет, поисковик проиндексирует все, что есть на сайте и возьмет по–максимому страниц

Рабочий пример инструкций для WordPress

Дело в том что поисковой робот не любит запрещающие директивы, и все равно возьмет в оборот, что ему нужно. Запрет на индексацию должен быть объектов, которые 100% не должны быть в поиске и в базе Яндекса и Гугла. Данный рабочий пример кода помещаем в robots txt.

User-agent: *
Disallow: /wp-
Disallow: /tag/
Disallow: */trackback
Disallow: */page
Disallow: /author/*
Disallow: /template.html
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: *.js
Allow: *.css
Allow: *.png
Allow: *.gif
Allow: *.jpg
Sitemap: https://ваш домен/sitemap.xml

Разберемся с текстом и посмотрим что именно мы разрешили, а что запретили:

User-agent, поставили знак *, тем самым сообщив что все поисковые машины должны подчиняться правилам
Блок с Disallow запрещает к индексу все технические страницы и дубли. обратите внимание что я заблокировал папки начинающиеся на wp-
Блок Allow разрешает сканировать скрипты, картинки и css файлы, это необходимо для правильного представления проекта в поиске иначе вы получите портянку без оформления
Sitemap: показывает путь до XML карты сайта, обязательно нужно ее сделать, а так же заменить надпись”ваш домен”

Остальные директивы рекомендую не вносить, после сохранения и внесения правок, загружаем стандартный robots txt в корень WordPress. Для проверки наличия открываем такой адрес https://your-domain/robots.txt, заменяем домен на свой, должно отобразится так.

url расположения — Адрес в строке запроса

Как проверить работу robots.txt

Стандартный способ проверить через сервис yandex webmaster. Для лучшего анализа нужно зарегистрировать и установить на сайт сервис. Вверху видим загрузившийся robots, нажимаем проверить.

Валидатор yandex — Проверка документа в Yandex

Ниже появится блок с ошибками, если их нет то переходим к следующему шагу, если неверно отображается команда, то исправляем и снова проверяем.

Ошибки всего файла robots — Отсутствие ошибок в валидаторе

Проверим правильно ли Яндекс обрабатывает команды, спускаемся чуть ниже, введем два запрещенных и разрешенных адреса, не забываем нажать проверить. На снимке видим что инструкция сработала, красным помечено что вход запрещен, а зеленой галочкой, что индексирование записей разрешена.

Проверка отдельный страниц — Проверка папок и страниц в Яндексе

Проверили, все срабатывает, перейдем к следующему способу это настройка robots с помощью плагинов. Если процесс не понятен, то смотрите наше видео.

YouTube

Плагин Clearfy Pro — самый простой способ создать идеальный robots.txt

Новичкам в сайтостроении разобраться во всех нюансах создания файла роботс будет сложно. Поэтому разработчики из WPShop добавили простую и понятную надстройку в свой топовый плагин Clearfy Pro для создания идеального виртуального robots.txt. Плюсы и особенности такого решения:

на сервере физического файла robots нет, он создается и обрабатывается “на лету”;
прекрасно виден в панелях Я.Вебмастер и Google Search Console;
содержит идеальный набор директив, необходимых для корректной индексации вашего сайта;
закрывает проблему с дублированием контента;
поддерживается в актуальном состоянии (при необходимости разработчики добавляют новые директивы на основе новых требований ПС);
доступен для редактирования и добавления собственных директив;
есть техподдержка, которая подскажет нетривиальное решение для специфических задач.

Для создания идеального файла robots.txt вам достаточно установить и активировать плагин, перейти в админке в меню настроек Clearfy Pro на вкладку “SEO”, включить опцию “Создать правильный robots.txt” (она относится к рекомендованным самими разработчиками). И сохранить изменения. Все!

Clearfy robots txt

Не забудьте отключить создание роботс в вашем SEO-плагине или деактивировать отдельный WordPress модуль, который был установлен ранее исключительно для генерации такого файла.

В Clearfy Pro “вшита” масса нужных опций, который избавят вас от необходимости искать под каждую задачу программиста и проводить техническую оптимизацию вручную. Если еще не пользуетесь, самое время начать, тем более, пока действует максимальная скидка:

Промокод на Clearfy Pro

Плагин не стоит на месте и постоянно развивается. И robots, включенный в него, тоже. Например, в последнем обновлении были добавлены новые правила Disallow: /?customize_changeset_uuid= и Clean-param для Яндекса. Это позволит запретить индексацию ссылок из кастомайзера WordPress.

Плагин–генератор Virtual Robots.txt

Если не хочется связываться с FTP подключением, то приходит на помощь один отличный WordPress плагин–генератор называется Virtual Robots.txt. Устанавливаем стандартно из админки вордпресс поиском или загрузкой архива, выглядит так.

Плагин Virtual Robots.txt — Как выглядит Virtual Robots.txt

Переходим в админку Настройки > Virtual Robots.txt, видим знакомую конфигурацию, но нам нужно ее заменить, на нашу из статьи. Копируем и вставляем, не забываем сохранять.

Загрузка данных в Virtual Robots.txt — Настройка Virtual Robots.txt

Роботс автоматически создастся и станет доступен по тому же адресу. При желании проверить есть он в файлах WordPress – ничего не увидим, потому что документ виртуальный и редактировать можно только из плагина, но Yandex и Google он будет виден.

Добавить с помощью Yoast SEO

Знаменитый плагин Yoast SEO предоставляет возможность добавить и изменить robots.txt из панели WordPress. Причем созданный файл появляется на сервере (а не виртуально) и находится в корне сайта, то есть после удаления или деактивации роботс остается. Переходим в “Инструменты” -> “Редактор файлов”.

редактор файлов Yoast SEO

Если robots есть, то отобразится на странице.

Если такого файла нет, есть кнопка “Создать”, нажимаем на нее.

Создание файла индексации — Кнопка создания robots

Выйдет текстовая область, записываем, имеющийся текст из универсальной конфигурации и сохраняем. Можно проверить по FTP соединению документ появится.

Если используете виртуальный robots от Clearfy Pro, не включайте эту опцию в Yoast SEO, чтобы не создавать конфликт.

Изменить модулем в All in One SEO

Старый плагин All in One SEO умеет изменять robots txt, чтобы активировать возможность переходим в раздел модули и находим одноименный пункт, нажимаем Activate.

Модуль AIOSP — Модули в All In one Seo

В меню All in One SEO появится новый раздел, заходим, видим функционал конструктора.

Добавление и удаление директив — Работа в модуле AIOS

Записываем имя агента, в нашем случае * или оставляем пустым
Разрешаем или запрещаем индексацию
Директория или страница куда не нужно идти
Результат

Модуль не удобный, создать по такому принципу валидный и корректный robots.txt трудно. Лучше используйте другие инструменты.

Правильная настройка для плагина WooCommerce

Чтобы сделать правильную настройку для плагина интернет магазина на WordPress WooCommerce, добавьте эти строки к остальным:

Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

Делаем аналогичные действия и загружаем на сервер через FTP или плагином.

Итог

Подведем итог что нужно сделать чтобы на сайте WordPress был корректный файл для поисковиков:

Создаем вручную или с помощью плагина файл.
Записываем в него инструкции из статьи.
Загружаем на сервер.
Проверяем в валидаторе Yandex.
Не пользуйтесь генераторами robots txt в интернете, пошевелите немного руками.

Совершенствуйте свои блоги на WordPress, продвигайтесь и правильно настраивайте все параметры, а мы в этом поможем, успехов!Пожалуйста, оцените материал:

Валентин

Давно занимаюсь и разрабатываю сайты на Wordpress. Считаю что лучшего решения для ведения бизнеса не найти, поэтому считаю долгом делиться информацией с остальными.

Комментарии:

Блог Александра Гаврина:

02.11.2019 в 19:37

Disallow: */page Я правильно понял, вы закрыли страницы блога от индексации, если так то зачем закрывать страницы???

Ответить
1. User:
  
  20.01.2020 в 17:23
  
  Надо закрыть страницы иначе вот такие page/33/ /page/37/ /page/35/ /page/50 страницы появляются в индексации
  
  Ответить
  1. Валентин Лифанов:
    
    21.01.2020 в 08:40
    
    А вот эта строчка разве не это означает? Disallow: */page
    
    Ответить
Блог Александра Гаврина:

02.11.2019 в 22:28

Благодарю за отличную статью и инструкции по robots txt для wordpress! По поводу ранее написанного комментария, я получил ответ под видео в ютуб, БлагоДарю!

Ответить
1. Валентин Лифанов:
  
  03.11.2019 в 11:00
  
  Да я видел, это я отвечал.
  
  Ответить
Инесса:

23.05.2020 в 12:25

Добрый день! Страницы будут индексироваться?

Ответить
1. Валентин Лифанов:
  
  25.05.2020 в 10:14
  
  Здравствуйте. Да конечно.
  
  Ответить
Сергей:

27.06.2020 в 18:36

Здравствуйте
Disallow: /tag/
Это я так понял теговые страницы от индексации закрывает?
В плагине Clearfy Pro такого нет) там вообще немного по другому

Ответить
1. Валентин Лифанов:
  
  29.06.2020 в 10:37
  
  Здравствуйте. Да немного по другому, но почти одинаковые. Про tag да правильно это страницы меток, просто 99% ими никто не продвигается на самом деле, но бывает случайно они появляются. Поэтому если вы пользуетесь метками при продвижении сайта, то эту строку убирайте.
  
  Ответить
Максим:

28.06.2020 в 14:04

Отличная статья!
Как вы думаете, вот тут c-wd.ru/tools/robots/ нормальный robots генерируется?
Или стоит самостоятельно его сделать?

Ответить
1. Валентин Лифанов:
  
  29.06.2020 в 10:30
  
  Спасибо. Вроде нормальный но короткий, не хватает некоторых команд.
  
  Ответить
Sam:

14.09.2020 в 12:41

Если нет папки cgi-bin, но есть папки blogs и tmp, нужно что то менять?

Ответить
Андрец:

13.10.2020 в 19:54

Здравствуйте, а на элементоре если сайт, что то нужно в роботс добавлять?
Ссылки такого плана при вашем роботе будут блочится: https://resurs-2012.ru/zakazat-dissertatsiyu?elementor-preview=235&ver=1602069225

Ответить
Светлана:

05.05.2021 в 10:37

А что значит User-agent? У Вас он только один и в виде звездочки, а в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress их куча и всяких разных

Ответить
1. Ольга:
  
  07.06.2022 в 11:30
  
  Светлана, в нашем примере один юзер-агент для всех поисковых роботов, которые могут забежать на сайт. Некоторые действительно прописывают в robots.txt разные условия индексации для разных поисковых систем, но мы считаем этот подход избыточным и даже вредным.
  
  Ответить
Максим:

24.01.2022 в 10:24

Здравствуйте!
1.Подскажите, зачем нужна * при создании директив. Приме у Вас указана директива в таком виде -Disallow: */page, у автора другого ресурса указано Disallow: /page/. Так же от чего тозакрыто /, у Вас он отсутствует.
2. Почему Вы не предлагаете закрывать /readme.html, yeb ещё некоторые файлы.
На эксперименты нет времени. Хочется сделать сразу правильно.
Спасибо.

Ответить
Андрей:

27.01.2022 в 16:54

Можно воспользоваться генератором robots.txt – https://capyba.ru/services/tools/robots/

Ответить

Добавить комментарий