Файл robots txt для wordpress правильный и рабочий вариант для всех сайтов
- Для чего нужен robots.txt
- Где лежит файл robots в WordPress
- Как создать правильный robots txt
- Настройка команд
- Рабочий пример инструкций для WordPress
- Как проверить работу robots.txt
- Плагин Clearfy Pro — самый простой способ создать идеальный robots.txt
- Плагин–генератор Virtual Robots.txt
- Добавить с помощью Yoast SEO
- Изменить модулем в All in One SEO
- Правильная настройка для плагина WooCommerce
- Итог
Для чего нужен robots.txt
Robots.txt создан для регулирования поведения поисковых роботов на сайтах, а именно куда им заходить можно и брать в поиск, а куда нельзя. Лет 10 назад сила данного файла была велика, по его правилам работали все поисковые системы, но сейчас он скорее как рекомендация, чем правило.
Но пока не отменили, вебмастера должны делать его и настраивать правильно исходя из структуры и иерархии сайтов. Отдельная тема это WordPress, потому что CMS содержит множество элементов, которые не нужно сканировать и отдавать в индекс. Разберемся как правильно составить robots.txt
Где лежит файл robots в WordPress
На любом из ресурсов robots.txt должен лежать в корневой папке. В случае с вордпресс, там где находится папка wp-admin и ей подобные.
Если не создавался и не загружался администратором сайта, то по умолчанию на сервере не найти. Стандартная сборка WordPress не предусматривает наличие такого объекта.
Как создать правильный robots txt
Создать правильный robots txt задача не трудная, сложнее прописать в нем правильные директивы. Сначала создадим документ, открываем программу блокнот и нажимаем сохранить как.
В следующем окне задаем название robots, оставляем расширение txt, кодировку ANSI и нажимаем сохранить. Объект появится в папке куда произошло сохранение. Пока документ пустой и ничего не содержит в себе, давайте разберемся какие именно директивы он может поддерживать.
При желании можете сразу скачать его на сервер в корень через программу FileZilla.
Настройка команд
Выделю четыре основные команды:
- User-agent: показывает правила для разных поисковых роботов, либо для всех, либо для отдельных
- Disalow: запрещает доступ
- Allow: разрешаем доступ
- Sitemap: адрес до XML карты
Устаревшие и ненужные конфигурации:
- Host: указывает главное зеркало, стало не нужным, потому что поиск сам определит правильный вариант
- Crawl-delay: ограничивает время на пребывание робота на странице, сейчас сервера мощные и беспокоится о производительности не нужно
- Clean-param: ограничивает загрузку дублирующегося контента, прописать можно, но толку не будет, поисковик проиндексирует все, что есть на сайте и возьмет по–максимому страниц
Рабочий пример инструкций для WordPress
Дело в том что поисковой робот не любит запрещающие директивы, и все равно возьмет в оборот, что ему нужно. Запрет на индексацию должен быть объектов, которые 100% не должны быть в поиске и в базе Яндекса и Гугла. Данный рабочий пример кода помещаем в robots txt.
User-agent: *
Disallow: /wp-
Disallow: /tag/
Disallow: */trackback
Disallow: */page
Disallow: /author/*
Disallow: /template.html
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: *.js
Allow: *.css
Allow: *.png
Allow: *.gif
Allow: *.jpg
Sitemap: https://ваш домен/sitemap.xml
Разберемся с текстом и посмотрим что именно мы разрешили, а что запретили:
- User-agent, поставили знак *, тем самым сообщив что все поисковые машины должны подчиняться правилам
- Блок с Disallow запрещает к индексу все технические страницы и дубли. обратите внимание что я заблокировал папки начинающиеся на wp-
- Блок Allow разрешает сканировать скрипты, картинки и css файлы, это необходимо для правильного представления проекта в поиске иначе вы получите портянку без оформления
- Sitemap: показывает путь до XML карты сайта, обязательно нужно ее сделать, а так же заменить надпись”ваш домен”
Остальные директивы рекомендую не вносить, после сохранения и внесения правок, загружаем стандартный robots txt в корень WordPress. Для проверки наличия открываем такой адрес https://your-domain/robots.txt, заменяем домен на свой, должно отобразится так.
Как проверить работу robots.txt
Стандартный способ проверить через сервис yandex webmaster. Для лучшего анализа нужно зарегистрировать и установить на сайт сервис. Вверху видим загрузившийся robots, нажимаем проверить.
Ниже появится блок с ошибками, если их нет то переходим к следующему шагу, если неверно отображается команда, то исправляем и снова проверяем.
Проверим правильно ли Яндекс обрабатывает команды, спускаемся чуть ниже, введем два запрещенных и разрешенных адреса, не забываем нажать проверить. На снимке видим что инструкция сработала, красным помечено что вход запрещен, а зеленой галочкой, что индексирование записей разрешена.
Проверили, все срабатывает, перейдем к следующему способу это настройка robots с помощью плагинов. Если процесс не понятен, то смотрите наше видео.
Плагин Clearfy Pro — самый простой способ создать идеальный robots.txt
Новичкам в сайтостроении разобраться во всех нюансах создания файла роботс будет сложно. Поэтому разработчики из WPShop добавили простую и понятную надстройку в свой топовый плагин Clearfy Pro для создания идеального виртуального robots.txt.
Плюсы и особенности такого решения:
- на сервере физического файла robots нет, он создается и обрабатывается “на лету”;
- прекрасно виден в панелях Я.Вебмастер и Google Search Console;
- содержит идеальный набор директив, необходимых для корректной индексации вашего сайта;
- закрывает проблему с дублированием контента;
- поддерживается в актуальном состоянии (при необходимости разработчики добавляют новые директивы на основе новых требований ПС);
- доступен для редактирования и добавления собственных директив;
- есть техподдержка, которая подскажет нетривиальное решение для специфических задач.
Для создания идеального файла robots.txt вам достаточно установить и активировать плагин, перейти в админке в меню настроек Clearfy Pro на вкладку “SEO”, включить опцию “Создать правильный robots.txt” (она относится к рекомендованным самими разработчиками). И сохранить изменения. Все!
Не забудьте отключить создание роботс в вашем SEO-плагине или деактивировать отдельный WordPress модуль, который был установлен ранее исключительно для генерации такого файла.
В Clearfy Pro “вшита” масса нужных опций, который избавят вас от необходимости искать под каждую задачу программиста и проводить техническую оптимизацию вручную.
Если еще не пользуетесь, самое время начать, тем более, пока действует максимальная скидка:
Промокод на Clearfy Pro
Плагин–генератор Virtual Robots.txt
Если не хочется связываться с FTP подключением, то приходит на помощь один отличный WordPress плагин–генератор называется Virtual Robots.txt. Устанавливаем стандартно из админки вордпресс поиском или загрузкой архива, выглядит так.
Переходим в админку Настройки > Virtual Robots.txt, видим знакомую конфигурацию, но нам нужно ее заменить, на нашу из статьи. Копируем и вставляем, не забываем сохранять.
Роботс автоматически создастся и станет доступен по тому же адресу. При желании проверить есть он в файлах WordPress – ничего не увидим, потому что документ виртуальный и редактировать можно только из плагина, но Yandex и Google он будет виден.
Добавить с помощью Yoast SEO
Знаменитый плагин Yoast SEO предоставляет возможность добавить и изменить robots.txt из панели WordPress. Причем созданный файл появляется на сервере (а не виртуально) и находится в корне сайта, то есть после удаления или деактивации роботс остается. Переходим в Инструменты > Редактор.
Если robots есть, то отобразится на странице, если нет есть кнопка “создать”, нажимаем на нее.
Выйдет текстовая область, записываем, имеющийся текст из универсальной конфигурации и сохраняем. Можно проверить по FTP соединению документ появится.
Изменить модулем в All in One SEO
Старый плагин All in One SEO умеет изменять robots txt, чтобы активировать возможность переходим в раздел модули и находим одноименный пункт, нажимаем Activate.
В меню All in One SEO появится новый раздел, заходим, видим функционал конструктора.
- Записываем имя агента, в нашем случае * или оставляем пустым
- Разрешаем или запрещаем индексацию
- Директория или страница куда не нужно идти
- Результат
Модуль не удобный, создать по такому принципу валидный и корректный robots.txt трудно. Лучше используйте другие инструменты.
Правильная настройка для плагина WooCommerce
Чтобы сделать правильную настройку для плагина интернет магазина на WordPress WooCommerce, добавьте эти строки к остальным:
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/
Делаем аналогичные действия и загружаем на сервер через FTP или плагином.
Итог
Подведем итог что нужно сделать чтобы на сайте WordPress был корректный файл для поисковиков:
- Создаем вручную или с помощью плагина файл
- Записываем в него инструкции из статьи
- Загружаем на сервер
- Проверяем в валидаторе Yandex
- Не пользуйтесь генераторами robots txt в интернете, пошевелите немного руками
Совершенствуйте свои блоги на WordPress, продвигайтесь и правильно настраивайте все параметры, а мы в этом поможем, успехов!
Пожалуйста, оцените материал:
Disallow: */page Я правильно понял, вы закрыли страницы блога от индексации, если так то зачем закрывать страницы???
Надо закрыть страницы иначе вот такие page/33/ /page/37/ /page/35/ /page/50 страницы появляются в индексации
А вот эта строчка разве не это означает? Disallow: */page
Благодарю за отличную статью и инструкции по robots txt для wordpress! По поводу ранее написанного комментария, я получил ответ под видео в ютуб, БлагоДарю!
Да я видел, это я отвечал.
Добрый день! Страницы будут индексироваться?
Здравствуйте. Да конечно.
Здравствуйте
Disallow: /tag/
Это я так понял теговые страницы от индексации закрывает?
В плагине Clearfy Pro такого нет) там вообще немного по другому
Здравствуйте. Да немного по другому, но почти одинаковые. Про tag да правильно это страницы меток, просто 99% ими никто не продвигается на самом деле, но бывает случайно они появляются. Поэтому если вы пользуетесь метками при продвижении сайта, то эту строку убирайте.
Отличная статья!
Как вы думаете, вот тут c-wd.ru/tools/robots/ нормальный robots генерируется?
Или стоит самостоятельно его сделать?
Спасибо. Вроде нормальный но короткий, не хватает некоторых команд.
Если нет папки cgi-bin, но есть папки blogs и tmp, нужно что то менять?
Здравствуйте, а на элементоре если сайт, что то нужно в роботс добавлять?
Ссылки такого плана при вашем роботе будут блочится: https://resurs-2012.ru/zakazat-dissertatsiyu?elementor-preview=235&ver=1602069225
А что значит User-agent? У Вас он только один и в виде звездочки, а в этой статье https://dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress их куча и всяких разных
Светлана, в нашем примере один юзер-агент для всех поисковых роботов, которые могут забежать на сайт. Некоторые действительно прописывают в robots.txt разные условия индексации для разных поисковых систем, но мы считаем этот подход избыточным и даже вредным.
Здравствуйте!
1.Подскажите, зачем нужна * при создании директив. Приме у Вас указана директива в таком виде -Disallow: */page, у автора другого ресурса указано Disallow: /page/. Так же от чего тозакрыто /, у Вас он отсутствует.
2. Почему Вы не предлагаете закрывать /readme.html, yeb ещё некоторые файлы.
На эксперименты нет времени. Хочется сделать сразу правильно.
Спасибо.
Можно воспользоваться генератором robots.txt – https://capyba.ru/services/tools/robots/