Поиск по сайту Поиск

Как настроить robots.txt

Если вы разрабатываете сайт, то, вероятно, хотите, чтобы его легко находили  поисковики вроде Google и Яндекса. Одним из ключевых средств для этого служит документ robots.txt. Не бойтесь непривычного термина, мы разберем его по частям, чтобы даже новичок сумел в нем разобраться.

Что такое robots.txt

Robots.txt представляет собой обычный текстовый документ, размещаемый в корневой директории вашего ресурса (к примеру, вашресурс.ру/robots.txt). Его главная функция — предоставлять рекомендации поисковым краулерам (еще именуемым «пауками» или «ботами») относительно того, какие разделы или страницы вашего ресурса им дозволено сканировать (индексировать), а какие — нет.

Вообразите, что ваш ресурс — это просторный особняк, а поисковые краулеры — это курьеры. robots.txt — словно вывеска у входа, которая сообщает курьерам: «Здесь вход открыт, а в эту зону — запрещен». Важно осознавать, что robots.txt — это больше совет, нежели жесткое табу.

Источник: Freepik. Хорошие, добросовестные роботы (например, Googlebot) следуют этим инструкциям, но злонамеренные программы могут их игнорировать

Для чего нужен robots.txt

Документ robots.txt придуман для нескольких значимых задач:

  • Регулирование сканирования: дает возможность запретить поисковым машинам индексировать конкретные страницы либо зоны ресурса.
  • Снижение нагрузки на сервер: блокируя сканирование бесполезных страниц, вы уменьшаете объем запросов от поисковых краулеров к вашему ресурсу. Это особенно важно для обширных ресурсов с динамически создаваемым содержимым.
  • Контроль бюджета сканирования: каждая поисковая машина располагает «бюджетом» на просмотр вашего ресурса. Если краулер расходует время на ненужные страницы, он рискует не успеть индексировать по-настоящему ценный материал. robots.txt помогает направлять краулера в требуемые места.
Источник: Freepik. Хотя это не основной способ защиты, robots.txt может помочь скрыть от публичной индексации директории с конфиденциальными данными

Основные директивы и синтаксис

Robots.txt для ресурса складывается из несложных норм, каждая из которых начинается с определенной команды.

Команды:

  • User-agent: (Агент пользователя) ― эта команда определяет, для какого поискового краулера предназначены последующие нормы.
  • Disallow: (Блокировать) ― обозначает маршрут к файлу либо директории, которые запрещено сканировать.
  • Allow: (Допустить) ― применяется для исключений из блокировки. К примеру, вы заблокировали целую директорию, но желаете разрешить сканирование одного элемента внутри нее.
  • Sitemap: (Карта ресурса) ― обозначает маршрут к XML-карте вашего ресурса. Она помогает поисковым машинам оперативнее обнаруживать все ключевые страницы.

Символы подстановки:

  • *(звездочка): Символизирует произвольную цепочку символов.
  • Disallow: /.pdf — Блокирует сканирование всех PDF-документов на ресурсе.
  • Disallow: /catalog/? — Блокирует сканирование страниц в директории /catalog/ с какими угодно параметрами (к примеру, /catalog/page1?sort=price).
  • $ (символ доллара): Обозначает завершение строки.
  • Disallow: /tmp/$ — Блокирует сканирование именно директории /tmp/, но не элементов внутри нее (к примеру, /tmp/image.jpg). Если бы мы указали Disallow: /tmp/, то заблокировали бы и директорию, и все ее содержимое.

Как сконфигурировать документ robots.txt

  • Сформируйте пустой текстовый документ: запустите любой редактор текста (Блокнот, Sublime Text, Notepad++ и подобные) и создайте свежий документ. Убедитесь, что он сохранен без форматирования (как простой текст).
  • Назовите документ robots.txt: это критично! Название обязано быть в нижнем регистре и именно таким.
  • Внесите команды: запишите необходимые команды для роботов.
  • Начните с User-agent: укажите, для кого эти нормы.
  • Добавьте Disallow/Allow: обозначьте, что следует блокировать или допускать.
  • Укажите Sitemap: не пропустите карту ресурса.
  • Сохраните и разместите на сервере: сохраните документ robots.txt и разместите его в корневой директории вашего ресурса (туда же, где находится или index.php).
  • Проверьте доступность: удостоверьтесь, что документ доступен по адресу вашресурс.ру/robots.txt.

Пример базового robots.txt:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Sitemap: https://вашресурс.ру/sitemap.xml

Здесь мы блокируем всем краулерам сканирование директорий админ-панели WordPress и служебных элементов, а также обозначаем маршрут к карте ресурса.

Процедура формирования и размещения документа robots.txt на сервере может выглядеть запутанной, особенно если вы не владеете навыками работы с FTP-клиентами или организацией директорий на хостинге. К счастью, имеются более простые варианты.

Например, современные конструкторы сайтов, такие как конструктор от Рег.ру, берут на себя большую часть технической рутины. В нем есть специальное поле в настройках SEO, куда вы просто вставляете нужные директивы. Вам не нужно искать корневую папку или разбираться с загрузкой файлов — конструктор все сделает за вас. Это позволяет сосредоточиться на содержании правил, а не на технических сложностях, что идеально подходит для тех, кто хочет создать сайт без навыков программирования.

Типичные ошибки и их решение

  • Полная блокировка всего ресурса (Disallow: /): Порой это происходит по недоразумению, и ресурс полностью пропадает из поиска. Исправление: удалите или закомментируйте эту строку.
  • Блокировка CSS и JS элементов: Многие ресурсы блокируют сканирование директорий css/ или js/. Однако поисковикам необходимо видеть, как отображается ваш ресурс, чтобы верно его ранжировать. Исправление: разрешите сканирование этих директорий, если они включают стили и скрипты, влияющие на визуализацию ресурса.
  • Орфографические ошибки в названиях команд или маршрутах: Даже мелкая оплошность может привести к тому, что нормы не сработают. Исправление: тщательно проверяйте орфографию. Применяйте инструменты для верификации (robots.txt Tester в Google Search Console).
  • Размещение robots.txt не в корне: Документ обязан быть доступен по адресу /robots.txt. Исправление: переместите документ в корень ресурса.
  • Применение Disallow для страниц, которые вы желаете убрать из поиска: robots.txt не стирает страницы из индекса, а только блокирует их дальнейшее сканирование. Для стирания из индекса используйте мета-тег noindex или удалите страницу и настройте ошибку 404.
Источник: Freepik. Если ваша цель удалить страницу из индекса, используйте другие методы

Примеры robots.txt

1. Для обычного блога на WordPress:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/*/functions.php

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/feed/

Disallow: /tag/

Disallow: /*?replytocom

Disallow: /*?s=

Disallow: /*wp-json/

Sitemap: https://вашресурс.ру/sitemap.xml

Здесь мы блокируем сканирование служебных директорий, разнообразных RSS-лент, страниц тегов, результатов поиска и иных вспомогательных страниц.

2. Для онлайн-магазина (фрагмент):

User-agent: *

Disallow: /admin/

Disallow: /account/

Disallow: /cart/

Disallow: /checkout/

Disallow: /compare/

Disallow: /search/

Disallow: /*?filter=

Disallow: /*?sort=

Disallow: /*?page=

Allow: /*?page=$

Sitemap: https://вашресурс.ру/sitemap.xml

Здесь заблокированы служебные страницы (админка, аккаунт, корзина, оформление заказа), результаты поиска, а также страницы с параметрами фильтрации и сортировки (чтобы избежать дубликатов).

Как проверить файл robots.txt

Верификация документа robots.txt — необходимый шаг после его формирования или корректировки.

В Google Search Console (GSC):

  • Зайдите в свой аккаунт GSC.
  • Выберите свой ресурс.
  • В меню слева отыщите раздел «Сканирование» (или «Индексирование» в обновленной версии) -> «Инструмент проверки файла robots.txt» (или «Robots.txt Tester»).
  • Там вы обнаружите ваш актуальный robots.txt и сможете верифицировать отдельные URL на предмет разрешения к сканированию или запрета.

В Яндекс.Вебмастер:

  • Зайдите в Яндекс.Вебмастер.
  • Выберите свой ресурс.
  • В меню слева перейдите в «Инструменты» -> «Анализ robots.txt».
  • Этот инструмент также отобразит вам актуальный документ, предупредит о неисправностях и позволит верифицировать URL.
  • Верификация доступности в браузере:
  • Просто наберите в адресной строке вашресурс.ру/robots.txt. Вы должны увидеть содержимое вашего документа.
Источник: Freepik. Если вы видите ошибку 404, значит, файл либо не существует, либо находится не в корневой директории

Рекомендации по созданию и настройке robots.txt

  • Размещайте документ исключительно в корне ресурса: это единственная зона, где поисковые краулеры станут его разыскивать.
  • Применяйте один User-agent: *: для большинства ресурсов хватает единого блока норм для всех краулеров. Избегайте формирования отдельных блоков для каждого краулера, если в этом нет крайней нужды, чтобы не запутывать документ.
  • Будьте точны: чем конкретнее ваши правила Disallow и Allow, тем меньше вероятность промахов.
  • Не применяйте Disallow для стирания страниц из поиска: для этого существуют мета-тег noindex или стирание страницы с ответом сервера 404. robots.txt лишь блокирует сканирование, но не обеспечивает стирание из индекса, особенно если на страницу ведут внешние ссылки.
  • Осторожно с Allow: используйте его для «пробелов» в обширных заблокированных блоках.
  • Обозначайте Sitemap: всегда добавляйте ссылку на вашу XML-карту ресурса. Это помогает поисковым машинам лучше постигать структуру вашего ресурса.

Грамотно сконфигурированный robots.txt — это важный компонент технического SEO, который помогает поисковым машинам эффективнее сканировать ваш ресурс, акцентируясь на наиболее ценном содержимом. Не игнорируйте его, и ваш ресурс окажется лучше представленным в поиске.

Андрей Лебедев

Как использовать матрицу Эйзенхауэра для управления задачами
В мире, где ежедневные задачи сыплются как из рога изобилия, а список дел растет быстрее, чем мы успеваем его прочитать,...
Read More
Секреты продвижения: зачем бизнесу нужен сайт
Эффективный инструмент или дань моде? Рассказываем, зачем малому и среднему бизнесу свой сайт и как его оптимизировать.
Read More
Рег.решение развернуло карьеру на 180°
Рег.решение для профессионалов «Развитие личного бренда» — это готовая система, которая за 3 недели создаст надежный фундамент для вашего профессионального...
Read More
Анализ рынка: этапы и бизнес-инструменты
Анализ рынка — это как разведка перед боем: прежде чем вложить деньги, запускать продукт или строить стратегию, бизнесу нужно понять,...
Read More
Что такое когортный анализ и зачем он нужен бизнесу
Когда бизнес растет, поток данных о клиентах превращается в лавину. Рекламные кампании, подписки, заказы, возвраты — цифры множатся, но не...
Read More
Чек-лист онбординга сотрудников — что включить для эффективного адаптационного процесса
Представьте: вы приходите в новую компанию. Все новое — люди, процессы, правила, даже корпоративные чаты. Если вас просто посадят за...
Read More
Финансовая стратегия роста для компании: этапы и особенности
Финансовая стратегия роста определяет, как компания будет привлекать, распределять и использовать капитал, чтобы поддерживать развитие, инвестировать в новые направления, повышать...
Read More
Обратная связь от клиентов — зачем нужна и как правильно собирать
Слушать и слышать друг друга — секрет успешных отношений, причем не только романтических, но и коммерческих, между бизнесом и его...
Read More
Хостинг для сайта-визитки: руководство по выбору
Сайт-визитка — это цифровое лицо специалиста или компании. В отличие от крупных интернет-магазинов или новостных порталов, такой ресурс содержит всего...
Read More
Хостинг для бизнеса: руководство по выбору
В современном мире сайт компании — это не просто визитка, а полноценный инструмент продаж, коммуникации и маркетинга. Если сервер падает,...
Read More