Как настроить robots.txt
Если вы разрабатываете сайт, то, вероятно, хотите, чтобы его легко находили поисковики вроде Google и Яндекса. Одним из ключевых средств для этого служит документ robots.txt. Не бойтесь непривычного термина, мы разберем его по частям, чтобы даже новичок сумел в нем разобраться.
Что такое robots.txt
Robots.txt представляет собой обычный текстовый документ, размещаемый в корневой директории вашего ресурса (к примеру, вашресурс.ру/robots.txt). Его главная функция — предоставлять рекомендации поисковым краулерам (еще именуемым «пауками» или «ботами») относительно того, какие разделы или страницы вашего ресурса им дозволено сканировать (индексировать), а какие — нет.
Вообразите, что ваш ресурс — это просторный особняк, а поисковые краулеры — это курьеры. robots.txt — словно вывеска у входа, которая сообщает курьерам: «Здесь вход открыт, а в эту зону — запрещен». Важно осознавать, что robots.txt — это больше совет, нежели жесткое табу.

Для чего нужен robots.txt
Документ robots.txt придуман для нескольких значимых задач:
- Регулирование сканирования: дает возможность запретить поисковым машинам индексировать конкретные страницы либо зоны ресурса.
- Снижение нагрузки на сервер: блокируя сканирование бесполезных страниц, вы уменьшаете объем запросов от поисковых краулеров к вашему ресурсу. Это особенно важно для обширных ресурсов с динамически создаваемым содержимым.
- Контроль бюджета сканирования: каждая поисковая машина располагает «бюджетом» на просмотр вашего ресурса. Если краулер расходует время на ненужные страницы, он рискует не успеть индексировать по-настоящему ценный материал. robots.txt помогает направлять краулера в требуемые места.

Основные директивы и синтаксис
Robots.txt для ресурса складывается из несложных норм, каждая из которых начинается с определенной команды.
Команды:
- User-agent: (Агент пользователя) ― эта команда определяет, для какого поискового краулера предназначены последующие нормы.
- Disallow: (Блокировать) ― обозначает маршрут к файлу либо директории, которые запрещено сканировать.
- Allow: (Допустить) ― применяется для исключений из блокировки. К примеру, вы заблокировали целую директорию, но желаете разрешить сканирование одного элемента внутри нее.
- Sitemap: (Карта ресурса) ― обозначает маршрут к XML-карте вашего ресурса. Она помогает поисковым машинам оперативнее обнаруживать все ключевые страницы.
Символы подстановки:
- *(звездочка): Символизирует произвольную цепочку символов.
- Disallow: /.pdf — Блокирует сканирование всех PDF-документов на ресурсе.
- Disallow: /catalog/? — Блокирует сканирование страниц в директории /catalog/ с какими угодно параметрами (к примеру, /catalog/page1?sort=price).
- $ (символ доллара): Обозначает завершение строки.
- Disallow: /tmp/$ — Блокирует сканирование именно директории /tmp/, но не элементов внутри нее (к примеру, /tmp/image.jpg). Если бы мы указали Disallow: /tmp/, то заблокировали бы и директорию, и все ее содержимое.
Как сконфигурировать документ robots.txt
- Сформируйте пустой текстовый документ: запустите любой редактор текста (Блокнот, Sublime Text, Notepad++ и подобные) и создайте свежий документ. Убедитесь, что он сохранен без форматирования (как простой текст).
- Назовите документ robots.txt: это критично! Название обязано быть в нижнем регистре и именно таким.
- Внесите команды: запишите необходимые команды для роботов.
- Начните с User-agent: укажите, для кого эти нормы.
- Добавьте Disallow/Allow: обозначьте, что следует блокировать или допускать.
- Укажите Sitemap: не пропустите карту ресурса.
- Сохраните и разместите на сервере: сохраните документ robots.txt и разместите его в корневой директории вашего ресурса (туда же, где находится или index.php).
- Проверьте доступность: удостоверьтесь, что документ доступен по адресу вашресурс.ру/robots.txt.
Пример базового robots.txt:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: https://вашресурс.ру/sitemap.xml
Здесь мы блокируем всем краулерам сканирование директорий админ-панели WordPress и служебных элементов, а также обозначаем маршрут к карте ресурса.
Процедура формирования и размещения документа robots.txt на сервере может выглядеть запутанной, особенно если вы не владеете навыками работы с FTP-клиентами или организацией директорий на хостинге. К счастью, имеются более простые варианты.
Например, современные конструкторы сайтов, такие как конструктор от Рег.ру, берут на себя большую часть технической рутины. В нем есть специальное поле в настройках SEO, куда вы просто вставляете нужные директивы. Вам не нужно искать корневую папку или разбираться с загрузкой файлов — конструктор все сделает за вас. Это позволяет сосредоточиться на содержании правил, а не на технических сложностях, что идеально подходит для тех, кто хочет создать сайт без навыков программирования.
Типичные ошибки и их решение
- Полная блокировка всего ресурса (Disallow: /): Порой это происходит по недоразумению, и ресурс полностью пропадает из поиска. Исправление: удалите или закомментируйте эту строку.
- Блокировка CSS и JS элементов: Многие ресурсы блокируют сканирование директорий css/ или js/. Однако поисковикам необходимо видеть, как отображается ваш ресурс, чтобы верно его ранжировать. Исправление: разрешите сканирование этих директорий, если они включают стили и скрипты, влияющие на визуализацию ресурса.
- Орфографические ошибки в названиях команд или маршрутах: Даже мелкая оплошность может привести к тому, что нормы не сработают. Исправление: тщательно проверяйте орфографию. Применяйте инструменты для верификации (robots.txt Tester в Google Search Console).
- Размещение robots.txt не в корне: Документ обязан быть доступен по адресу /robots.txt. Исправление: переместите документ в корень ресурса.
- Применение Disallow для страниц, которые вы желаете убрать из поиска: robots.txt не стирает страницы из индекса, а только блокирует их дальнейшее сканирование. Для стирания из индекса используйте мета-тег noindex или удалите страницу и настройте ошибку 404.

Примеры robots.txt
1. Для обычного блога на WordPress:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/*/functions.php
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /tag/
Disallow: /*?replytocom
Disallow: /*?s=
Disallow: /*wp-json/
Sitemap: https://вашресурс.ру/sitemap.xml
Здесь мы блокируем сканирование служебных директорий, разнообразных RSS-лент, страниц тегов, результатов поиска и иных вспомогательных страниц.
2. Для онлайн-магазина (фрагмент):
User-agent: *
Disallow: /admin/
Disallow: /account/
Disallow: /cart/
Disallow: /checkout/
Disallow: /compare/
Disallow: /search/
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?page=
Allow: /*?page=$
Sitemap: https://вашресурс.ру/sitemap.xml
Здесь заблокированы служебные страницы (админка, аккаунт, корзина, оформление заказа), результаты поиска, а также страницы с параметрами фильтрации и сортировки (чтобы избежать дубликатов).
Как проверить файл robots.txt
Верификация документа robots.txt — необходимый шаг после его формирования или корректировки.
В Google Search Console (GSC):
- Зайдите в свой аккаунт GSC.
- Выберите свой ресурс.
- В меню слева отыщите раздел «Сканирование» (или «Индексирование» в обновленной версии) -> «Инструмент проверки файла robots.txt» (или «Robots.txt Tester»).
- Там вы обнаружите ваш актуальный robots.txt и сможете верифицировать отдельные URL на предмет разрешения к сканированию или запрета.
В Яндекс.Вебмастер:
- Зайдите в Яндекс.Вебмастер.
- Выберите свой ресурс.
- В меню слева перейдите в «Инструменты» -> «Анализ robots.txt».
- Этот инструмент также отобразит вам актуальный документ, предупредит о неисправностях и позволит верифицировать URL.
- Верификация доступности в браузере:
- Просто наберите в адресной строке вашресурс.ру/robots.txt. Вы должны увидеть содержимое вашего документа.

Рекомендации по созданию и настройке robots.txt
- Размещайте документ исключительно в корне ресурса: это единственная зона, где поисковые краулеры станут его разыскивать.
- Применяйте один User-agent: *: для большинства ресурсов хватает единого блока норм для всех краулеров. Избегайте формирования отдельных блоков для каждого краулера, если в этом нет крайней нужды, чтобы не запутывать документ.
- Будьте точны: чем конкретнее ваши правила Disallow и Allow, тем меньше вероятность промахов.
- Не применяйте Disallow для стирания страниц из поиска: для этого существуют мета-тег noindex или стирание страницы с ответом сервера 404. robots.txt лишь блокирует сканирование, но не обеспечивает стирание из индекса, особенно если на страницу ведут внешние ссылки.
- Осторожно с Allow: используйте его для «пробелов» в обширных заблокированных блоках.
- Обозначайте Sitemap: всегда добавляйте ссылку на вашу XML-карту ресурса. Это помогает поисковым машинам лучше постигать структуру вашего ресурса.
Грамотно сконфигурированный robots.txt — это важный компонент технического SEO, который помогает поисковым машинам эффективнее сканировать ваш ресурс, акцентируясь на наиболее ценном содержимом. Не игнорируйте его, и ваш ресурс окажется лучше представленным в поиске.
Андрей Лебедев