Как настроить robots.txt

Если вы разрабатываете сайт, то, вероятно, хотите, чтобы его легко находили поисковики вроде Google и Яндекса. Одним из ключевых средств для этого служит документ robots.txt. Не бойтесь непривычного термина, мы разберем его по частям, чтобы даже новичок сумел в нем разобраться.

Что такое robots.txt

Robots.txt представляет собой обычный текстовый документ, размещаемый в корневой директории вашего ресурса (к примеру, вашресурс.ру/robots.txt). Его главная функция — предоставлять рекомендации поисковым краулерам (еще именуемым «пауками» или «ботами») относительно того, какие разделы или страницы вашего ресурса им дозволено сканировать (индексировать), а какие — нет.

Вообразите, что ваш ресурс — это просторный особняк, а поисковые краулеры — это курьеры. robots.txt — словно вывеска у входа, которая сообщает курьерам: «Здесь вход открыт, а в эту зону — запрещен». Важно осознавать, что robots.txt — это больше совет, нежели жесткое табу.

Источник: Freepik. Хорошие, добросовестные роботы (например, Googlebot) следуют этим инструкциям, но злонамеренные программы могут их игнорировать

Для чего нужен robots.txt

Документ robots.txt придуман для нескольких значимых задач:

Регулирование сканирования: дает возможность запретить поисковым машинам индексировать конкретные страницы либо зоны ресурса.
Снижение нагрузки на сервер: блокируя сканирование бесполезных страниц, вы уменьшаете объем запросов от поисковых краулеров к вашему ресурсу. Это особенно важно для обширных ресурсов с динамически создаваемым содержимым.
Контроль бюджета сканирования: каждая поисковая машина располагает «бюджетом» на просмотр вашего ресурса. Если краулер расходует время на ненужные страницы, он рискует не успеть индексировать по-настоящему ценный материал. robots.txt помогает направлять краулера в требуемые места.

Источник: Freepik. Хотя это не основной способ защиты, robots.txt может помочь скрыть от публичной индексации директории с конфиденциальными данными

Основные директивы и синтаксис

Robots.txt для ресурса складывается из несложных норм, каждая из которых начинается с определенной команды.

Команды:

User-agent: (Агент пользователя) ― эта команда определяет, для какого поискового краулера предназначены последующие нормы.
Disallow: (Блокировать) ― обозначает маршрут к файлу либо директории, которые запрещено сканировать.
Allow: (Допустить) ― применяется для исключений из блокировки. К примеру, вы заблокировали целую директорию, но желаете разрешить сканирование одного элемента внутри нее.
Sitemap: (Карта ресурса) ― обозначает маршрут к XML-карте вашего ресурса. Она помогает поисковым машинам оперативнее обнаруживать все ключевые страницы.

Символы подстановки:

*(звездочка): Символизирует произвольную цепочку символов.
Disallow: /.pdf — Блокирует сканирование всех PDF-документов на ресурсе.
Disallow: /catalog/? — Блокирует сканирование страниц в директории /catalog/ с какими угодно параметрами (к примеру, /catalog/page1?sort=price).
$ (символ доллара): Обозначает завершение строки.
Disallow: /tmp/$ — Блокирует сканирование именно директории /tmp/, но не элементов внутри нее (к примеру, /tmp/image.jpg). Если бы мы указали Disallow: /tmp/, то заблокировали бы и директорию, и все ее содержимое.

Как сконфигурировать документ robots.txt

Сформируйте пустой текстовый документ: запустите любой редактор текста (Блокнот, Sublime Text, Notepad++ и подобные) и создайте свежий документ. Убедитесь, что он сохранен без форматирования (как простой текст).
Назовите документ robots.txt: это критично! Название обязано быть в нижнем регистре и именно таким.
Внесите команды: запишите необходимые команды для роботов.
Начните с User-agent: укажите, для кого эти нормы.
Добавьте Disallow/Allow: обозначьте, что следует блокировать или допускать.
Укажите Sitemap: не пропустите карту ресурса.
Сохраните и разместите на сервере: сохраните документ robots.txt и разместите его в корневой директории вашего ресурса (туда же, где находится или index.php).
Проверьте доступность: удостоверьтесь, что документ доступен по адресу вашресурс.ру/robots.txt.

Пример базового robots.txt:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Sitemap: https://вашресурс.ру/sitemap.xml

Здесь мы блокируем всем краулерам сканирование директорий админ-панели WordPress и служебных элементов, а также обозначаем маршрут к карте ресурса.

Процедура формирования и размещения документа robots.txt на сервере может выглядеть запутанной, особенно если вы не владеете навыками работы с FTP-клиентами или организацией директорий на хостинге. К счастью, имеются более простые варианты.

Например, современные конструкторы сайтов, такие как конструктор от Рег.ру, берут на себя большую часть технической рутины. В нем есть специальное поле в настройках SEO, куда вы просто вставляете нужные директивы. Вам не нужно искать корневую папку или разбираться с загрузкой файлов — конструктор все сделает за вас. Это позволяет сосредоточиться на содержании правил, а не на технических сложностях, что идеально подходит для тех, кто хочет создать сайт без навыков программирования.

Типичные ошибки и их решение

Полная блокировка всего ресурса (Disallow: /): Порой это происходит по недоразумению, и ресурс полностью пропадает из поиска. Исправление: удалите или закомментируйте эту строку.
Блокировка CSS и JS элементов: Многие ресурсы блокируют сканирование директорий css/ или js/. Однако поисковикам необходимо видеть, как отображается ваш ресурс, чтобы верно его ранжировать. Исправление: разрешите сканирование этих директорий, если они включают стили и скрипты, влияющие на визуализацию ресурса.
Орфографические ошибки в названиях команд или маршрутах: Даже мелкая оплошность может привести к тому, что нормы не сработают. Исправление: тщательно проверяйте орфографию. Применяйте инструменты для верификации (robots.txt Tester в Google Search Console).
Размещение robots.txt не в корне: Документ обязан быть доступен по адресу /robots.txt. Исправление: переместите документ в корень ресурса.
Применение Disallow для страниц, которые вы желаете убрать из поиска: robots.txt не стирает страницы из индекса, а только блокирует их дальнейшее сканирование. Для стирания из индекса используйте мета-тег noindex или удалите страницу и настройте ошибку 404.

Источник: Freepik. Если ваша цель удалить страницу из индекса, используйте другие методы

Примеры robots.txt

1. Для обычного блога на WordPress:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/*/functions.php

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/feed/

Disallow: /tag/

Disallow: /*?replytocom

Disallow: /*?s=

Disallow: /*wp-json/

Sitemap: https://вашресурс.ру/sitemap.xml

Здесь мы блокируем сканирование служебных директорий, разнообразных RSS-лент, страниц тегов, результатов поиска и иных вспомогательных страниц.

2. Для онлайн-магазина (фрагмент):

User-agent: *

Disallow: /admin/

Disallow: /account/

Disallow: /cart/

Disallow: /checkout/

Disallow: /compare/

Disallow: /search/

Disallow: /*?filter=

Disallow: /*?sort=

Disallow: /*?page=

Allow: /*?page=$

Sitemap: https://вашресурс.ру/sitemap.xml

Здесь заблокированы служебные страницы (админка, аккаунт, корзина, оформление заказа), результаты поиска, а также страницы с параметрами фильтрации и сортировки (чтобы избежать дубликатов).

Как проверить файл robots.txt

Верификация документа robots.txt — необходимый шаг после его формирования или корректировки.

В Google Search Console (GSC):

Зайдите в свой аккаунт GSC.
Выберите свой ресурс.
В меню слева отыщите раздел «Сканирование» (или «Индексирование» в обновленной версии) -> «Инструмент проверки файла robots.txt» (или «Robots.txt Tester»).
Там вы обнаружите ваш актуальный robots.txt и сможете верифицировать отдельные URL на предмет разрешения к сканированию или запрета.

В Яндекс.Вебмастер:

Зайдите в Яндекс.Вебмастер.
Выберите свой ресурс.
В меню слева перейдите в «Инструменты» -> «Анализ robots.txt».
Этот инструмент также отобразит вам актуальный документ, предупредит о неисправностях и позволит верифицировать URL.
Верификация доступности в браузере:
Просто наберите в адресной строке вашресурс.ру/robots.txt. Вы должны увидеть содержимое вашего документа.

Источник: Freepik. Если вы видите ошибку 404, значит, файл либо не существует, либо находится не в корневой директории

Рекомендации по созданию и настройке robots.txt

Размещайте документ исключительно в корне ресурса: это единственная зона, где поисковые краулеры станут его разыскивать.
Применяйте один User-agent: *: для большинства ресурсов хватает единого блока норм для всех краулеров. Избегайте формирования отдельных блоков для каждого краулера, если в этом нет крайней нужды, чтобы не запутывать документ.
Будьте точны: чем конкретнее ваши правила Disallow и Allow, тем меньше вероятность промахов.
Не применяйте Disallow для стирания страниц из поиска: для этого существуют мета-тег noindex или стирание страницы с ответом сервера 404. robots.txt лишь блокирует сканирование, но не обеспечивает стирание из индекса, особенно если на страницу ведут внешние ссылки.
Осторожно с Allow: используйте его для «пробелов» в обширных заблокированных блоках.
Обозначайте Sitemap: всегда добавляйте ссылку на вашу XML-карту ресурса. Это помогает поисковым машинам лучше постигать структуру вашего ресурса.

Грамотно сконфигурированный robots.txt — это важный компонент технического SEO, который помогает поисковым машинам эффективнее сканировать ваш ресурс, акцентируясь на наиболее ценном содержимом. Не игнорируйте его, и ваш ресурс окажется лучше представленным в поиске.

Андрей Лебедев

Создать сайт

blog-editor

16 октября 2025

Понятие СВОП на бирже простым языком: что это и как используется

13 марта, 2026

Своп — это один из тех финансовых инструментов, о которых часто говорят «слишком сложно», хотя по сути он работает как...

На основании чего действует ИП в договоре и как правильно оформить этот пункт

6 марта, 2026

Ошибка в формулировке может создать проблемы при проверках, в суде или при работе с банком. Например, если указать, что ИП...

Как работает гибридный график, и зачем бизнесу переходить на смешанный формат

6 марта, 2026

Подробно разбираем гибридный график работы: плюсы и минусы для бизнеса, сотрудников и HR, а также рассказываем, как пошагово внедрить его...

Пирамида Дилтса: логические уровни и их практическое применение

6 марта, 2026

Разбор пирамиды Дилтса, ее уровней и способов применения в личном развитии и управлении. (далее…)

Как правильно установить и оформить сменный график работы

6 марта, 2026

Разъясняем, как грамотно оформить такой график, какие нюансы учесть и какие варианты возможны. (далее…)

Как не потерять клиентов, когда мессенджеры перестают работать

5 марта, 2026

За последние годы бизнес и клиенты привыкли к тому, что многое решается за один клик, а от записи до визита...

Как предоставляется отпуск и назначается пособие по уходу за ребенком в 2026 году

5 марта, 2026

Разбираем актуальные правила предоставления отпусков и выплаты пособий в 2026 году, необходимые условия, порядок оформления и другие животрепещущие вопросы. (далее…)

Письмо о возврате ошибочно перечисленных денежных средств: образец и правила оформления

5 марта, 2026

Устные договоренности в бизнесе работают далеко не всегда. Сегодня вам пообещали вернуть деньги на следующей неделе, а через месяц об...

Как правильно составить акт приема-передачи документов

5 марта, 2026

Представьте ситуацию: вы передали бухгалтеру оригиналы договоров и первички, а через пару месяцев выяснилось, что часть документов пропала. Без акта...

Что такое оферта и как она применяется на практике

4 марта, 2026

Подробно разбираем понятие оферты, ее виды, условия и юридические аспекты. (далее…)