Индексный файл robots.txt: ключевые рекомендации для начинающих вебмастеров

12.11.2020

5 мин.

1771

Индексный файл robots.txt: ключевые рекомендации для начинающих вебмастеров

О быстрой индексации молодого сайта или новых страниц старого ресурса мечтает каждый вебмастер. Достичь успехов в этом вопросе поможет robots.txt, который является навигационным маяком для поисковых систем. Мы подготовили большой гайд, который касается особенностей, функций и настройки robots.txt.

Что такое индексный файл?

В индексном файле прописана информация, указывающая поисковым ботам на страницы, разделы и папки, которые нужно и не нужно индексировать. Для создания необходимо использовать кодировку UTF-8. Применение других символов может привести к тому, что поисковые роботы просто не распознают рекомендации. Он актуален для протоколов HTTP, HTTPS и FTP. Корректная настройка рассматриваемого файла скрывает от индексации страницы, папки, разделы:

веб-страницы со служебной информацией;
административная панель;
формы регистрации, оформления заказа, сравнения товаров;
личные кабинеты;
персональные данные клиентов;
корзины, иные «мусорные страницы».

Попадая на сайт, роботы начинают искать robots.txt. Если он отсутствует или оформлен неправильно, то сканирование будет выполняться произвольно. В итоге новые страницы и контент не попадут в поисковую выдачу на протяжении длительного времени. Обратите внимание на то, что некоторые конструкторы сайтов формируют файл автоматически. Для проверки наличия файла стоит дополнить доменное имя строкой «/robots.txt».

Как скрыть сайт или отдельную страницу от индексации в поисковых системах Google и Яндекс?

Зачем нужен индексный файл?

Запрет на индексацию страниц – необходимость, ведь некоторые из них не предназначены для пользователей. Использование рассматриваемого инструмента решает следующие задачи:

составление четкого плана страниц, которые подлежат индексации;
снижение нагрузки на сервер в то время, когда ресурс сканируют поисковые роботы;
определение главного зеркала;
создание корректного пути к карте сайта, что ускоряет и существенно упрощает индексацию;
предупреждение ошибок, проблем и слишком медленной индексации.

Однако есть один нюанс: robots.txt имеет рекомендательный характер, он не может запретить ботам индексировать ту или иную страницу. Представители ПС Google указывают на то, что с помощью индексного файла нельзя выполнить блокировку страниц. Например, доступ ограничен через файл, однако на другой странице размещена ссылка на ту, которую вы хотите закрыть – в этом случае индексация может произойти. В связи с этим рекомендуется использовать не только потенциал robots.txt, но и другие методы ограничений для поисковых систем Яндекс и Google. В любом случае от индексного файла нельзя отказаться, ведь его наличие сокращает риск попадания в общий доступ страниц, которые нужно скрыть.

Гайд по устранению проблем с индексацией сайта в Яндекс и Google: статистика, инструменты, причины и решения

Требования к формату

Нередко боты игнорируют рассматриваемый файл из-за ошибок, допущенных при его составлении. Во время выполнения работы нужно учитывать следующие правила и распространенные ошибки:

размер файла определяет поисковая система: 32 Кб – Яндекс, не более 512 Кб – Google;
наличие опечаток, ошибок в ссылках, иных проблем приводит к тому, что рекомендации остаются незамеченными или проигнорированными. Другие проблемы: во время запроса к серверу файл недоступен, формат не является текстовым, содержит запрещенные символы;

при наполнении используется латиница. Если вы обнаружили кириллические символы, то выполните перевод, используя потенциал Punycode-конвертера.

Рекомендуется периодически осуществлять проверку, способ выполнения которой зависит от типа системы управления содержимым.

Синтаксис

В состав файла входят директивы, прописываемые в строгой последовательности. При работе с директивами важно не допускать ошибки, придерживаясь следующих правил:

одна строка – одна директива;
отсутствие пробелов, тире, лишних символов, что особенно актуально для начала строки;
использование знака «:» после каждой директивы.

Помните о том, что для создания используются только латинские символы!

Основные директивы

User Agent – обращение к роботам. Если используется символ «*», то страница открыта для всех ПС, Yandex – для ПС Яндекс. Для ПС для Google применяется значение Googlebot.
Disallow – указывает на то, что поисковым роботам запрещено сканировать, папки, разделы и т. д. Если после Disallow указан знак «/», то роботам запрещено сканировать сайт, а «/page» – раздел и категории, входящие в него.
Allow – директива, разрешающая сканирование. Если она дополнена знаком «/», то все поисковые боты смогут осуществить сканирование. Директива, лишенная описания, работает как Disallow.
Noindex – ограничивает индексацию части контента, размещенного на странице, прописывается в коде.
Sitemap – указывает путь к карте сайта, что обеспечивает более быстрое сканирование.

Мы описали основные директивы, но их намного больше. Например, Clean-param поддерживает только ПС Яндекс, директива указывает на динамические параметры. С помощью Host можно указать главное зеркало. Знак «#» – примечание для вебмастера, которое поисковые боты не видят.

Как выполнить проверку?

Создать robots.txt можно вручную, более простой путь – использование онлайн-инструментов, которые предупреждают человеческий фактор. Проверка результата осуществляется через панели вебмастеров в Google и Яндекс. Финишную проверку можно выполнить только после того, как robots.txt будет загружен в корневую папку вашего сайта. Если его нет, то отобразится сообщение об ошибке. Для загрузки используется FTP-клиент, после ее выполнения ожидайте результат и наблюдайте за процессом индексации. Если есть проблемы, то необходимо искать ошибку.

Как выполнить проверку файла на сайте конкурентов?

Если вы хотите увидеть примеры, то сможете сделать это в несколько кликов. Используйте метод, который мы описали ранее:

введите в поисковую строку адрес: site.ru/robots.txt, где site.ru – реальный URL-адрес ресурса, который вы хотите проверить;
изучайте результат.

В заключение

Файл хранится в корневой папке вашего сайта. При его создании используются директивы, размещающиеся в строгой последовательности, и латинские символы. Некоторые системы управления содержимым создают robots.txt самостоятельно, в другом случае приходится формировать документ вручную или с помощью специального софта. В robots.txt можно добавлять рекомендации как для всех, так и для одной ПС, но это не означает, что они будут учтены. Для предупреждения попадания в индекс нежелательных страниц, вы должны внимательно проверять файл на отсутствие ошибок, а также использовать дополнительные инструменты для ограничений.