О быстрой индексации молодого сайта или новых страниц старого ресурса мечтает каждый вебмастер. Достичь успехов в этом вопросе поможет robots.txt, который является навигационным маяком для поисковых систем. Мы подготовили большой гайд, который касается особенностей, функций и настройки robots.txt.
Что такое индексный файл?
В индексном файле прописана информация, указывающая поисковым ботам на страницы, разделы и папки, которые нужно и не нужно индексировать. Для создания необходимо использовать кодировку UTF-8. Применение других символов может привести к тому, что поисковые роботы просто не распознают рекомендации. Он актуален для протоколов HTTP, HTTPS и FTP. Корректная настройка рассматриваемого файла скрывает от индексации страницы, папки, разделы:
- веб-страницы со служебной информацией;
- административная панель;
- формы регистрации, оформления заказа, сравнения товаров;
- личные кабинеты;
- персональные данные клиентов;
- корзины, иные «мусорные страницы».
Попадая на сайт, роботы начинают искать robots.txt. Если он отсутствует или оформлен неправильно, то сканирование будет выполняться произвольно. В итоге новые страницы и контент не попадут в поисковую выдачу на протяжении длительного времени. Обратите внимание на то, что некоторые конструкторы сайтов формируют файл автоматически. Для проверки наличия файла стоит дополнить доменное имя строкой «/robots.txt».
Зачем нужен индексный файл?
Запрет на индексацию страниц – необходимость, ведь некоторые из них не предназначены для пользователей. Использование рассматриваемого инструмента решает следующие задачи:
- составление четкого плана страниц, которые подлежат индексации;
- снижение нагрузки на сервер в то время, когда ресурс сканируют поисковые роботы;
- определение главного зеркала;
- создание корректного пути к карте сайта, что ускоряет и существенно упрощает индексацию;
- предупреждение ошибок, проблем и слишком медленной индексации.
Однако есть один нюанс: robots.txt имеет рекомендательный характер, он не может запретить ботам индексировать ту или иную страницу. Представители ПС Google указывают на то, что с помощью индексного файла нельзя выполнить блокировку страниц. Например, доступ ограничен через файл, однако на другой странице размещена ссылка на ту, которую вы хотите закрыть – в этом случае индексация может произойти. В связи с этим рекомендуется использовать не только потенциал robots.txt, но и другие методы ограничений для поисковых систем Яндекс и Google. В любом случае от индексного файла нельзя отказаться, ведь его наличие сокращает риск попадания в общий доступ страниц, которые нужно скрыть.
Требования к формату
Нередко боты игнорируют рассматриваемый файл из-за ошибок, допущенных при его составлении. Во время выполнения работы нужно учитывать следующие правила и распространенные ошибки:
- размер файла определяет поисковая система: 32 Кб – Яндекс, не более 512 Кб – Google;
- наличие опечаток, ошибок в ссылках, иных проблем приводит к тому, что рекомендации остаются незамеченными или проигнорированными. Другие проблемы: во время запроса к серверу файл недоступен, формат не является текстовым, содержит запрещенные символы;
- при наполнении используется латиница. Если вы обнаружили кириллические символы, то выполните перевод, используя потенциал Punycode-конвертера.
Рекомендуется периодически осуществлять проверку, способ выполнения которой зависит от типа системы управления содержимым.
Синтаксис
В состав файла входят директивы, прописываемые в строгой последовательности. При работе с директивами важно не допускать ошибки, придерживаясь следующих правил:
- одна строка – одна директива;
- отсутствие пробелов, тире, лишних символов, что особенно актуально для начала строки;
- использование знака «:» после каждой директивы.
Помните о том, что для создания используются только латинские символы!
Основные директивы
- User Agent – обращение к роботам. Если используется символ «*», то страница открыта для всех ПС, Yandex – для ПС Яндекс. Для ПС для Google применяется значение Googlebot.
- Disallow – указывает на то, что поисковым роботам запрещено сканировать, папки, разделы и т. д. Если после Disallow указан знак «/», то роботам запрещено сканировать сайт, а «/page» – раздел и категории, входящие в него.
- Allow – директива, разрешающая сканирование. Если она дополнена знаком «/», то все поисковые боты смогут осуществить сканирование. Директива, лишенная описания, работает как Disallow.
- Noindex – ограничивает индексацию части контента, размещенного на странице, прописывается в коде.
- Sitemap – указывает путь к карте сайта, что обеспечивает более быстрое сканирование.
Мы описали основные директивы, но их намного больше. Например, Clean-param поддерживает только ПС Яндекс, директива указывает на динамические параметры. С помощью Host можно указать главное зеркало. Знак «#» – примечание для вебмастера, которое поисковые боты не видят.
Как выполнить проверку?
Создать robots.txt можно вручную, более простой путь – использование онлайн-инструментов, которые предупреждают человеческий фактор. Проверка результата осуществляется через панели вебмастеров в Google и Яндекс. Финишную проверку можно выполнить только после того, как robots.txt будет загружен в корневую папку вашего сайта. Если его нет, то отобразится сообщение об ошибке. Для загрузки используется FTP-клиент, после ее выполнения ожидайте результат и наблюдайте за процессом индексации. Если есть проблемы, то необходимо искать ошибку.
Как выполнить проверку файла на сайте конкурентов?
Если вы хотите увидеть примеры, то сможете сделать это в несколько кликов. Используйте метод, который мы описали ранее:
- введите в поисковую строку адрес: site.ru/robots.txt, где site.ru – реальный URL-адрес ресурса, который вы хотите проверить;
- изучайте результат.
В заключение
Файл хранится в корневой папке вашего сайта. При его создании используются директивы, размещающиеся в строгой последовательности, и латинские символы. Некоторые системы управления содержимым создают robots.txt самостоятельно, в другом случае приходится формировать документ вручную или с помощью специального софта. В robots.txt можно добавлять рекомендации как для всех, так и для одной ПС, но это не означает, что они будут учтены. Для предупреждения попадания в индекс нежелательных страниц, вы должны внимательно проверять файл на отсутствие ошибок, а также использовать дополнительные инструменты для ограничений.