Меню
(многоканальный)
(863) 333-24-68
звонки после 18:00
(863) 294-81-98
344019, г. Ростов на Дону, ул. Советская, дом 44, оф. 424 (4 этаж)
Время работы:
понедельник — пятница
с 9:00 до 18:00
(многоканальный)
(499) 450-65-43
105187, г. Москва, Измайловское шоссе, 73Б, офис 23
Время работы:
понедельник —пятница
с 10:00 до 18:00
+7 (862) 555-27-79
г. Сочи, ул. Московская д. 19 оф. 420
Время работы:
понедельник — пятница
с 9:00 до 18:00
Ростов-на-Дону
Москва
  1. Главная
  2. Блог
  3. Индексный файл robots.txt: ключевые рекомендации для начинающих вебмастеров

Индексный файл robots.txt: ключевые рекомендации для начинающих вебмастеров

Индексный файл robots.txt: ключевые рекомендации для начинающих вебмастеров

О быстрой индексации молодого сайта или новых страниц старого ресурса мечтает каждый вебмастер. Достичь успехов в этом вопросе поможет robots.txt, который является навигационным маяком для поисковых систем. Мы подготовили большой гайд, который касается особенностей, функций и настройки robots.txt.

Что такое индексный файл?

В индексном файле прописана информация, указывающая поисковым ботам на страницы, разделы и папки, которые нужно и не нужно индексировать. Для создания необходимо использовать кодировку UTF-8. Применение других символов может привести к тому, что поисковые роботы просто не распознают рекомендации. Он актуален для протоколов HTTP, HTTPS и FTP. Корректная настройка рассматриваемого файла скрывает от индексации страницы, папки, разделы:

Индексный файл
  • веб-страницы со служебной информацией;
  • административная панель;
  • формы регистрации, оформления заказа, сравнения товаров;
  • личные кабинеты;
  • персональные данные клиентов;
  • корзины, иные «мусорные страницы».

Попадая на сайт, роботы начинают искать robots.txt. Если он отсутствует или оформлен неправильно, то сканирование будет выполняться произвольно. В итоге новые страницы и контент не попадут в поисковую выдачу на протяжении длительного времени. Обратите внимание на то, что некоторые конструкторы сайтов формируют файл автоматически. Для проверки наличия файла стоит дополнить доменное имя строкой «/robots.txt».


Как скрыть сайт или отдельную страницу от индексации в поисковых системах Google и Яндекс?

Зачем нужен индексный файл?

Запрет на индексацию страниц – необходимость, ведь некоторые из них не предназначены для пользователей. Использование рассматриваемого инструмента решает следующие задачи:

  • составление четкого плана страниц, которые подлежат индексации;
  • снижение нагрузки на сервер в то время, когда ресурс сканируют поисковые роботы;
  • определение главного зеркала;
  • создание корректного пути к карте сайта, что ускоряет и существенно упрощает индексацию;
  • предупреждение ошибок, проблем и слишком медленной индексации.

Однако есть один нюанс: robots.txt имеет рекомендательный характер, он не может запретить ботам индексировать ту или иную страницу. Представители ПС Google указывают на то, что с помощью индексного файла нельзя выполнить блокировку страниц. Например, доступ ограничен через файл, однако на другой странице размещена ссылка на ту, которую вы хотите закрыть – в этом случае индексация может произойти. В связи с этим рекомендуется использовать не только потенциал robots.txt, но и другие методы ограничений для поисковых систем Яндекс и Google. В любом случае от индексного файла нельзя отказаться, ведь его наличие сокращает риск попадания в общий доступ страниц, которые нужно скрыть.


Гайд по устранению проблем с индексацией сайта в Яндекс и Google: статистика, инструменты, причины и решения

Требования к формату

Нередко боты игнорируют рассматриваемый файл из-за ошибок, допущенных при его составлении. Во время выполнения работы нужно учитывать следующие правила и распространенные ошибки:

  • размер файла определяет поисковая система: 32 Кб – Яндекс, не более 512 Кб – Google;
  • наличие опечаток, ошибок в ссылках, иных проблем приводит к тому, что рекомендации остаются незамеченными или проигнорированными. Другие проблемы: во время запроса к серверу файл недоступен, формат не является текстовым, содержит запрещенные символы;
  • Зачем нужен индексный файл
  • при наполнении используется латиница. Если вы обнаружили кириллические символы, то выполните перевод, используя потенциал Punycode-конвертера.

Рекомендуется периодически осуществлять проверку, способ выполнения которой зависит от типа системы управления содержимым.

Синтаксис

В состав файла входят директивы, прописываемые в строгой последовательности. При работе с директивами важно не допускать ошибки, придерживаясь следующих правил:

  • одна строка – одна директива;
  • отсутствие пробелов, тире, лишних символов, что особенно актуально для начала строки;
  • использование знака «:» после каждой директивы.

Помните о том, что для создания используются только латинские символы!

Основные директивы

  1. User Agent – обращение к роботам. Если используется символ «*», то страница открыта для всех ПС, Yandex – для ПС Яндекс. Для ПС для Google применяется значение Googlebot.
  2. Disallow – указывает на то, что поисковым роботам запрещено сканировать, папки, разделы и т. д. Если после Disallow указан знак «/», то роботам запрещено сканировать сайт, а «/page» – раздел и категории, входящие в него.
  3. Allow – директива, разрешающая сканирование. Если она дополнена знаком «/», то все поисковые боты смогут осуществить сканирование. Директива, лишенная описания, работает как Disallow.
  4. Noindex – ограничивает индексацию части контента, размещенного на странице, прописывается в коде.
  5. Sitemap – указывает путь к карте сайта, что обеспечивает более быстрое сканирование.

Мы описали основные директивы, но их намного больше. Например, Clean-param поддерживает только ПС Яндекс, директива указывает на динамические параметры. С помощью Host можно указать главное зеркало. Знак «#» – примечание для вебмастера, которое поисковые боты не видят.

Индексный файл

Как выполнить проверку?

Создать robots.txt можно вручную, более простой путь – использование онлайн-инструментов, которые предупреждают человеческий фактор. Проверка результата осуществляется через панели вебмастеров в Google и Яндекс. Финишную проверку можно выполнить только после того, как robots.txt будет загружен в корневую папку вашего сайта. Если его нет, то отобразится сообщение об ошибке. Для загрузки используется FTP-клиент, после ее выполнения ожидайте результат и наблюдайте за процессом индексации. Если есть проблемы, то необходимо искать ошибку.

Как выполнить проверку файла на сайте конкурентов?

Если вы хотите увидеть примеры, то сможете сделать это в несколько кликов. Используйте метод, который мы описали ранее:

  • введите в поисковую строку адрес: site.ru/robots.txt, где site.ru – реальный URL-адрес ресурса, который вы хотите проверить;
  • изучайте результат.
В заключение

Файл хранится в корневой папке вашего сайта. При его создании используются директивы, размещающиеся в строгой последовательности, и латинские символы. Некоторые системы управления содержимым создают robots.txt самостоятельно, в другом случае приходится формировать документ вручную или с помощью специального софта. В robots.txt можно добавлять рекомендации как для всех, так и для одной ПС, но это не означает, что они будут учтены. Для предупреждения попадания в индекс нежелательных страниц, вы должны внимательно проверять файл на отсутствие ошибок, а также использовать дополнительные инструменты для ограничений.


Сделайте заказ
Нажимая кнопку "Отправить", Вы автоматически соглашаетесь с политикой конфиденциальности и даете свое согласие на обработку персональных данных. Ваши данные не будут переданы третьим лицам.
наверх