Google решил сделать протокол REP для robots.txt официальным стандартом

Google хочет сделать Robots Exclusion Protocol (REP) официальным стандартом. Для этого вместе с авторами протокола, вебмастерами и представителями других поисковых систем компания задокументировала использование REP в современном интернете и подала заявку в Инженерный совет Интернета (EITF, Internet Engineering Task Force).

Robots Exclusion Protocol (REP) – стандарт ограничения доступа сканерам поисковых систем к содержимому сайта с помощью файла robots.txt. Протокол существует уже более 25 лет.

Документ, направленный в EITF, отражает 20 лет использование robots.txt, учитывая работу Googlebot, других сканеров и более полумиллиарда сайтов, использующих REP.

Новая версия документа не меняет правила, заложенные в robots.txt в 1994 году, а скорее устанавливает значения для ранее не зафиксированных сценариев парсинга, а также приводит его в соответствие с требованиями современного интернета. А именно:

  • Любой протокол передачи, работающий на URI (например, FTP или CoAP), может использовать robots.txt.
  • Разработчики должны будут парсить как минимум первые 500 кибибайтов robots.txt.
  • Максимальный период кэширования в 24 часа позволит разработчикам обновлять robots.txt в любой удобный момент без перегрузки сайта запросами от краулеров.
  • Если ранее доступный robots.txt становится недоступным, ранее заблокированные для краулеров страницы не будут сканироваться в течение достаточно длительного промежутка времени.
  • В документе Google также представил обновленную расширенную форму Бэкуса – Наура для улучшенного определения синтаксиса robots.txt.

    Также в рамках инициативы Google выложил исходный код парсера robots.txt в открытый доступ. В частности, на GitHub можно найти библиотеку C++, отдельных отрывки кода которой были написаны еще в 90-х. Протестировать код можно здесь.

    В компании утверждают, что из-за того, что REP так и не стал официальным стандартом, разработчики все эти годы интерпретировали его по-разному. 

    Цель Google – сделать так, чтобы вебмастера смогли сосредоточиться на создании хороших сайтов, не волнуясь о том, что поисковый робот неправильно просканирует сайт.

    Напомним, на днях Google сделал mobile-first индексацией по умолчанию для всех новых доменов.

    Источник: Блог Google

    Источник: seonews.ru

    Понравилась статья? Поделиться с друзьями:
    Добавить комментарий

    13 + четыре =

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: