
Протокол исключения роботов (REP), более известный как robots.txt, позволяет владельцам веб-сайтов запрещать веб-краулерам и другим автоматическим клиентам доступ к сайту. «Один из самых базовых и критически важных компонентов интернета», — Google хочет сделать robots.txt интернет-стандартом спустя 25 лет.
Несмотря на свою распространенность, REP так и не стал интернет-стандартом, поскольку разработчики интерпретировали «неоднозначный де-факто» протокол «в некоторой степени по-разному на протяжении многих лет». Кроме того, он не охватывает современные крайние случаи, из-за чего веб-разработчикам и владельцам сайтов до сих пор приходится беспокоиться о его реализации.
С одной стороны, для веб-мастеров это означало неопределенность в крайних случаях, например, когда их текстовый редактор включал символы BOM в файлы robots.txt. С другой стороны, для разработчиков краулеров и инструментов это также приносило неопределенность; например, как им следует поступать с файлами robots.txt размером в сотни мегабайт?
Чтобы решить эту проблему, Google — вместе с оригинальным автором протокола 1994 года, веб-мастерами и другими поисковыми системами — задокументировал, как REP используется в современном интернете, и подал его на рассмотрение в IETF.
Предложенный черновик REP отражает более чем 20-летний опыт реального использования правил robots.txt, применяемых как Googlebot, так и другими крупными краулерами, а также примерно половиной миллиарда веб-сайтов, которые полагаются на REP. Эти тонкие настройки дают издателю возможность решать, что они хотят, чтобы краулер обходил на своем сайте, и что потенциально может быть показано заинтересованным пользователям. Это не меняет правила, созданные в 1994 году, а скорее определяет практически все неопределенные сценарии для парсинга и сопоставления robots.txt и расширяет его для современного интернета.
Стандарт robots.txt в настоящее время находится в стадии черновика, и Google запрашивает комментарии от разработчиков. Стандарт будет скорректирован по мере того, как веб-создатели укажут, «сколько информации они хотят предоставить Googlebot, и, следовательно, какой контент имеет право появляться в Поиске».
Эта стандартизация потребует «дополнительной работы» от разработчиков, которые парсят файлы robots.txt, при этом Google выкладывает в открытый доступ парсер robots.txt, используемый в его производственных системах.
Этой библиотеке уже 20 лет, и она содержит фрагменты кода, написанные в 90-х. С тех пор библиотека эволюционировала; мы многое узнали о том, как веб-мастера пишут файлы robots.txt, и о крайних случаях, которые нам пришлось учитывать, и добавляли то, что мы узнали за годы, в интернет-черновик, когда это имело смысл.