Рейтинг:0

Как избежать отправки электронных писем поисковому роботу глубокой сети Google

флаг jp

На моем веб-сайте есть раздел, доступ к которому ограничен для пользователей, зарегистрировавшихся с действительным адресом электронной почты. У меня есть запросы с поддельными электронными письмами, и я хочу избегать отправки электронных писем на несуществующие адреса, чтобы они не увеличили показатель отказов и не навредили моей репутации отправителей.

Электронные письма:

[email protected]
[email protected]
кВтQcHVzn%40ypEcDvh.NwB

У последнего есть %40, объект HTML для @. Электронные письма представляют собой усечения одной и той же последовательности символов.

Проверяя IP-адреса запросов с обратным DNS, все три запроса исходят от cache.google.com. Если запросы исходят от поискового робота Google, я ожидаю, что эти адреса электронной почты будут задокументированы, но я не смог найти никаких ссылок.

В случае, если это поисковый робот Google, я хочу, чтобы он проиндексировал веб-сайт, избегая при этом отправки адресов электронной почты на поддельные адреса. Я уже реализовал фильтрацию по адресу в поисках этой последовательности символов.

Существует ли список поддельных адресов, которые поисковые роботы используют для доступа и индексации скрытых страниц?

Обновлять

После ответа и комментария, указывающего на проверка того, что Googlebot является поисковым роботом, я подтвердил, что это не так:

$ хост 212.113.167.197
197.167.113.212.in-addr.arpa указатель доменного имени cache.google.com.
$ host cache.google.com
Хост cache.google.com не найден: 3 (NXDOMAIN)

Так что действительно, это выглядит как злонамеренный пользователь, что объясняет, почему этот адрес электронной почты не задокументирован как исходящий от Google.

флаг vn
Рассмотрите возможность блокировки URL-адреса формы электронной почты в файле robots.txt.Или капча? Я *предполагаю*, что бот Google не будет пытаться взломать собственные капчи...
miguelmorin avatar
флаг jp
Это хорошая идея. Можешь написать ответ?
Рейтинг:3
флаг kr
Bob

Проверяя IP-адреса запросов с обратным DNS, все три запроса исходят от cache.google.com.

При выполнении обратного поиска не забудьте проверить, указывает ли прямой поиск имени хоста на исследуемый IP-адрес.

> хост 66.249.66.1
1.66.249.66.in-addr.arpa указатель имени домена crawl-66-249-66-1.googlebot.com.

> сканирование хоста-66-249-66-1.googlebot.com
Crawl-66-249-66-1.googlebot.com имеет адрес 66.249.66.1

Когда обратная и прямая записи DNS совпадают, как в этом примере, тогда можно доверять этому. В противном случае у вас может быть неаккуратный администратор или пример попытки злоумышленника скрыть свое происхождение.

Пожалуйста, используйте запрос Whois по IP-адресу, а не обратный поиск DNS, чтобы определить владельца при расследовании злоупотреблений.

Во что бы ни разрешалась обратная DNS-запись, особенно IP-адреса злоумышленника, это не всегда достоверная информация.

Обратите внимание, что владелец диапазона IP-адресов может установить любое значение для обратных DNS-записей. Нет никаких ограничений в том, что они могут использовать только имена хостов, которыми они владеют, а также нет каких-либо присущих им технических ограничений, согласно которым обратная запись DNS должна совпадать с прямой записью DNS.
(Хотя большинство добросовестных провайдеров пытаются обеспечить это, когда они позволяют своим клиентам настраивать настраиваемые обратные записи DNS на общедоступном IP-адресе, который они используют.)

Настройка фальшивой обратной DNS-записи — это уловка из арсенала, которую некоторые злоумышленники могут использовать, чтобы скрыть свои следы и/или выглядеть более безобидно при попытке обойти контроль доступа.

miguelmorin avatar
флаг jp
Спасибо! Запрос Whois по IP-адресу (https://www.whois.com/whois/x.x.x.x) показывает, что он исходит от интернет-провайдера, и нигде в записях не указан `cache.google.com`. Если запросы действительно исходят от робота Google, должны ли они указывать доменное имя google.com?
флаг kr
Bob
Пожалуйста, обратитесь к https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot за их рекомендацией, которая включает проверку того, что используемая обратная запись DNS действительно соответствует прямой записи.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.