Рейтинг:1

Почему Google спамит мой сайт Wordpress ключевыми словами для свиданий?

флаг br

У меня есть сайт Wordpress, который получает более 100 тысяч запросов в день с тем же запросом, что и ниже. Все эти GET поступают примерно с 200 разных IP-адресов в одном и том же сетевом диапазоне Google (66.249.x.x). Здесь нет /поиск/ route на сайте, но что-то в Wordpress (Relevanssi?) должно обрабатывать этот запрос, потому что в БД есть ошибки сопоставления UTF-8, вероятно, из-за эмодзи или кириллических символов:

Ошибка базы данных WordPress Недопустимое сочетание сопоставлений (utf8_general_ci,IMPLICIT) и (utf8mb4_unicode_ci,COERCIBLE) для операция "как" для запроса \n\t\t\tSELECT COUNT(DISTINCT(relevanssi.doc))\n\t\t\t\tFROM 49qi0c_relevanssi AS relevanssi\n\t\t\t\t ГДЕ (relevanssi.term НРАВИТСЯ 'berbat\xf0\x9f\xaa\x80\xe2\x9d\xa4\xef\xb8\x8f\xef\xb8\x8fwww%' ИЛИ relevanssi.term_reverse НРАВИТСЯ CONCAT(REVERSE('berbat\xf0\x9f\xaa\x80\xe2\x9d\xa4\xef\xb8\x8f\xef\xb8\x8fwww'), '%')) созданный require('wp-blog-header.php'), wp, WP->main, WP->query_posts, WP_Query->запрос, WP_Query->get_posts, apply_filters_ref_array('posts_pre_query'), WP_Hook->apply_filters, relevanssi_query, relevanssi_do_query, relevanssi_search, relevanssi_search, relevanssi_generate_df_counts, QM_DB->запрос

Я проверил форум Relevanssi и нашел, что кто-то публикует почти ту же проблему.Было сказано, что это «безвредно» и никого не касается, поэтому тема была закрыта. Дело в том, однако, что сама нагрузка этих запросов начинает отставать от сайта, и генерируемые ошибки заполняют журналы под /вар/ раздел. Я заблокировал /19 от Google прямо сейчас, но, вероятно, это неправильный ответ, поскольку это Google (рейтинг страниц и все такое). Кто-нибудь когда-нибудь видел подобные вещи от Google раньше?

ПОЛУЧАТЬ /search/%F0%9F%AA%80ЛУЧШИЙ+САЙТ ЗНАКОМСТВ+САЙТ%E2%9D%A4%EF%B8%8F%EF%B8%8F%C4%B0ngiliz+kad%C4%B1n+i%C3%A7+% C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat%F0%9F%AA%80%E2%9D%A4%EF% B8%8F%EF%B8%8FWww.MtSp.XyZ%F0%9F%AA%80%E2%9D%A4%EF%B8%8F%EF%B8%8F%C4%B0ngiliz+kad%C4%B1n+ i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat+%C4%B0ngiliz+kad%C4%B1n+ i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat+%C4%B0ngiliz+kad%C4%B1n+ i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat/feed/rss2/?page_number_9=1&page_number_15=7&page_number_14 =3&page_number_16=3&page_number_10=1&page_number_12=33&page_number_17=3&page_number_13=3&page_number_11=17 HTTP/1.1" 200 718084 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Сборка/MMB29P) AppleWebKit/537.36 (KHTML, как Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (совместимый; Googlebot/2.1; +http://www.google.com/bot.html)

флаг vn
Можете ли вы привести реальный пример IP одного из них? В основном это выглядит как реферальный спам (некоторые сайты показывают «самые популярные/последние поиски» на боковой панели); это может быть просто скомпрометированный сервер в облачной платформе Google, а не настоящий GoogleBot. Подтвердите это на странице https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot.
Nstevens avatar
флаг br
Конечно, один IP был 66.249.70.19. Он находится в диапазоне № 21 здесь: https://www.gstatic.com/ipranges/goog.json. Я думаю, что в этом сетевом блоке было несколько IP-адресов, но большинство из них были. Я проверю информацию, которую вы разместили. Спасибо!
флаг vn
Интересно; он отслеживает GoogleBot. Интересно, кто-то злоупотребляет «сканировать как GoogleBot» в консоли поиска Google или создает страницу, указывающую на эти поисковые URL-адреса, которые Google сканирует и считает добросовестными.
Nstevens avatar
флаг br
Не уверен, что это за функция, но я запущу ее нашим администратором WP. Он был обеспокоен тем, что что-то с его SEO-плагином может указывать Google сканировать сайт по этим терминам. Было еще одно предположение, что это могут быть хосты Google App Engine (хостинг виртуальных машин?). Я не очень хорошо разбираюсь в сервисах Google, но мне кажется, что это возможно.
флаг in
Используйте поисковую консоль Google, она может сказать вам, почему, или, по крайней мере, получить подсказки через несколько дней.
флаг jp
добавить `/search/ в robots.txt`
Nstevens avatar
флаг br
Хотел бы я, чтобы это было так просто. `robots.txt` является исключительно дискреционным. Любой клиент волен игнорировать это.
флаг vn
@Nstevens Хотя это правда, GoogleBot **определенно** уважает это.
Nstevens avatar
флаг br
Ах хорошо. Я понимаю, что ты сейчас говоришь, @AlexD. Спасибо.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.