Рейтинг:1

Сайт блокирует мои запросы от сервера linux ubuntu

флаг us

Я Java-инженер с нулевым опытом разработки.В последнее время я впервые играл с сервером linux ubuntu, использовал докер с моим проектом селена и столкнулся с этой проблемой:

Я пытаюсь очистить HTML-код с веб-сайта, но мои звонки блокируются, и я получаю запрещенный ответ 403. Я попытался свернуть тот же веб-сайт и получил тот же ответ.

Кроме того, меня блокируют только на моей машине с Linux, все работает в локальной среде разработки с тем же образом докера, поэтому я думаю, что это «ошибка сервера».

Есть идеи, чего здесь не хватает моему Linux-серверу? Может быть, у меня нет какого-то сертификата или проблема с cors? Любые идеи, что я могу попробовать? (Только для учебных целей)

вызов керла здесь

флаг in
Передайте веб-браузер и приложения curl и Java через прокси-сервер, такой как mitmproxy, и проверьте запрос, особенно заголовки. Я уверен, что увижу различия, из-за которых веб-сервер отправляет разные ответы.
флаг cn
Bob
Не совсем по теме ServerFault, заставить работать команды selenium и curl больше StackOverflow.Но скорее всего: сайт пытается обнаружить парсеры и использует такие механизмы, как файлы cookie и сеансы, чтобы идентифицировать реальных интерактивных пользователей/браузеров.
флаг us
@Bob Я бы сказал, что это ServerFault, потому что он работает с моей локальной машиной с тем же образом докера.
флаг us
@ Роберт ценю ваше предложение, я собираюсь изучить и обновить этот вопрос.
флаг in
Просто быть ошибкой серверов не делает это темой для ServerFault. Если это ваш сервер, который вы пытаетесь очистить, предоставьте конфигурацию вашего сервера и файлы журналов, и мы постараемся вам помочь. Если это не ваш сервер, то здесь это не по теме. И в таком случае я бы перестал делать то, что делаешь ты. Теперь вы просто получаете 403, следующее уведомление может быть от юриста.
флаг us
Как я уже говорил, я полный нуб в этом, и я могу предоставить любые файлы конфигурации, которые, по вашему мнению, могут помочь. По сути, на данный момент я не знаю, чего я не знаю. Не знал, что это может быть незаконным, но я не думаю, что несколько звонков в день могут привести к таким последствиям, у меня нет работающего сервера, который рассылает звонки. Определенно, теперь я более осторожен и тоже проведу исследование по этому поводу. Я также хотел бы отметить, что моя основная цель — учиться на практике, и у меня здесь нет никакой другой цели, кроме как просто понять, «как меня узнают и блокируют». Спасибо
Рейтинг:1
флаг cn

Я полагаю, что вы получаете ограничение скорости или блокировку веб-сайтом. Если я запускаю ту же команду curl со своего ноутбука, я возвращаю веб-страницу.

Не забывайте уважать robots.txt если вы делаете парсинг в Интернете.

флаг us
Не знал про robots.txt, отличные находки, спасибо. Я понятия не имел об ограничении скорости, но я думаю, что это не так, потому что с самого начала после развертывания первый вызов был заблокирован.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.