Рейтинг:0

Пытаюсь зеркалировать свой сайт с помощью wget, но найден атрибут nofollow, и я не могу загрузить ничего, кроме index.html

флаг mx

Я запускаю сайт WordPress на сервере LEMP на базе Ubuntu 20.04. У меня включен плагин скорости страницы, и чтобы заставить его кэшировать мой сайт, я использую wget из другого окна для зеркалирования сайта. Однако при использовании wget из второго окна загрузка прекращается на первой странице (index.html) с ошибкой

Атрибут nofollow находится в /tmp/ramdisk/www.example.com/index.html. Воля не переходить по ссылкам на этой странице Ниже приведена команда wget, которую я использую, и возвращаемые результаты:

wget -m -p -E -k -P /tmp/ramdisk/ https://www.example.com
--2022-05-17 16:41:40-- https://www.example.com/
Разрешение www.example.com (www.example.com)... 1**.2*.1**.*
Подключение к www.example.com (www.example.com)|1**.2*.1**.*|:443... подключено.
HTTP-запрос отправлен, ожидается ответ... 200 OK
Длина: не указана [текст/html]
Сохранение в: «/tmp/ramdisk/www.example.com/index.html».

www.example.com/index.html [ <=> ] 130,71 КБ 210 КБ/с за 0,6 с

Отсутствует последний измененный заголовок — временные метки отключены.
17.05.2022, 16:41:42 (210 КБ/с) — «/tmp/ramdisk/www.example.com/index.html» сохранено [133848]

Атрибут nofollow находится в /tmp/ramdisk/www.example.com/index.html. Не будет переходить по ссылкам на этой странице
ЗАВЕРШЕНО --2022-05-17 16:41:42--
Общее время настенных часов: 2,0 с
Скачано: 1 файл, 131 КБ за 0,6 с (210 КБ/с)
Преобразование ссылок в /tmp/ramdisk/www.example.com/index.html... 135.
42-93
Конвертация ссылок в 1 файл за 0,004 секунды.

Как я могу найти атрибуты nofollow и удалить их, чтобы wget полностью загрузил мой сайт?

Рейтинг:1
флаг in

Как задокументировано здесь вы можете указать wget игнорировать атрибут no-follow, добавив параметр -e роботы=выкл.

DanRan avatar
флаг mx
Но несколько дней назад мне не нужно было реализовывать это в wget. Итак, что я изменил на своем сервере, что создало ссылки без подписки?
флаг in
Откуда мы могли знать?
DanRan avatar
флаг mx
это именно то, что я спрашиваю. откуда мы знаем на самом деле? Есть ли способ найти эти ссылки в моем каталоге WordPress или что-то в этом роде?
Рейтинг:0
флаг mx

Я понял это.

Мне пришлось войти в мою установку WordPress через веб-интерфейс и перейти к Настройки>Чтение>Поисковая видимость, то на этой странице мне пришлось снять флажок

Запретить поисковым системам индексировать этот сайт Это зависит от поиска двигателей, чтобы выполнить эту просьбу.

вариант. После того, как я снял этот флажок, я смог успешно отразить свой сайт с помощью команды wget. wget -m -p -E -k -P /tmp/ramdisk/ https://www.example.com.

Смотрите скриншот ниже для получения дополнительной информации. Wordpress – Видимость для поисковых систем – запретить поисковым системам индексировать этот сайт

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.