Рейтинг:1

spamassasin не может читать по-японски, когда он закодирован в html

флаг ug

Я хотел бы заблокировать некоторые электронные письма, которые содержат определенные японские слова, но spamassassin не может обнаружить такие слова, когда электронное письмо закодировано в формате HTML, например:

Это сообщение, состоящее из нескольких частей, в формате MIME.
--------------050206070005060005050706
Content-Type: текстовый/обычный; набор символов = ISO-2022-JP; формат = течет
Content-Transfer-Encoding: кавычки-печать

こんにちは!残念な&=
#12364;ら凶報がございま&#=
12377;。数ヶ月前、あな...

--------------050206070005060005050706
Тип содержимого: текст/html; набор символов = "ISO-2022-JP"
Content-Transfer-Encoding: кавычки-печать

<html>
  <голова>

    <meta http-equiv=3D"content-type" content=3D"text/html; =
кодировка=3DISO-2022-JP">
  </голова>
  <body bgcolor=3D"#FFFFFF" text=3D"#000000">
    こんにちは!</br>
</br>
残念ながら凶報がご&=
#12374;います。</br>
...
  </тело>
</html>
--------------050206070005060005050706--

Пример правила в spamassassin:

тело JAP_BAD_1 /æ®å¿µãªããå¶å ±ããããã¾ã/
оценка JAP_BAD_1 5,0

Однако, когда я запускаю тест:

spamassassin -D textcat -t spam.test

Не показывает матч. Что мне нужно сделать?

anx avatar
флаг fr
anx
Любая причина не просто отклонять *все* сообщения с числовыми html-объектами в предположительно текстовых/обычных частях типа?
lepe avatar
флаг ug
@anx Я не уверен, что это может отклонить подлинные сообщения.
флаг gb
Я не очень разбираюсь в [ISO-2022-JP] (https://en.wikipedia.org/wiki/ISO/IEC_2022#ISO-2022-JP), но насколько я понимаю, эта кодировка использует escape-коды. в то время как ваш образец вместо этого использует коды символов с высоким значением через объекты HTML.Если бы это был Unicode, это были бы знаки [Cuneiform](https://en.wikipedia.org/wiki/Cuneiform_(Unicode_block)) (начиная с `` при условии, что ваш шрифт может это отображать), хотя `!` не определяется Юникод афаит.
lepe avatar
флаг ug
@AdamKatz Если вы декодируете объекты HTML, например, с помощью этого [инструмента] (https://mothereff.in/html-entities), вы обнаружите, что `こんにちは!` на самом деле `ããã «ã¡ã¯ï¼`.
флаг gb
Ха, я думал в шестнадцатеричном формате. Тем не менее, насколько я понимаю, это не типичное использование ISO-2022-JP, поскольку ISO-2022-JP будет заполнен escape-символами.
lepe avatar
флаг ug
@AdamKatz, наверное, ты прав. Я не знаком с ISO-2022-JP.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.