Рейтинг:2

Какова методология выбора битовой длины символа и размера окна при выполнении энтропийного анализа Шеннона?

флаг cn

При выполнении анализа энтропии Шеннона для чего-то вроде ГСЧ или файла вы должны:

  1. Выберите битовую длину символа и количество выборок, которые будут выполнять анализ одновременно (IE: размер окна)
  2. Читать ввод, пока окно не заполнится
  3. Выполнить гистограмму по собранным символам
  4. Возьмите вывод гистограммы и рассчитайте энтропию Шеннона.
  5. Повторите шаг 2, либо получив совершенно новые образцы, либо скользящий окно (IE: сохранить часть уже использованных сэмплов)

Такие инструменты, как мусорный бак делайте это автоматически под капотом и довольно хорошо показываете необычные части файлов; однако не совсем понятно, как они:

  • Выберите длину символа в битах
  • Выберите размер окна
  • Если какое-либо скольжение окна выполняется

Существует ли методика выбора этих значений в контексте RNG и анализа файлов?

Рейтинг:1
флаг cn

Лиам, то, о чем ты спрашиваешь, все еще открытый вопрос. Стандартной методики расчета энтропии не существует. файл в общем случае. Даже NIST заявил об этом в своих расчетах, отличных от IID 800-90B. Следующие вопросы являются риторическими, чтобы проиллюстрировать проблему:

  1. Какова длина символа в битах? Кто знает. В произведениях Шекспира есть разграничение строк, актов и абзацев. Включены ли они в ваше окно? И они используют странные слова, которые могут быть представлены кодами Хаффмана.

  2. Что вы гистограммы? Действительно, какую именно гистограмму вы бы построили?

  3. Как взвешиваются предыдущие выводы?

Проблема не в окне. Проблема заключается в манипулировании и взвешивании указанного окна.

Видеть https://en.wikipedia.org/wiki/Колмогоров_сложность, http://www.reallyreallyrandom.com/photonic/technical/90b_latest/ и http://www.reallyreallyrandom.com/photonic/technical/algorithms/ и переходите по ссылкам.

Короче говоря, энтропийного анализа Шеннона в общем случае не существует :-(

флаг cn
Ну, по крайней мере, это утешительно, я не упускаю чего-то очевидного.
Paul Uszak avatar
флаг cn
@LiamKelly Боже, нет. Вы раздвигаете границы того, как мы вычисляем энтропию обычных вещей. Если вы прошли по ссылкам, то поймете, что это довольно сложно. Формула Шеннона до-да работает только тождественно и независимым источникам.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.