индекс совпадения является мерой того, насколько набор букв отличается от случайного набора, основанного на повторениях. Для алфавита из 26 букв совершенно случайный набор букв будет иметь индекс совпадения около $1/26\около 0,038$, для текста на английском языке индекс совпадения составляет около 0,067 (некоторые источники не нормализуют индекс и вместо этого используют значения 1 для случайного и около 1,73 для английского).
Если мы посмотрим на таблицу, все выглядит немного выше, чем случайное, но шестой столбец, кажется, заполнен значениями, которые имеют аналогичный или больший индекс совпадения с английским языком (текст может быть надуман, чтобы помочь криптоанализу). То, как таблица была сгенерирована, использует заголовки столбцов, текст разделен на это количество столбцов. Затем, просматривая каждый столбец по очереди, совпадение между парами букв используется для вычисления индекса. Так, например, чтобы создать шестой столбец таблицы, мы пишем
КЦКПКБ
ГУФДПХ
QTYAVI
НРРТМВ
ГРКДНБ
ВФДЭТД
GILTXR
ГУДДКО
TFMBPV
ГЕГЛТГ
CKQRAC
QCWDNA
WCRXIZ
АКФТЛЕ
WRPTYC
QKYVXC
ХКФТПО
NCQQRH
ЖВАЮВ
ETMCMS
PKQDYH
JVDAHC
ТРЛСВ
KCGCZQ
QDZXGS
FRLSWC
WSJTBH
АФСИАС
ПРЯХК
JRJUMV
ГКМИТЦ
ХФПДИС
ПЗЛВЛГ
ВТФПЛК
КЭБДПГ
CEBSHC
TJRWXB
АФСПЕЗ
QNRWXC
ВЫКГАО
СВДДКА
CKAWBB
ИКФТИО
VKCGGH
JVLNHI
FFSQES
ВИКЛАК
НВРВББ
ИРЭПББ
ВФЭКСОС
CDYGZW
ПФДТКФ
QIYCWH
JVLNHI
КИБТХ
JVNPIS
Т
и чтобы вычислить запись в шестом столбце второй строки таблицы, мы спускаемся вниз, вторая находка повторяет RR, CC, RR, EE, KK, KK, что значительно больше, чем мы ожидали бы для списка из 56 букв (где в среднем мы ожидаем 2,15 повторения для случайной коллекции). Точно так же, подсчитывая повторы на расстоянии 2, 3 и т. д., мы можем объединить их в оценку индекса совпадения для каждого столбца. Например, во 2 столбце мы видим 5 Cs, 2 Ds, 3 Es, 8 Fs, 3 Is, 1 J, 9 Ks, 1 N, 8 Rs, 1 S, 3 Ts, 2 Us, 6 Vs, 1 W, 2 Ys и 1 Z (и никаких других букв). Это означает, что если мы посчитаем повторяющиеся пары, то будет 10 пар C, 1 пара D, 3 пары E, 28 пар F, 3 пары Is, 36 пар K, 28 пар R, 3 пары T. , 1 пара Us, 15 пар V и 1 пара Y (и никаких других пар), всего 129 повторяющихся пар из 1540 возможных пар. Деление 129 на 1540 дает индекс выборки столбца 0,0838 (я не уверен, как было рассчитано 0,097 в таблице, но 0,0838 все же значительно выше, чем 1/26). Аналогичные расчеты для остальных записей шестого столбца таблицы дают 0,0649, 0,0838, 0,0494, 0,0649, 0,0429, 0,0733. И наоборот, наше вычисление при делении на семь столбцов составляет 0,0319, 0,0443, 0,0434, 0,0408, 0,0443, 0,0443, 0,0408, а на пять столбцов — 0,0439, 0,0443, 0,0325, 0,0353 и 0,0430. Шестая колонка явно выделяется.
Другие столбцы показываются как более случайные из-за менее выраженных эффектов шифра Виженера, но шестой столбец таблицы выделяется. Это говорит нам о том, что длина ключа, вероятно, будет равна 6. Мы можем дополнительно проверить это, взяв количество гистограмм в приведенных выше столбцах и увидев, что они выглядят как сдвиги одного и того же алфавита.
Можно расширить таблицу за пределы 8 столбцов, но мы обнаружим, что имеем дело с более короткими наборами букв для вычисления нашего индекса.Существуют более мощные статистические тесты, которые можно использовать для наборов букв, но индекс совпадения довольно легко вычислить вручную и на глаз, поэтому он был популярен среди ручных криптоаналитиков.