Сегодня я читал о том, что крупная технологическая компания планирует внедрить новую систему для автоматического обнаружения и сообщения о CSAM на фотографиях пользователей. В целом, система, описанная в их 12-страничном техническом описании, кажется, разработана довольно хорошо и может быть максимально приближена к настоящей конфиденциальности, но при этом позволяет осуществлять наблюдение за контентом.
При этом хакер во мне не может не чувствовать себя немного встревоженным, когда слышит об исключениях из того, что в противном случае могло бы быть сквозным шифрованием (не то, чтобы их хранилище фотографий рекламировалось как сквозное шифрование для начала). с, однако их технический обзор говорит, что все фотографии зашифрованы с помощьюпорог бьющийся– ключ, сгенерированный случайным образом устройством пользователя). Поэтому я пришел сюда, чтобы обрисовать то, что я вижу как наиболее реалистичную атаку на криптографическую стойкость/гарантии конфиденциальности этой системы, и (надеюсь) понять, почему я ошибаюсь или что я упустил из виду.
Предположим, что эта компания когда-либо терпит утечку данных: маловероятная ситуация для начала, но не неслыханная. В результате этой утечки данных происходит утечка фотографий многих пользователей (в зашифрованном формате).Если бы существовало настоящее сквозное шифрование, это не было бы серьезной проблемой конфиденциальности, так как все фотографии были бы зашифрованы с помощью ключа, известного только устройствам конечных пользователей, и, следовательно, никто не мог бы реально их расшифровать. Интернет.
Однако в этой новой системе, как я понимаю, фотографии или, по крайней мере, их визуальные производные (для которого я не мог найти определение, хотя Я предполагаю, что похож на эскизы), шифруются дважды, причем внешний слой шифруется ключом, полученным из NeuralHash фотографии.
NeuralHash описывается как алгоритм хеширования, способный предоставить один и тот же хэш для одного и того же изображения, даже после того, как это изображение подверглось обрезке, изменению размера, корректировке цвета, сжатию и т. д.
Чтобы процитировать часть технического резюме:
Основная цель хэша — гарантировать, что идентичные и визуально похожие изображения приведут к одному и тому же хешу, а изображения, отличающиеся друг от друга, приведут к разным хэшам. Например, изображение, которое было слегка обрезано или изменено в размере, должно считаться идентичным оригиналу и иметь тот же хэш.
Теоретически это здорово, потому что это означает, что все (предположительно уникальные) фотографии, сделанные пользователями, будут зашифрованы надежными уникальными секретами, что сделает их конфиденциальными и безопасными.
Но что происходит, когда пользователь сохраняет фотографию, которая не уникальна? Например, скриншот с популярного веб-сайта, циркулирующий в Интернете мем и т. д.? Что может помешать злоумышленнику сгенерировать NeuralHash популярных мемов, получить ключ, а затем взломать просочившиеся данные до тех пор, пока он не расшифрует запись, тем самым проверив содержимое в облачной библиотеке фотографий конкретного пользователя и понизив их уровень конфиденциальности?
Или, например, злоумышленник любит яблоки, и очень-очень хочет найти фотографии яблок.Что помешает им заставить ИИ сгенерировать несколько миллионов фотографий яблока, хешировать их, получить ключи, а затем перебрать предположительно большую утечку, пока не найдет совпадение? Не может быть что много перестановок яблока, может там? Конечно, вы не найдете все фотографии яблок, но я думаю, что вы сможете, по крайней мере, получить некоторый расшифровываемые совпадения.
Сама эта компания даже раскрывает в одном из своих документов, что существует ненулевая вероятность ложных срабатываний, когда речь идет о совпадениях, и что поэтому они ввели пороговое разделение секрета (т.е. необходимость иметь несколько совпадений с их «заведомо плохими» "база данных до того, как их внутренний уровень шифрования может быть взломан... подробнее об этом далее), чтобы снизить вероятность ложных срабатываний до одного на триллион. Вероятность ложноположительного совпадения на любой заданной фотографии значительно меньше, чем один из триллиона, для меня это звучит в пределах диапазона грубой силы, особенно если вы уже знаете, какой тип фотографии вы ищете.
И последнее замечание: существует внутренний уровень порогового шифрования, который в основном требует, чтобы внешние слои нескольких фотографий были расшифрованы до того, как можно будет создать ключ для расшифровки внутреннего слоя. Но опять же, в зависимости от порогового размера (который должен быть довольно низким, поскольку он должен быть меньше, чем реальное количество CSAM, которое может быть у кого-то), это не кажется большим препятствием: вам просто нужно найти пользователь, у которого есть, скажем, десять общих мемов, хранящихся во всей библиотеке облачного хранилища фотографий, и теперь вы создали этот ключ. Согласно статье, этот же ключ используется во всех все фотографий пользователя для этого первого уровня шифрования.
В конце концов, я вижу, что гарантии безопасности и конфиденциальности этой системы в случае утечки данных зависят от одного главного: NeuralHash.
Если NeuralHash имеет достаточно высокий уровень ложных срабатываний и может быть подвергнут обратному проектированию, утечке или обнародованию (если это еще не сделано), то может ли эта крупная технологическая компания действительно гарантировать своим пользователям, что их личные фотографии будут безоговорочно сохранены? частные, если они не CSAM? Какие криптографические средства защиты я упустил из виду, что делает атаки, подобные описанным выше, невозможными? Что мне не хватает? Видите ли вы какие-либо другие потенциальные недостатки?
Обновление: я не был уверен, считается ли это приемлемым или нет, чтобы конкретно назвать компанию, поэтому я решил ошибиться из-за осторожности и не делать этого. При этом я видел несколько комментариев с просьбой указать источник, поэтому вот. Надеюсь, это поможет!
Добавление модератора (19 августа 2021 г.): Технические подробности у Абхишека Бхоумика, Дэна Бонеха, Стива Майерса: Система Apple PSI — протокол безопасности и анализ. Это один из нескольких документов, которые теперь связаны внизу эта страница.