Рейтинг:0

Является ли потеря конфиденциальности случайной величиной?

флаг us

В «стандартной» книге (Dwork & Roth, 2014) потеря конфиденциальности определяется следующим образом (стр. 18).

Количество

$$ \mathcal{L}^{(\xi)}_{\mathcal{M}(x) || \mathcal{M}(y)} = \ln \left( \frac{\Pr[\mathcal{M}(x) = \xi]}{\Pr[\mathcal{M}(y) = \xi]} \правильно) $$

важно для нас; мы относимся к нему как к потеря конфиденциальности вызвано наблюдением $\xi$. [...] Как всегда, вероятностное пространство находится над монетами механизма $\mathcal{M}$.

Так что это не говорит о том, что это случайная величина.

С моей точки зрения, это просто функция с действительным знаком $\mathcal{L}: (\mathcal{M} \times x \times y \times \xi) \to \mathbb{R}$ поскольку он выводит логарифм отношения двух вероятностей (числа между 0 и 1).

«Вероятностное пространство над монетами» немного сбивает с толку, но я думаю, что они относятся к $\Pr[.]$ функции, так как $\mathcal{M}$ являются плотностью вероятности или дискретным распределением.

Однако во многих местах я встречал случайная величина потери конфиденциальности, например здесь:

Абади М., Чу А., Гудфеллоу И., МакМахан Х. Б., Миронов И., Талвар К. и Чжан Л. (2016). Глубокое обучение с дифференциальной конфиденциальностью. Материалы конференции ACM SIGSAC 2016 г. по компьютерной и коммуникационной безопасности, 308–318. https://doi.org/10.1145/2976749.2978318

Потеря конфиденциальности — это случайная величина, зависящая от случайного шума, добавленного в алгоритм. [...] Вместо этого мы вычисляем логарифмические моменты случайной величины потери конфиденциальности, которые складываются линейно. Затем мы используем связанные моменты вместе со стандартным неравенством Маркова, чтобы получить хвостовую границу, то есть потерю конфиденциальности в смысле дифференциальной конфиденциальности.

Или здесь:

http://www.gautamkamath.com/CS860notes/lec5.pdf

Определение 2. Пусть $Y$ и $Z$ быть двумя случайными величинами. Случайная величина потери конфиденциальности $\mathcal{L}_{Y||Z}$ является [...]

Мой вопрос таков: если потеря конфиденциальности является случайной величиной, она должна иметь соответствующее распределение вероятностей, то есть интегрироваться до 1. Но это не похоже на общий случай логарифма отношения двух PDF (Лапласа, Гаусса). ) или дискретные распределения (Экспоненциальный механизм и т.д.). Это также никогда не упоминается как условие потери конфиденциальности.

Итак: я что-то упустил или это просто вводящее в заблуждение (семантически неправильное) имя?

kodlu avatar
флаг sa
Обратите внимание, что это классическая функция из теории вероятностей, восходящая по крайней мере к началу 20-го века, логарифмическое правдоподобие.
Daniel S avatar
флаг ru
@kodlu Я думаю, что именно Гуд и Тьюринг первыми привели в порядок и формализовали использование логарифмов. Собственный обзор Гуда развития того, что он назвал «весомостью доказательств», хорошо читается: https://www.waterboards.ca.gov/water_issues/programs/tmdl/docs/303d_policydocs/207.pdf
John Doe avatar
флаг us
Спасибо, но я не понимаю, почему логарифмическая вероятность как-то связана с потерей конфиденциальности здесь ... Я знаю это из машинного обучения для получения вероятности данных с учетом параметров модели (и получения логарифмической или отрицательной для более простых вычислений, таких как минимизация ).
Рейтинг:1
флаг ru

Это функция вашего наблюдения $\xi$, поэтому, если ваше наблюдение само взято из разумного распределения вероятностей (например, так что наблюдения, которые являются невозможными значениями для $М(х)$ и $М(г)$ не происходит), это случайная величина. Обычно мы рассматриваем случай, когда наблюдения берутся из распределения, соответствующего либо $М(х)$ или же $М(г)$. Обратите внимание, что сама функция не представляет собой распределение вероятностей, поэтому ее не нужно суммировать/интегрировать до 1.

Здесь может помочь пример. Предположим, у меня есть 2 четырехгранных кубика, один из которых (скажем, кубик $х$) дает 1, 2, 3, 4 с вероятностью 1/4, 1/4, 1/6, 1/3 соответственно, а другое (скажем, умереть $у$) производит их с вероятностью 1/4, 1/4, 1/3, 1/6 соответственно. Принимая $\xi$ как число, выпавшее на игральной кости и используя логарифмы по основанию 2, тогда $\mathcal L(\xi)$ принимает три возможных значения согласно $\mathcalL(1)=0$, $\mathcalL(2)=0$, $\mathcal L(3)=-1$ и $\mathcal L(4)=1$.

Если брошенный кубик умирает $х$ тогда $\mathbb P(\mathcal L(\xi)=0)=1/2$, $\mathbb P(\mathcal L(\xi)=-1)=1/6$ и $\mathbb P(\mathcal L(\xi)=1)=1/3$. Мы подтверждаем, что суммы вероятностей равны 1.

Точно так же, если брошенный кубик - это кубик $у$ тогда $\mathbb P(\mathcal L(\xi)=0)=1/2$, $\mathbb P(\mathcal L(\xi)=-1)=1/3$ и $\mathbb P(\mathcal L(\xi)=1)=1/6$.

Обратите внимание, что ожидаемая потеря конфиденциальности в первом случае составляет 1/6, а во втором -1/6. В обоих случаях это мера ожидаемой информации (в битах), поддерживающая убеждение, что $х$ кубик был брошен, полученный за бросок кубика.

John Doe avatar
флаг us
Спасибо за пример! Так что это действительно *является* случайной величиной! Он преобразует реалы в реалы (параметр $\xi$) и распределяется в соответствии с $\mathcal{M}(x)$.
John Doe avatar
флаг us
... что теперь также имеет смысл, когда нужно вычислить расхождения (как в вашем примере = разве это не просто KL-расхождение?)
Daniel S avatar
флаг ru
Ожидание потери конфиденциальности при выборке $\xi$ из $M(x)$ действительно является KL-дивергенцией. Конечно, случайная величина содержит больше информации, чем ожидается.

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.