Рейтинг:0

Выявление процентилей упорядоченного набора данных без раскрытия его размера

флаг br
N J

Дан упорядоченный набор $S$ положительных целых чисел (напр. $S=\{503, 503, 520, 551...N\}$) Я хочу иметь возможность указать процентильный ранг (например, 503 находится в верхнем 10-м процентиле) для каждого элемента непрерывного подмножества $S$ (т.е. $\{s_i,s_{i+1},... s_k\} \;|\; i \ge 0, k \lt N$). Однако я не хочу разглашать информацию, которая может быть использована для эффективного вывода $N$.

Используя формулу для расчета процентного ранга заданного балла из википедия:

$$P = \frac{\text{# значений ниже оценки} s - (0,5 \times \text{количество баллов со значением }s)}{N}$$

Мы должны быть в состоянии решить для $N$ с двумя процентилями $p_1$ и $p_2$ и количество очков между ними, $n$ используя эту формулу.

$$ N = \frac{n}{p_2-p_1} $$

В качестве демонстрации, учитывая случайно сгенерированный набор данных $N$ из $10,000$ и ценности

$p_1=0,0751, p_2 = 0,0951 \text{ и } n=200$

$$N = \frac{200}{0,0951-0,0751}=10 000$$

Можно ли что-нибудь сделать, чтобы сохранить как можно большую точность, не допуская при этом эффективного определения $N$ (что-то вроде дифференциальная конфиденциальность)? Если это возможно, я предполагаю, что мне нужно будет ввести некоторую случайность, однако я не уверен, как сформулировать, сколько потребуется.

флаг ph
В вашем прозаическом описании говорится о том, что «X находится в верхнем 10-м процентиле», а ваш пример дает ответ с точностью до 4 знаков после запятой. Какую модель вы хотите поддерживать?
флаг br
N J
Целочисленная точность @ bmm6o в порядке (например, 29-й процентиль).

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.