Рейтинг:1

Почему энтропию следует определять как общую сумму распределения вероятностей?

флаг au

Из книги Стинсона, во время демонстрации следующей теоремы, которая гласит:

$H(X,Y) \leq H(X) + H(Y)$, с равенством тогда и только тогда, когда $Х$ и $Y$ являются независимыми случайными величинами.

Автор говорит считать $Х$ принимать значения $x_i$, $я$ в интервале от 1 до m, и $Y$ принимать значения $y_j$, $j$ в интервале от 1 до n он обозначает $p_i = \Pr[X=x_i]$, $я$ от 1 до м и $q_j = \Pr[Y=y_j]$, $j$ от 1 до н. Затем он определяет $r_{ij} = \Pr[X = x_i, Y = y_j]$, $я$ от 1 до м и $j$ от 1 до n, мой вопрос:

почему $$p_i = \sum_{j=1}^{n} r_{ij}$$

и $$q_j = \sum_{i=1}^{m} r_{ij}$$

Хотелось бы подробной демонстрации. Я также хотел бы понять лучше, что $Ч(Х,У)$ средства.

João Víctor Melo avatar
флаг au
Автор, который говорит, что это Стинсон.
Рейтинг:3
флаг in

Во-первых, обратите внимание, что запятая в вероятности — это оператор И; $$ \Pr[X = x , Y = y] = \Pr[X = x \клин Y = y]$$ Это общепринятое обозначение для упрощения написания.

Теперь явно напишите как

$$p_i = \sum_{j=1}^{n} r_{ij} = \Pr[X = x_i \клин Y = y_0] + \Pr[X = x_i \клин Y = y_1] + \cdots + \ Pr[X = x_i \клин Y = y_m]$$

Поскольку случайные величины $Х$ и $Y$ независимы, то это всего лишь часть события $x_i$ по случайной величине $Y$.

В качестве твердого случая рассмотрим два игральных кубика; у одного есть $Х$ а другой это $Y$ как их случайная величина, представляющая верхнее значение кости. Всего существует 36 возможных одинаковых значений броска двух костей. Исправьте первый, скажем $3$ тогда

\begin{align}\Pr(X=3) = & \Pr(X=3,Y=1)+\ & \Pr(X=3,Y=2)+\ & \Pr(X=3,Y=3)+\ & \Pr(X=3,Y=4)+\ & \Pr(X=3,Y=5)+\ & \Pr(X=3,Y=6)\ = &\frac{1}{36}+ \frac{1}{36}+ \frac{1}{36}+ \frac{1}{36}+ \frac{1}{36} +\frac{ 1}{36} = \фракция{1}{6} \end{выравнивание}


$Ч(Х,У)$ на самом деле Совместная энтропия и формула дается (снова И);

$$H(X,Y) = -\sum_{x\in\mathcal X} \sum_{y\in\mathcal Y} P(x,y) \log_2[P(x,y)]$$

В нашем контексте это

$$H(X,Y) = -\sum_{x\in X} \sum_{y\in Y} P(X=x,Y=y) \log_2[P(X=x,Y=y)] $$

$Ч(Х,У)$ является одновременной оценкой $Х$ и $Y$ и это равносильно первой оценке $Х$ затем заданное значение $Х$ оценить $Y$

$$H(X,Y)= H(X|Y)+H(Y)=H(Y|X)+H(X) $$

Доказывать это долго;

\начать{выравнивать} H(X,Y) & = â \sum_{i=1}^n \sum_{j=1}^m \Pr(X=x_i,Y =y_j) \log \big( \Pr(X= x_i,Y =y_j) \big)\ & = â \sum_{i=1}^n \sum_{j=1}^m \Pr(X=x_i,Y =y_j) \log \big( \Pr(X=x_i) \Pr(Y |X = y_j|x_i) \big)\ & = â \sum_{i=1}^n \sum_{j=1}^m \Pr(X=x_i,Y=y_j) \big[ \log \big( \Pr(X=x_i) \ большой) + \log \big( \Pr(Y|X = y_j|x_i) \big) \big] \ & = â \sum_{i=1}^n \left( \sum_{j=1}^m \Pr(X=x_i,Y =y_j) \right) \log \big( \Pr(X= х_и) \большой) \ & - \sum_{i=1}^n \sum_{j=1}^m \Pr(X=x_i,Y =y_j) \log \left( \Pr(Y|X = y_j|x_i) \right) \ & = Н(Х) + Н(У|Х) \end{выравнивание}

João Víctor Melo avatar
флаг au
Это не должно быть $\Pr(X=x_i) \Pr(X|Y = x_i|y_j)$ ?
kelalaka avatar
флаг in
О какой линии мы говорим?
João Víctor Melo avatar
флаг au
Вторая строка после «Доказательство этого немного длинное;».
kelalaka avatar
флаг in
$\Pr(X \клин Y) = \Pr(Y | X) \Pr(X) = \Pr(X | Y) \Pr(Y)$
João Víctor Melo avatar
флаг au
Но как узнать, что они равны?
kelalaka avatar
флаг in
[Условная вероятность как аксиома?](https://en.wikipedia.org/wiki/Conditional_probability#As_an_axiom_of_probability)?
João Víctor Melo avatar
флаг au
Давайте [продолжим это обсуждение в чате](https://chat.stackexchange.com/rooms/132829/discussion-between-joao-victor-melo-and-kelalaka).
Рейтинг:1
флаг sa

Энтропия не зависит от того, каковы «метки» или значения случайной величины, это свойство ТОЛЬКО распределения. В конце концов, вы просто используете $P(x), P(y), P(x,y)$ и т.д. в формуле нет $х,у$.

Как только вы это осознаете, набор вероятностей $Р(х,у)$ это все, что вам нужно, чтобы использовать и применить исходное определение энтропии для одной случайной величины. Если хотите, определите векторную случайную величину $ г = (х, у) $ и вычислить его энтропию как $$ -\sum_{z} P(z) \log P(z) $$ что то же самое, что вычисление $$ -\sum_{x,y} P(x,y) \log P(x,y) $$ Это также означает, что совместная энтропия ряда случайных величин $H(x_1,\ldots,x_n)=H(p_1,\ldots,p_n):=H_0$ с $P(x_i)=p_i,$ совпадает с энтропией любого переупорядочения (перестановки) совместного распределения, поэтому это означает

$$ H (p _ {\ sigma (1))}, p _ {\ sigma (2)}, \ ldots, p _ {\ sigma (n)}) = H_0 $$ для всех перестановок $\sigma:\{1,\ldots,n\}\стрелка вправо \{1,\ldots,n\}.$

Ответить или комментировать

Большинство людей не понимают, что склонность к познанию нового открывает путь к обучению и улучшает межличностные связи. В исследованиях Элисон, например, хотя люди могли точно вспомнить, сколько вопросов было задано в их разговорах, они не чувствовали интуитивно связи между вопросами и симпатиями. В четырех исследованиях, в которых участники сами участвовали в разговорах или читали стенограммы чужих разговоров, люди, как правило, не осознавали, что задаваемый вопрос повлияет — или повлиял — на уровень дружбы между собеседниками.