Условная энтропия - Conditional entropy

Диаграмма Венна показывая аддитивные и вычитающие отношения различных информационные меры связанные с коррелированными переменными

{ displaystyle X}

и

{ displaystyle Y}

. Область, содержащаяся в обоих кругах, является совместная энтропия

{ Displaystyle mathrm {H} (X, Y)}

. Круг слева (красный и фиолетовый) - это индивидуальная энтропия

{ Displaystyle mathrm {H} (X)}

, красный - это условная энтропия

{ Displaystyle mathrm {H} (X | Y)}

. Круг справа (синий и фиолетовый) - это

{ Displaystyle mathrm {H} (Y)}

, с синим существом

{ Displaystyle mathrm {H} (Y | X)}

. Фиолетовый - это взаимная информация

{ displaystyle operatorname {I} (X; Y)}

.

В теория информации, то условная энтропия определяет количество информации, необходимой для описания результатов случайная переменная ${ displaystyle Y}$ учитывая, что значение другой случайной величины ${ displaystyle X}$ известен. Здесь информация измеряется в Shannons, нац, или же Hartleys. В энтропия ${ displaystyle Y}$ при условии ${ displaystyle X}$ записывается как ${ Displaystyle mathrm {H} (Y | X)}$ .

Определение

Условная энтропия ${ displaystyle Y}$ данный ${ displaystyle X}$ определяется как

{ Displaystyle mathrm {H} (Y | X) = - sum _ {x in { mathcal {X}}, y in { mathcal {Y}}} p (x, y) log { гидроразрыва {p (x, y)} {p (x)}}}

(Уравнение 1)

куда ${ displaystyle { mathcal {X}}}$ и ${ displaystyle { mathcal {Y}}}$ обозначить комплекты поддержки из ${ displaystyle X}$ и ${ displaystyle Y}$ .

Примечание: Принято считать, что выражения ${ displaystyle 0 log 0}$ и ${ displaystyle 0 log c / 0}$ для фиксированного ${ displaystyle c> 0}$ следует рассматривать как равное нулю. Это потому что ${ displaystyle lim _ { theta to 0 ^ {+}} theta , log , c / theta = 0}$ и ${ displaystyle lim _ { theta to 0 ^ {+}} theta , log theta = 0}$ ^[1]

Интуитивное объяснение определения: Согласно определению, ${ Displaystyle Displaystyle Н (Y | X) = mathbb {E} ( F (X, Y) )}$ куда ${ displaystyle displaystyle f: (x, y) rightarrow - log ( p (y | x) ).}$ ${ displaystyle displaystyle f}$ партнеры ${ Displaystyle Displaystyle (х, у)}$ информационное содержание ${ displaystyle displaystyle (Y = y)}$ данный ${ Displaystyle Displaystyle (Х = х)}$ , то есть количество информации, необходимой для описания события. ${ displaystyle displaystyle (Y = y)}$ данный ${ Displaystyle (Х = х)}$ . Согласно закону больших чисел, ${ Displaystyle Displaystyle Н (Y | X)}$ является средним арифметическим большого числа независимых реализаций ${ displaystyle displaystyle f (X, Y)}$ .

Мотивация

Позволять ${ Displaystyle mathrm {H} (Y | X = x)}$ быть энтропия дискретной случайной величины ${ displaystyle Y}$ обусловлено дискретной случайной величиной ${ displaystyle X}$ принимая определенное значение ${ displaystyle x}$ . Обозначим опорные множества ${ displaystyle X}$ и ${ displaystyle Y}$ к ${ displaystyle { mathcal {X}}}$ и ${ displaystyle { mathcal {Y}}}$ . Позволять ${ displaystyle Y}$ имеют функция массы вероятности ${ displaystyle p_ {Y} {(y)}}$ . Безусловная энтропия ${ displaystyle Y}$ рассчитывается как ${ Displaystyle mathrm {H} (Y): = mathbb {E} [ OperatorName {I} (Y)]}$ , т.е.

{ Displaystyle mathrm {H} (Y) = sum _ {y in { mathcal {Y}}} { mathrm {Pr} (Y = y) , mathrm {I} (y)} = - sum _ {y in { mathcal {Y}}} {p_ {Y} (y) log _ {2} {p_ {Y} (y)}},}

куда ${ displaystyle operatorname {I} (y_ {i})}$ это информационное содержание из исход из ${ displaystyle Y}$ принимая значение ${ displaystyle y_ {i}}$ . Энтропия ${ displaystyle Y}$ при условии ${ displaystyle X}$ принимая значение ${ displaystyle x}$ определяется аналогично условное ожидание:

{ Displaystyle mathrm {H} (Y | X = x) = - sum _ {y in { mathcal {Y}}} { Pr (Y = y | X = x) log _ {2} { Pr (Y = y | X = x)}}.}

Обратите внимание, что ${ Displaystyle mathrm {H} (Y | X)}$ является результатом усреднения ${ Displaystyle mathrm {H} (Y | X = x)}$ по всем возможным значениям ${ displaystyle x}$ который ${ displaystyle X}$ может занять. Также, если указанная выше сумма берется за образец ${ displaystyle y_ {1}, dots, y_ {n}}$ , ожидаемое значение ${ displaystyle E_ {X} [ mathrm {H} (y_ {1}, dots, y_ {n} mid X = x)]}$ в некоторых областях известен как двусмысленность.^[2]

Данный дискретные случайные величины ${ displaystyle X}$ с изображением ${ displaystyle { mathcal {X}}}$ и ${ displaystyle Y}$ с изображением ${ displaystyle { mathcal {Y}}}$ , условная энтропия ${ displaystyle Y}$ данный ${ displaystyle X}$ определяется как взвешенная сумма ${ Displaystyle mathrm {H} (Y | X = x)}$ для каждого возможного значения ${ displaystyle x}$ , с помощью ${ displaystyle p (x)}$ как веса:^[3]^:15

{ Displaystyle { begin {align} mathrm {H} (Y | X) & Equiv sum _ {x in { mathcal {X}}} , p (x) , mathrm {H } (Y | X = x) & = - sum _ {x in { mathcal {X}}} p (x) sum _ {y in { mathcal {Y}}} , p (y | x) , log , p (y | x) & = - sum _ {x in { mathcal {X}}} sum _ {y in { mathcal {Y} }} , p (x, y) , log , p (y | x) & = - sum _ {x in { mathcal {X}}, y in { mathcal {Y }}} p (x, y) log , p (y | x) & = - sum _ {x in { mathcal {X}}, y in { mathcal {Y}}} p (x, y) log { frac {p (x, y)} {p (x)}}. & = sum _ {x in { mathcal {X}}, y in { mathcal {Y}}} p (x, y) log { frac {p (x)} {p (x, y)}}. конец {выровнено}}}

Характеристики

Условная энтропия равна нулю

${ Displaystyle mathrm {H} (Y | X) = 0}$ тогда и только тогда, когда значение ${ displaystyle Y}$ полностью определяется величиной ${ displaystyle X}$ .

Условная энтропия независимых случайных величин

Наоборот, ${ Displaystyle mathrm {H} (Y | X) = mathrm {H} (Y)}$ если и только если ${ displaystyle Y}$ и ${ displaystyle X}$ находятся независимые случайные величины.

Правило цепи

Предположим, что комбинированная система, определяемая двумя случайными величинами ${ displaystyle X}$ и ${ displaystyle Y}$ имеет совместная энтропия ${ Displaystyle mathrm {H} (X, Y)}$ , то есть нам нужно ${ Displaystyle mathrm {H} (X, Y)}$ бит информации в среднем для описания его точного состояния. Теперь, если мы сначала узнаем значение ${ displaystyle X}$ , мы получили ${ Displaystyle mathrm {H} (X)}$ биты информации. Один раз ${ displaystyle X}$ известно, нам нужно только ${ Displaystyle mathrm {H} (X, Y) - mathrm {H} (X)}$ биты для описания состояния всей системы. Это количество ровно ${ Displaystyle mathrm {H} (Y | X)}$ , что дает Правило цепи условной энтропии:

{ Displaystyle mathrm {H} (Y | X) , = , mathrm {H} (X, Y) - mathrm {H} (X).}

^[3]^:17

Цепное правило следует из приведенного выше определения условной энтропии:

{ displaystyle { begin {align} mathrm {H} (Y | X) & = sum _ {x in { mathcal {X}}, y in { mathcal {Y}}} p (x , y) log left ({ frac {p (x)} {p (x, y)}} right) [4pt] & = sum _ {x in { mathcal {X}} , y in { mathcal {Y}}} p (x, y) ( log (p (x)) - log (p (x, y))) [4pt] & = - sum _ {x in { mathcal {X}}, y in { mathcal {Y}}} p (x, y) log (p (x, y)) + sum _ {x in { mathcal {X}}, y in { mathcal {Y}}} {p (x, y) log (p (x))} [4pt] & = mathrm {H} (X, Y) + sum _ {x in { mathcal {X}}} p (x) log (p (x)) [4pt] & = mathrm {H} (X, Y) - mathrm {H} (X). End {выровнено}}}

В общем, выполняется цепное правило для нескольких случайных величин:

{ displaystyle mathrm {H} (X_ {1}, X_ {2}, ldots, X_ {n}) = sum _ {i = 1} ^ {n} mathrm {H} (X_ {i} | X_ {1}, ldots, X_ {i-1})}

^[3]^:22

По форме он похож на Правило цепи в теории вероятностей, за исключением того, что вместо умножения используется сложение.

Правило Байеса

Правило Байеса для состояний с условной энтропией

{ Displaystyle mathrm {H} (Y | X) , = , mathrm {H} (X | Y) - mathrm {H} (X) + mathrm {H} (Y).}

Доказательство. ${ Displaystyle mathrm {H} (Y | X) = mathrm {H} (X, Y) - mathrm {H} (X)}$ и ${ Displaystyle mathrm {H} (X | Y) = mathrm {H} (Y, X) - mathrm {H} (Y)}$ . Симметрия влечет за собой ${ Displaystyle mathrm {H} (X, Y) = mathrm {H} (Y, X)}$ . Вычитание двух уравнений подразумевает правило Байеса.

Если ${ displaystyle Y}$ является условно независимый из ${ displaystyle Z}$ данный ${ displaystyle X}$ у нас есть:

{ Displaystyle mathrm {H} (Y | X, Z) , = , mathrm {H} (Y | X).}

Другие свойства

Для любого ${ displaystyle X}$ и ${ displaystyle Y}$ :

{ Displaystyle { begin {align} mathrm {H} (Y | X) & leq mathrm {H} (Y) , mathrm {H} (X, Y) & = mathrm {H } (X | Y) + mathrm {H} (Y | X) + operatorname {I} (X; Y), qquad mathrm {H} (X, Y) & = mathrm {H} (X) + mathrm {H} (Y) - operatorname {I} (X; Y), , operatorname {I} (X; Y) & leq mathrm {H} (X), , конец {выровнено}}}

куда ${ displaystyle operatorname {I} (X; Y)}$ это взаимная информация между ${ displaystyle X}$ и ${ displaystyle Y}$ .

Для независимых ${ displaystyle X}$ и ${ displaystyle Y}$ :

{ Displaystyle mathrm {H} (Y | X) = mathrm {H} (Y)}

и

{ Displaystyle mathrm {H} (X | Y) = mathrm {H} (X) ,}

Хотя удельно-условная энтропия ${ Displaystyle mathrm {H} (X | Y = y)}$ может быть меньше или больше чем ${ Displaystyle mathrm {H} (X)}$ для данного случайное изменение ${ displaystyle y}$ из ${ displaystyle Y}$ , ${ Displaystyle mathrm {H} (X | Y)}$ никогда не может превышать ${ Displaystyle mathrm {H} (X)}$ .

Условная дифференциальная энтропия

Определение

Приведенное выше определение предназначено для дискретных случайных величин. Непрерывная версия дискретной условной энтропии называется условная дифференциальная (или непрерывная) энтропия. Позволять ${ displaystyle X}$ и ${ displaystyle Y}$ - непрерывные случайные величины с совместная функция плотности вероятности ${ displaystyle f (x, y)}$ . Дифференциальная условная энтропия ${ displaystyle h (X | Y)}$ определяется как^[3]^:249

{ displaystyle h (X | Y) = - int _ {{ mathcal {X}}, { mathcal {Y}}} f (x, y) log f (x | y) , dxdy}

(Уравнение 2)

Характеристики

В отличие от условной энтропии для дискретных случайных величин, условная дифференциальная энтропия может быть отрицательной.

Как и в дискретном случае, для дифференциальной энтропии существует цепное правило:

{ Displaystyle час (Y | X) , = , час (X, Y) -h (X)}

^[3]^:253

Обратите внимание, однако, что это правило может не выполняться, если задействованные дифференциальные энтропии не существуют или бесконечны.

Совместная дифференциальная энтропия также используется в определении взаимная информация между непрерывными случайными величинами:

{ Displaystyle OperatorName {I} (X, Y) = h (X) -h (X | Y) = h (Y) -h (Y | X)}

${ Displaystyle ч (X | Y) Leq ч (X)}$ с равенством тогда и только тогда, когда ${ displaystyle X}$ и ${ displaystyle Y}$ независимы.^[3]^:253

Связь с ошибкой оценщика

Условная дифференциальная энтропия дает нижнюю границу ожидаемой квадратичной ошибки оценщик. Для любой случайной величины ${ displaystyle X}$ , наблюдение ${ displaystyle Y}$ и оценщик ${ displaystyle { widehat {X}}}$ имеет место следующее:^[3]^:255

{ displaystyle mathbb {E} left [{ bigl (} X - { widehat {X}} {(Y)} { bigr)} ^ {2} right] geq { frac {1} {2 pi e}} e ^ {2h (X | Y)}}

Это связано с принцип неопределенности из квантовая механика.

Обобщение квантовой теории

В квантовая теория информации, условная энтропия обобщается на условная квантовая энтропия. Последний может принимать отрицательные значения, в отличие от своего классического аналога.

Условная энтропия - Conditional entropy

Содержание

Определение

Мотивация

Характеристики

Условная энтропия равна нулю

Условная энтропия независимых случайных величин

Правило цепи

Правило Байеса

Другие свойства

Условная дифференциальная энтропия

Определение

Характеристики

Связь с ошибкой оценщика

Обобщение квантовой теории

Смотрите также

Рекомендации