El concepto de entropía informativa implica el logaritmo negativo de la función de masa de probabilidad para un valor. Por lo tanto, cuando la fuente de datos tiene un valor con una probabilidad más baja (es decir, cuando ocurre un evento con una probabilidad baja), el evento lleva más "información" ("sorpresa") que cuando la fuente de datos tiene un valor con una probabilidad más alta..
La cantidad de información transmitida por cada evento así definido se convierte en una variable aleatoria cuyo valor esperado es la entropía de la información. Generalmente, la entropía se refiere al desorden o la incertidumbre, y su definición utilizada en la teoría de la información es directamente análoga a la utilizada en la termodinámica estadística. El concepto de IE fue introducido por Claude Shannon en su artículo de 1948 "Una teoría matemática de la comunicación". De ahí proviene el término "entropía informativa de Shannon".
Definición y sistema
El modelo básico de un sistema de transmisión de datos consta de tres elementos: una fuente de datos, un canal de comunicación y un receptor,y, como dice Shannon, el "problema básico de comunicación" es que el receptor pueda identificar qué datos generó la fuente en función de la señal que recibe a través del canal. La entropía proporciona una restricción absoluta sobre la longitud de codificación sin pérdida promedio más corta posible de los datos de origen comprimidos. Si la entropía de la fuente es menor que el ancho de banda del canal de comunicación, los datos que genera se pueden transmitir de manera confiable al receptor (al menos en teoría, tal vez dejando de lado algunas consideraciones prácticas como la complejidad del sistema requerido para transmitir los datos). y la cantidad de tiempo que puede llevar transmitir los datos).
La entropía de la información generalmente se mide en bits (también llamados "shannons") o, a veces, en "unidades naturales" (nats) o lugares decimales (llamados "dits", "bans" o "hartleys"). La unidad de medida depende de la base del logaritmo, que se utiliza para determinar la entropía.
Propiedades y logaritmo
La distribución de probabilidad logarítmica es útil como medida de entropía porque es aditiva para fuentes independientes. Por ejemplo, la entropía de una apuesta justa de una moneda es de 1 bit, mientras que la entropía de m-volúmenes es de m bits. En una representación simple, se necesitan log2(n) bits para representar una variable que puede tomar uno de n valores si n es una potencia de 2. Si estos valores son igualmente probables, la entropía (en bits) es igual a ese número. Si uno de los valores es más probable que los otros, la observación de que esocurre un significado, es menos informativo que si ocurriera algún resultado menos general. Por el contrario, los eventos más raros proporcionan información de seguimiento adicional.
Debido a que la observación de eventos menos probables es menos frecuente, no hay nada en común que la entropía (considerada como información promedio) obtenida de datos distribuidos de manera desigual sea siempre menor o igual a log2(n). La entropía es cero cuando se define un resultado.
La entropía de la información de Shannon cuantifica estas consideraciones cuando se conoce la distribución de probabilidad de los datos subyacentes. El significado de los eventos observados (el significado de los mensajes) es irrelevante en la definición de entropía. Este último tiene en cuenta solo la probabilidad de ver un evento en particular, por lo que la información que encapsula son datos sobre la distribución subyacente de posibilidades, no sobre el significado de los eventos en sí. Las propiedades de la entropía de la información siguen siendo las mismas descritas anteriormente.
Teoría de la información
La idea básica de la teoría de la información es que cuanto más se sabe sobre un tema, menos información se puede obtener al respecto. Si un evento es muy probable, no sorprende cuando ocurre y, por lo tanto, proporciona poca información nueva. Por el contrario, si el evento era improbable, era mucho más informativo que el evento sucediera. Por lo tanto, la carga útil es una función creciente de la probabilidad inversa del evento (1 / p).
Ahora si suceden más eventos, entropíamide el contenido de información promedio que puede esperar si ocurre uno de los eventos. Esto significa que lanzar un dado tiene más entropía que lanzar una moneda porque el resultado de cada cristal tiene una probabilidad menor que el resultado de cada moneda.
Características
Así, la entropía es una medida de la imprevisibilidad de un estado o, lo que es lo mismo, de su contenido medio de información. Para obtener una comprensión intuitiva de estos términos, considere el ejemplo de una encuesta política. Por lo general, tales encuestas ocurren porque los resultados de, por ejemplo, las elecciones aún no se conocen.
En otras palabras, los resultados de la encuesta son relativamente impredecibles y, de hecho, realizarla y examinar los datos proporciona nueva información; simplemente son formas diferentes de decir que la entropía previa de los resultados de la encuesta es grande.
Ahora considere el caso en el que la misma encuesta se realiza por segunda vez poco después de la primera. Dado que el resultado de la primera encuesta ya se conoce, los resultados de la segunda encuesta pueden predecirse bien y los resultados no deberían contener mucha información nueva; en este caso, la entropía a priori del resultado de la segunda encuesta es pequeña en comparación con la primera.
Lanzamiento de moneda
Ahora considere el ejemplo de lanzar una moneda. Asumiendo que la probabilidad de cruz es la misma que la probabilidad de cara, la entropía del lanzamiento de una moneda es muy alta, ya que es un ejemplo peculiar de la entropía informativa de un sistema.
Esto es porqueque es imposible predecir que el resultado de una moneda se lanzará con anticipación: si tenemos que elegir, lo mejor que podemos hacer es predecir que la moneda caerá cruz, y esta predicción será correcta con una probabilidad de 1 / 2. Tal lanzamiento de moneda tiene una entropía de un bit, ya que hay dos resultados posibles que suceden con la misma probabilidad, y estudiar el resultado real contiene un bit de información.
Por el contrario, lanzar una moneda usando ambos lados con cruz y sin cara tiene una entropía cero ya que la moneda siempre caerá en este signo y el resultado se puede predecir perfectamente.
Conclusión
Si el esquema de compresión no tiene pérdidas, lo que significa que siempre puede recuperar el mensaje original completo al descomprimirlo, entonces el mensaje comprimido tiene la misma cantidad de información que el original, pero se transmite en menos caracteres. Es decir, tiene más información o mayor entropía por carácter. Esto significa que el mensaje comprimido tiene menos redundancia.
En términos generales, el teorema de codificación del código fuente de Shannon establece que un esquema de compresión sin pérdidas no puede reducir los mensajes en promedio para tener más de un bit de información por bit de mensaje, pero se puede lograr cualquier valor de menos de un bit de información por bit.mensajes usando el esquema de codificación apropiado. La entropía de un mensaje en bits por su longitud es una medida de la cantidad de información general que contiene.