Una creencia, una red de decisión, un modelo bayesiano (ian) o un modelo de gráfico acíclico controlado por probabilidad es un esquema variante (un tipo de modelo estadístico) que representa un conjunto de variables y sus dependencias condicionales a través de un gráfico acíclico dirigido (DAG).
Por ejemplo, una red bayesiana puede representar relaciones probabilísticas entre enfermedades y síntomas. Teniendo en cuenta esto último, la red se puede utilizar para calcular la posibilidad de tener diversas enfermedades. En el video a continuación, puede ver un ejemplo de una red de creencias bayesiana con cálculos.
Eficiencia
Los algoritmos eficientes pueden realizar inferencias y aprendizaje en redes bayesianas. Las redes que modelan variables (como señales de voz o secuencias de proteínas) se denominan redes dinámicas. Las generalizaciones de las redes bayesianas que pueden representar y resolver problemas bajo incertidumbre se denominan diagramas de influencia.
Esencia
FormalmenteLas redes bayesianas son DAG cuyos nodos representan variables en el sentido bayesiano: pueden ser valores observados, variables ocultas, parámetros desconocidos o hipótesis. Porque es muy interesante.
Ejemplo de red bayesiana
Dos eventos pueden hacer que el césped se moje: un rociador activo o la lluvia. La lluvia tiene un efecto directo en el uso del rociador (es decir, que cuando llueve, el rociador suele estar inactivo). Esta situación se puede modelar utilizando una red bayesiana.
Simulación
Debido a que la red bayesiana es un modelo completo para sus variables y sus relaciones, puede usarse para responder consultas probabilísticas sobre ellas. Por ejemplo, se puede utilizar para actualizar el conocimiento sobre el estado de un subconjunto de variables cuando se observan otros datos (variables de evidencia). Este interesante proceso se llama inferencia probabilística.
A posteriori proporciona una estadística universalmente suficiente para aplicaciones de descubrimiento al elegir valores para un subconjunto de variables. Por lo tanto, este algoritmo puede considerarse un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos. En las imágenes del artículo puedes ver ejemplos de redes de creencias bayesianas.
Métodos de salida
Los métodos de inferencia exacta más comunes son: eliminación de variables, que elimina (por integración o suma) lo no observableparámetros que no son de consulta uno por uno asignando la cantidad al producto.
Haga clic en la propagación de un "árbol" que almacena en caché los cálculos para que se puedan consultar muchas variables a la vez y se puedan propagar nuevas pruebas rápidamente; y coincidencia y/o búsqueda recursiva, que permite hacer concesiones entre el espacio y el tiempo y equilibrar la eficiencia de la eliminación de variables cuando se usa suficiente espacio.
Todos estos métodos tienen una complejidad especial que depende exponencialmente de la longitud de la red. Los algoritmos de inferencia aproximada más comunes son la eliminación de minisegmentos, la propagación de creencias cíclicas, la propagación de creencias generalizadas y los métodos variacionales.
Redes
Para especificar completamente la red bayesiana y así representar completamente la distribución de probabilidad conjunta, es necesario especificar para cada nodo X la distribución de probabilidad de X debido a los padres de X.
La distribución de X condicionalmente por sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que simplifica los cálculos. A veces, solo se conocen las restricciones de distribución. Luego puede usar la entropía para determinar la distribución única que tiene la entropía más alta dadas las restricciones.
Del mismo modo, en el contexto específico de una red bayesiana dinámica, la distribución condicional para la evolución temporal de la latenteEl estado generalmente se establece para maximizar la tasa de entropía del proceso aleatorio implícito.
Maximizar directamente la probabilidad (o probabilidad posterior) a menudo es complicado dada la presencia de variables no observadas. Esto es especialmente cierto para una red de decisión bayesiana.
Enfoque clásico
El enfoque clásico de este problema es el algoritmo de maximización de expectativas, que alterna el cálculo de los valores esperados de las variables no observadas dependientes de los datos observados con la maximización de la probabilidad total (o valor posterior), asumiendo que los valores esperados previamente calculados los valores son correctos. En condiciones de regularidad moderada, este proceso converge en los valores máximos (o máximos a posteriori) de los parámetros.
Un enfoque bayesiano más completo de los parámetros es tratarlos como variables no observadas adicionales y calcular la distribución posterior completa sobre todos los nodos dados los datos observados, y luego integrar los parámetros. Este enfoque puede ser costoso y dar como resultado modelos grandes, lo que hace que los enfoques clásicos de ajuste de parámetros sean más accesibles.
En el caso más simple, un experto define una red bayesiana y luego se utiliza para realizar inferencias. En otras aplicaciones, la tarea de determinar es demasiado difícil para un ser humano. En este caso, la estructura de la red neuronal bayesiana y los parámetros de las distribuciones locales deben aprenderse entre los datos.
Método alternativo
Un método alternativo de aprendizaje estructurado utiliza la búsqueda de optimización. Esto requiere la aplicación de una función de evaluación y una estrategia de búsqueda. Un algoritmo de puntuación común es la probabilidad posterior de una estructura dados datos de entrenamiento como BIC o BDeu.
El tiempo necesario para una búsqueda exhaustiva que devuelva una estructura que maximice la puntuación es superexponencial en el número de variables. La estrategia de búsqueda local realiza cambios incrementales para mejorar la estimación de la estructura. Friedman y sus colegas consideraron usar información mutua entre variables para encontrar la estructura deseada. Restringen el conjunto de candidatos principales a k nodos y los buscan a fondo.
Un método particularmente rápido para estudiar BN exactamente es imaginar el problema como un problema de optimización y resolverlo usando programación entera. Las restricciones de aciclicidad se agregan al programa entero (IP) durante la solución en forma de planos de corte. Tal método puede manejar problemas de hasta 100 variables.
Resolución de problemas
Para resolver problemas con miles de variables, se necesita un enfoque diferente. Una es elegir primero un orden y luego encontrar la estructura BN óptima con respecto a ese orden. Esto implica trabajar en el espacio de búsqueda del ordenamiento posible, lo cual es conveniente porque es más pequeño que el espacio de estructuras de red. A continuación, se seleccionan y evalúan varios pedidos. Este método resultómejor disponible en la literatura cuando el número de variables es enorme.
Otro método es centrarse en una subclase de modelos descomponibles para los que los MLE están cerrados. Entonces puede encontrar una estructura consistente para cientos de variables.
Es necesario estudiar las redes bayesianas con un ancho limitado de tres líneas para proporcionar una inferencia precisa e interpretable, ya que la complejidad del peor de los casos es exponencial en la longitud del árbol k (según la hipótesis del tiempo exponencial). Sin embargo, como propiedad global del gráfico, aumenta considerablemente la complejidad del proceso de aprendizaje. En este contexto, K-tree se puede utilizar para un aprendizaje eficaz.
Desarrollo
El desarrollo de una red bayesiana de confianza a menudo comienza con la creación de un DAG G tal que X satisface una propiedad local de Markov con respecto a G. A veces, este es un DAG causal. Se estiman las distribuciones de probabilidad condicional de cada variable sobre sus padres en G. En muchos casos, en particular cuando las variables son discretas, si la distribución conjunta de X es el producto de estas distribuciones condicionales, entonces X se convierte en una red bayesiana con respecto a G.
La "manta de nudos" de Markov es un conjunto de nudos. El edredón de Markov independiza el nodo del resto del blanco del nodo con el mismo nombre y es conocimiento suficiente para calcular su distribución. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos, dado su Markovianomanta.