Modelización estadística: métodos, descripción, aplicación

Tabla de contenido:

Modelización estadística: métodos, descripción, aplicación
Modelización estadística: métodos, descripción, aplicación
Anonim

Los supuestos incorporados en el modelado estadístico describen un conjunto de distribuciones de probabilidad, algunas de las cuales se supone que se aproximan adecuadamente a la distribución. Se selecciona un conjunto específico de datos de la definición. Las distribuciones de probabilidad inherentes a los modelos estadísticos son lo que distingue a los modelos estadísticos de otros modelos matemáticos no estadísticos.

Image
Image

Conexión con las matemáticas

Este método científico tiene sus raíces principalmente en las matemáticas. El modelado estadístico de los sistemas suele estar dado por ecuaciones matemáticas que relacionan una o más variables aleatorias y posiblemente otras variables no aleatorias. Así, un modelo estadístico es una "representación formal de una teoría" (Hermann Ader, citando a Kenneth Bollen).

Todas las pruebas de hipótesis estadísticas y todas las estimaciones estadísticas se derivan de modelos estadísticos. En términos más generales, los modelos estadísticos forman parte de la base de la inferencia estadística.

Métodos de estadísticamodelado

Informalmente, un modelo estadístico puede considerarse como una suposición estadística (o un conjunto de suposiciones estadísticas) con una determinada propiedad: esta suposición nos permite calcular la probabilidad de cualquier evento. Como ejemplo, considere un par de dados ordinarios de seis caras. Estudiaremos dos supuestos estadísticos diferentes sobre el hueso.

La primera suposición estadística constituye el modelo estadístico, ya que con una sola suposición podemos calcular la probabilidad de cualquier evento. El supuesto estadístico alternativo no constituye un modelo estadístico, porque con un solo supuesto no podemos calcular la probabilidad de cada evento.

Modelo estadístico típico
Modelo estadístico típico

En el ejemplo anterior con la primera suposición, es fácil calcular la probabilidad de un evento. Sin embargo, en algunos otros ejemplos, el cálculo puede ser complejo o incluso poco práctico (por ejemplo, puede requerir millones de años de cálculo). Para el supuesto que constituye un modelo estadístico, esta dificultad es aceptable: realizar el cálculo no tiene que ser factible en la práctica, solo teóricamente posible.

Ejemplos de modelos

Supongamos que tenemos una población de escolares con niños distribuidos uniformemente. La altura de un niño estará estocásticamente relacionada con la edad: por ejemplo, cuando sabemos que un niño tiene 7 años, esto afecta la probabilidad de que el niño mida 5 pies de altura (unos 152 cm). Podríamos formalizar esta relación en un modelo de regresión lineal, por ejemplo: crecimiento=b0 + b1agei+ εi, donde b0 es la intersección, b1 es el parámetro por el cual se multiplica la edad al obtener el pronóstico de crecimiento, εi es el término de error. Esto implica que la edad predice la altura con algún error.

Un modelo válido debe coincidir con todos los puntos de datos. Por lo tanto, una línea recta (heighti=b0 + b1agei) no puede ser una ecuación para un modelo de datos, a menos que se ajuste exactamente a todos los puntos de datos, es decir, todos los puntos de datos se encuentran perfectamente en la línea. El término de error εi debe incluirse en la ecuación para que el modelo se ajuste a todos los puntos de datos.

estadísticas de género
estadísticas de género

Para hacer una inferencia estadística, primero debemos asumir algunas distribuciones de probabilidad para εi. Por ejemplo, podemos suponer que las distribuciones de εi son gaussianas, con media cero. En este caso, el modelo tendrá 3 parámetros: b0, b1 y la varianza de la distribución Gaussiana.

Descripción general

Un modelo estadístico es una clase especial de modelo matemático. Lo que distingue a un modelo estadístico de otros modelos matemáticos es que no es determinista. Se utiliza para modelar datos estadísticos. Así, en un modelo estadístico definido con ecuaciones matemáticas, algunas variables no tienen valores específicos, sino que tienen distribuciones de probabilidad; es decir, algunas variables son estocásticas. En el ejemplo anterior, ε es una variable estocástica; sin esta variable, el modelo fuesería determinista.

Los modelos estadísticos se utilizan a menudo en el análisis y modelado estadístico, incluso si el proceso físico que se modela es determinista. Por ejemplo, lanzar monedas al aire es en principio un proceso determinista; sin embargo, generalmente se modela como estocástico (a través de un proceso de Bernoulli).

estadísticas de calentamiento
estadísticas de calentamiento

Modelos paramétricos

Los modelos paramétricos son los modelos estadísticos más utilizados. Con respecto a los modelos semiparamétricos y no paramétricos, Sir David Cox dijo: "Por lo general, incluyen menos suposiciones sobre la estructura y la forma de la distribución, pero generalmente contienen fuertes suposiciones de independencia". Como todos los demás modelos mencionados, también se utilizan a menudo en el método estadístico de modelado matemático.

Modelos multinivel

Los modelos multinivel (también conocidos como modelos lineales jerárquicos, modelos de datos anidados, modelos mixtos, coeficientes aleatorios, modelos de efectos aleatorios, modelos de parámetros aleatorios o modelos particionados) son modelos de parámetros estadísticos que varían en más de un nivel. Un ejemplo es un modelo de rendimiento de los estudiantes que contiene métricas para estudiantes individuales, así como métricas para las aulas en las que se agrupan los estudiantes. Estos modelos pueden considerarse como generalizaciones de modelos lineales (en particular, regresión lineal), aunque también pueden extenderse a modelos no lineales. Estos modelos se han convertidomucho más popular una vez que se dispuso de suficiente potencia informática y software.

Estadísticas del segmento
Estadísticas del segmento

Los modelos multinivel son especialmente adecuados para proyectos de investigación en los que los datos de los participantes se organizan en más de un nivel (es decir, datos anidados). Las unidades de análisis suelen ser individuos (en un nivel inferior) que están anidados dentro de unidades de contexto/agregadas (en un nivel superior). Si bien el nivel más bajo de datos en los modelos multinivel suele ser individual, también se pueden considerar mediciones repetidas de individuos. Por lo tanto, los modelos multinivel proporcionan un tipo de análisis alternativo para el análisis de medidas repetidas univariadas o multivariadas. Se pueden considerar las diferencias individuales en las curvas de crecimiento. Además, los modelos multinivel se pueden usar como una alternativa a ANCOVA, donde las puntuaciones de las variables dependientes se ajustan por covariables (p. ej., diferencias individuales) antes de probar las diferencias de tratamiento. Los modelos multinivel pueden analizar estos experimentos sin la suposición de pendientes de regresión uniformes requeridas por ANCOVA.

Los modelos multinivel se pueden usar para datos con muchos niveles, aunque los modelos de dos niveles son los más comunes y el resto de este artículo se centra en ellos. La variable dependiente debe examinarse en el nivel más bajo de análisis.

Gráfico de presión atmosférica
Gráfico de presión atmosférica

Selección de modelo

Selección de modeloes la tarea de seleccionar de un conjunto de modelos candidatos dados los datos, llevada a cabo en el marco de la modelización estadística. En los casos más simples, se considera un conjunto de datos ya existente. Sin embargo, la tarea también puede implicar el diseño de experimentos para que los datos recopilados se adapten bien a la tarea de selección del modelo. Dados los modelos candidatos con un poder predictivo o explicativo similar, es probable que el modelo más simple sea la mejor opción (la navaja de Occam).

Konishi & Kitagawa dice: "La mayoría de los problemas de inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico". De manera similar, Cox dijo: "La forma en que se realiza la traducción del tema en el modelo estadístico es a menudo la parte más importante del análisis".

La selección de modelos también puede referirse al problema de seleccionar algunos modelos representativos de un gran conjunto de modelos computacionales para tomar decisiones u optimizar bajo incertidumbre.

Patrones gráficos

Modelo gráfico, o modelo gráfico probabilístico, (PGM) o modelo probabilístico estructurado, es un modelo probabilístico para el cual el gráfico expresa la estructura de una relación condicional entre variables aleatorias. Se usan comúnmente en la teoría de la probabilidad, las estadísticas (especialmente las estadísticas bayesianas) y el aprendizaje automático.

Modelo estadístico con un gráfico
Modelo estadístico con un gráfico

Modelos econométricos

Los modelos econométricos son modelos estadísticos utilizados eneconometría. Un modelo econométrico define las relaciones estadísticas que se cree que existen entre varias cantidades económicas relacionadas con un fenómeno económico particular. Un modelo econométrico puede derivarse de un modelo económico determinista que tiene en cuenta la incertidumbre, o de un modelo económico que es en sí mismo estocástico. Sin embargo, también es posible utilizar modelos econométricos que no estén vinculados a ninguna teoría económica en particular.

Recomendado: