Los métodos de regresión logística y análisis discriminante se utilizan cuando es necesario diferenciar claramente a los encuestados por categorías objetivo. En este caso, los propios grupos están representados por niveles de un parámetro de una sola variante. Echemos un vistazo más de cerca al modelo de regresión logística y descubramos por qué es necesario.
Información general
Un ejemplo de un problema en el que se utiliza la regresión logística es la clasificación de los encuestados en grupos que compran y no compran mostaza. La diferenciación se realiza de acuerdo con las características sociodemográficas. Estos incluyen, en particular, la edad, el sexo, el número de familiares, los ingresos, etc. En las operaciones, existen criterios de diferenciación y una variable. Este último codifica las categorías objetivo en las que, de hecho, se debería dividir a los encuestados.
Matices
Debe decirse que el rango de casos en los que se aplica la regresión logística es mucho más estrecho que para el análisis discriminante. En este sentido, se considera el uso de este último como método universal de diferenciación.más preferido. Además, los expertos recomiendan comenzar los estudios de clasificación con análisis discriminante. Y solo en caso de incertidumbre sobre los resultados, puede usar la regresión logística. Esta necesidad se debe a varios factores. La regresión logística se usa cuando hay una comprensión clara del tipo de variables independientes y dependientes. En consecuencia, se selecciona uno de los 3 procedimientos posibles. En el análisis discriminante, el investigador siempre trata con una operación estática. Se trata de una variable categórica dependiente y varias independientes con cualquier tipo de escala.
Vistas
La tarea de un estudio estadístico que usa la regresión logística es determinar la probabilidad de que un encuestado en particular sea asignado a un grupo en particular. La diferenciación se lleva a cabo de acuerdo con ciertos parámetros. En la práctica, según los valores de uno o más factores independientes, es posible clasificar a los encuestados en dos grupos. En este caso, se lleva a cabo una regresión logística binaria. Además, los parámetros especificados se pueden utilizar al dividir en grupos de más de dos. En tal situación, se lleva a cabo una regresión logística multinomial. Los grupos resultantes se expresan en niveles de una sola variable.
Ejemplo
Digamos que hay respuestas de los encuestados a la pregunta de si están interesados en la oferta de compra de un terreno en las afueras de Moscú. Las opciones son "no"y si. Es necesario averiguar qué factores tienen una influencia predominante en la decisión de los compradores potenciales. Para ello, se formulan preguntas a los encuestados sobre la infraestructura del territorio, la distancia a la capital, el área del sitio, la presencia/ausencia de un edificio residencial, etc. Usando la regresión binaria, es posible distribuir los encuestados en dos grupos. El primero incluirá a aquellos que estén interesados en la adquisición: compradores potenciales, y el segundo, respectivamente, aquellos que no estén interesados en dicha oferta. Para cada encuestado, además, se calculará la probabilidad de ser asignado a una u otra categoría.
Características comparativas
La diferencia con las dos opciones anteriores es el diferente número de grupos y el tipo de variables dependientes e independientes. En la regresión binaria, por ejemplo, se estudia la dependencia de un factor dicotómico de una o más condiciones independientes. Además, estos últimos pueden tener cualquier tipo de escala. La regresión multinomial se considera una variación de esta opción de clasificación. En ella, más de 2 grupos pertenecen a la variable dependiente. Los factores independientes deben tener una escala ordinal o nominal.
Regresión logística en spss
En el paquete estadístico 11-12 se introdujo una nueva versión de análisis - ordinal. Este método se utiliza cuando el factor dependiente pertenece a la escala del mismo nombre (ordinal). En este caso, las variables independientes se seleccionan de un tipo específico. Deben ser ordinales o nominales. La clasificación en varias categorías se considera la másuniversal. Este método se puede utilizar en todos los estudios que utilizan la regresión logística. Sin embargo, la única forma de mejorar la calidad de un modelo es utilizar las tres técnicas.
Clasificación ordinal
Cabe decir que anteriormente en el paquete estadístico no existía la posibilidad típica de realizar un análisis especializado para factores dependientes con una escala ordinal. Para todas las variables con más de 2 grupos se utilizó la variante multinominal. El análisis ordinal introducido relativamente recientemente tiene una serie de características. Tienen en cuenta las especificidades de la escala. Mientras tanto, en los materiales didácticos, la regresión logística ordinal a menudo no se considera como una técnica separada. Esto se debe a lo siguiente: el análisis ordinal no tiene ventajas significativas sobre el multinomial. El investigador bien puede usar este último en presencia de una variable dependiente tanto ordinal como nominal. Al mismo tiempo, los procesos de clasificación en sí mismos casi no difieren entre sí. Esto significa que realizar un análisis ordinal no causará ninguna dificultad.
Opción de análisis
Consideremos un caso simple: regresión binaria. Suponga que, en el proceso de investigación de mercados, se evalúa la demanda de graduados de cierta universidad metropolitana. En el cuestionario, a los encuestados se les hicieron preguntas, entre ellas:
- ¿Está empleado? (ql).
- Ingrese el año de graduación (q 21).
- ¿Cuál es el promedio?puntaje de graduación (promedio).
- Sexo (q22).
La regresión logística evaluará el impacto de los factores independientes aver, q 21 yq 22 sobre la variable ql. En pocas palabras, el propósito del análisis será determinar el empleo probable de los graduados en función de la información sobre el campo, el año de graduación y el GPA.
Regresión logística
Para configurar los parámetros usando la regresión binaria, use el menú Analizar ► Regresión ► Logística binaria. En la ventana Regresión logística, seleccione el factor dependiente de la lista de variables disponibles a la izquierda. es ql. Esta variable debe colocarse en el campo Dependiente. Después de eso, es necesario introducir factores independientes en el gráfico de Covariables - q 21, q 22, aver. Luego debe elegir cómo incluirlos en su análisis. Si el número de factores independientes es superior a 2, se utiliza el método de introducción simultánea de todas las variables, que se establece de forma predeterminada, pero paso a paso. La forma más popular es Hacia atrás: LR. Con el botón Seleccionar, puede incluir en el estudio no a todos los encuestados, sino solo a una categoría objetivo específica.
Definir variables categóricas
El botón Categórico debe usarse cuando una de las variables independientes es nominal con más de 2 categorías. En esta situación, en la ventana Definir variables categóricas, dicho parámetro se coloca en la sección Covariables categóricas. En este ejemplo, no existe tal variable. Después de eso, en la lista desplegable Contraste sigueseleccione el elemento Desviación y presione el botón Cambiar. Como resultado, se formarán varias variables dependientes a partir de cada factor nominal. Su número corresponde al número de categorías de la condición inicial.
Guardar nuevas variables
Usando el botón Guardar en el cuadro de diálogo principal del estudio, se configura la creación de nuevos parámetros. Contendrá los indicadores calculados en el proceso de regresión. En particular, puede crear variables que definan:
- Pertenecer a una categoría de clasificación específica (Membresía de grupo).
- Probabilidad de asignar un encuestado a cada grupo de estudio (Probabilidades).
Al usar el botón Opciones, el investigador no obtiene opciones significativas. En consecuencia, se puede ignorar. Después de hacer clic en el botón "Aceptar", los resultados del análisis se mostrarán en la ventana principal.
Control de calidad para adecuación y regresión logística
Considere la tabla Pruebas ómnibus de coeficientes del modelo. Muestra los resultados del análisis de la calidad de la aproximación del modelo. Debido al hecho de que se configuró una opción paso a paso, debe ver los resultados de la última etapa (Paso 2). Se considerará un resultado positivo si se encuentra un aumento en el indicador Chi-cuadrado al pasar a la siguiente etapa con un alto grado de significancia (Sig. < 0.05). La calidad del modelo se evalúa en la línea Modelo. Si se obtiene un valor negativo, pero no se considera significativo con la alta materialidad global del modelo, el últimopuede considerarse prácticamente adecuado.
Mesas
Model Summary permite estimar el índice de varianza total, que es descrito por el modelo construido (índice R Square). Se recomienda utilizar el valor de Nagelker. El parámetro Nagelkerke R Square puede considerarse un indicador positivo si está por encima de 0,50. Posteriormente, se evalúan los resultados de la clasificación, en la que se comparan los indicadores reales de pertenencia a una u otra categoría en estudio con los predichos con base en el modelo de regresión. Para ello se utiliza la Tabla de Clasificación. También nos permite sacar conclusiones sobre la corrección de la diferenciación para cada grupo bajo consideración.
La siguiente tabla brinda la oportunidad de averiguar la importancia estadística de los factores independientes ingresados en el análisis, así como también cada coeficiente de regresión logística no estandarizado. Con base en estos indicadores, es posible predecir la pertenencia de cada encuestado de la muestra a un grupo en particular. Usando el botón Guardar, puede ingresar nuevas variables. Contendrán información sobre la pertenencia a una determinada categoría de clasificación (Categoría prevista) y la probabilidad de ser incluido en estos grupos (Probabilidades previstas de pertenencia). Después de hacer clic en "Aceptar", los resultados del cálculo aparecerán en la ventana principal de Regresión logística multinomial.
La primera tabla, que contiene indicadores importantes para el investigador, es Información de ajuste del modelo. Un alto nivel de significación estadística indicaría alta calidad yidoneidad del uso del modelo en la resolución de problemas prácticos. Otra tabla significativa es Pseudo R-Square. Le permite estimar la proporción de la varianza total en el factor dependiente, que está determinada por las variables independientes seleccionadas para el análisis. De acuerdo con la tabla de Pruebas de Razón de Verosimilitud, podemos sacar conclusiones sobre la significación estadística de estas últimas. Las estimaciones de parámetros reflejan coeficientes no estandarizados. Se utilizan en la construcción de la ecuación. Además, para cada combinación de variables se determinó la significancia estadística de su impacto en el factor dependiente. Mientras tanto, en la investigación de mercados, a menudo se vuelve necesario diferenciar a los encuestados por categoría, no individualmente, sino como parte del grupo objetivo. Para ello se utiliza la tabla de Frecuencias Observadas y Pronosticadas.
Aplicación práctica
El método de análisis considerado es ampliamente utilizado en el trabajo de los comerciantes. En 1991, se desarrolló el indicador de regresión logística sigmoidea. Es una herramienta eficaz y fácil de usar para predecir precios probables antes de que se "sobrecalienten". El indicador se muestra en el gráfico como un canal formado por dos líneas paralelas. Están igualmente separados de la tendencia. El ancho del corredor dependerá únicamente del marco de tiempo. El indicador se utiliza cuando se trabaja con casi todos los activos, desde pares de divisas hasta metales preciosos.
En la práctica, se han desarrollado 2 estrategias clave para usar el instrumento: para ruptura ypor un turno En este último caso, el comerciante se centrará en la dinámica de los cambios de precios dentro del canal. A medida que el valor se acerca a la línea de soporte o resistencia, se apuesta a la probabilidad de que el movimiento comience en la dirección opuesta. Si el precio se acerca al borde superior, puede deshacerse del activo. Si está en el límite inferior, entonces debería pensar en comprar. La estrategia de ruptura implica el uso de órdenes. Se instalan fuera de los límites a una distancia relativamente pequeña. Teniendo en cuenta que el precio en algunos casos los viola por un corto tiempo, debe ir a lo seguro y establecer stop loss. Al mismo tiempo, por supuesto, independientemente de la estrategia elegida, el comerciante debe percibir y evaluar la situación que ha surgido en el mercado con la mayor calma posible.
Conclusión
Por lo tanto, el uso de la regresión logística le permite clasificar rápida y fácilmente a los encuestados en categorías de acuerdo con los parámetros dados. Al analizar, puede utilizar cualquier método en particular. En particular, la regresión multinomial es universal. Sin embargo, los expertos recomiendan usar todos los métodos descritos anteriormente en combinación. Esto se debe al hecho de que, en este caso, la calidad del modelo será significativamente mayor. Esto, a su vez, ampliará el rango de su aplicación.