La escala multivariante (MDS) es una herramienta para visualizar el nivel de similitud de casos individuales en un conjunto de datos. Se refiere a un conjunto de métodos de ordenación relacionados utilizados en la visualización de información, en particular para mostrar la información contenida en una matriz de distancia. Esta es una forma de reducción de dimensionalidad no lineal. El algoritmo MDS tiene como objetivo colocar cada objeto en un espacio N-dimensional de tal manera que las distancias entre los objetos se conserven lo mejor posible. A cada objeto se le asignan coordenadas en cada una de las N dimensiones.
El número de dimensiones del gráfico MDS puede ser superior a 2 y se especifica a priori. Seleccionar N=2 optimiza la colocación de objetos para el diagrama de dispersión 2D. Puede ver ejemplos de escalado multidimensional en las imágenes del artículo. Los ejemplos con símbolos en ruso son especialmente ilustrativos.
Esencia
Método de escalado multidimensional (MMS,MDS) es un conjunto extendido de herramientas clásicas que generaliza el procedimiento de optimización para un conjunto de funciones de pérdida y matrices de entrada de distancias conocidas con pesos, etc. En este contexto, una función de pérdida útil se denomina estrés, que a menudo se minimiza mediante un procedimiento llamado mayorización del estrés.
Manual
Hay varias opciones para el escalado multidimensional. Los programas MDS minimizan automáticamente la carga para obtener una solución. El núcleo del algoritmo MDS no métrico es un proceso de optimización doble. Primero, se debe encontrar la transformación de proximidad monótona óptima. En segundo lugar, los puntos de configuración deben colocarse de manera óptima para que sus distancias coincidan lo más posible con los valores de proximidad escalados.
Expansión
Una extensión del escalado multidimensional métrico en estadística donde el espacio de destino es un espacio no euclidiano uniforme arbitrario. Donde las diferencias son distancias en una superficie y el espacio de destino es una superficie diferente. Los programas temáticos le permiten encontrar un archivo adjunto con una distorsión mínima de una superficie a otra.
Pasos
Hay varios pasos para llevar a cabo un estudio utilizando escalas multivariadas:
- Formulación del problema. ¿Qué variables quieres comparar? ¿Cuántas variables quieres comparar? ¿Con qué propósito se utilizará el estudio?
- Obteniendo datos de entrada. A los encuestados se les hace una serie de preguntas. Para cada par de productos, se les pide que califiquen la similitud (generalmente en una escala Likert de 7 puntos desde muy similar a muy diferente). La primera pregunta podría ser para Coca-Cola/Pepsi, por ejemplo, la siguiente para cerveza, la siguiente para Dr. Pepper, etc. El número de preguntas depende del número de marcas.
Enfoques alternativos
Hay otros dos enfoques. Existe una técnica llamada "Datos perceptuales: enfoque derivado" en la que los productos se descomponen en atributos y la evaluación se realiza en una escala diferencial semántica. Otro método es el "enfoque de datos de preferencias", en el que se pregunta a los encuestados sobre las preferencias en lugar de las similitudes.
Consta de los siguientes pasos:
- Lanzamiento del programa estadístico MDS. El software para realizar el procedimiento está disponible en muchos paquetes de software estadístico. A menudo se puede elegir entre MDS métrico (que se ocupa de datos a nivel de intervalo o razón) y MDS no métrico (que se ocupa de datos ordinales).
- Determinación del número de mediciones. El investigador debe determinar el número de medidas que quiere crear en la computadora. Cuantas más mediciones, mejor será el ajuste estadístico, pero más difícil será interpretar los resultados.
- Mostrar resultados y definir mediciones - el programa estadístico (o módulo relacionado) mostrará los resultados. El mapa mostrará cada producto (generalmente en 2D).espacio). La proximidad de los productos entre sí indica su similitud o preferencia, según el enfoque utilizado. Sin embargo, no siempre está claro cómo las mediciones se corresponden realmente con las mediciones del comportamiento del sistema. Aquí se puede hacer un juicio subjetivo de conformidad.
- Comprobar la fiabilidad y la validez de los resultados: calcular R-cuadrado para determinar la proporción de la varianza de los datos escalados que puede tener en cuenta el procedimiento MDS. Square R 0.6 se considera el nivel mínimo aceptable. R cuadrado 0,8 se considera bueno para el escalado métrico, mientras que 0,9 se considera bueno para el escalado no métrico.
Varias pruebas
Otras pruebas posibles son las pruebas de estrés de tipo Kruskal, las pruebas de datos divididos, las pruebas de estabilidad de datos y las pruebas de confiabilidad de reevaluación. Escriba en detalle sobre los resultados en la prueba. Junto con el mapeo, se debe especificar al menos una medida de distancia (p. ej., índice de Sorenson, índice de Jaccard) y confiabilidad (p. ej., valor de tensión).
También es muy recomendable dar un algoritmo (por ejemplo, Kruskal, Mather) que a menudo está determinado por el programa utilizado (a veces reemplazando el informe del algoritmo), si ha dado una configuración inicial o tuvo una elección aleatoria, número de ejecuciones de dimensión, resultados de Monte Carlo, número de iteraciones, puntuación de estabilidad y varianza proporcional de cada eje (r-cuadrado).
Información visual y método de análisis de datosescalamiento multidimensional
La visualización de información es el estudio de representaciones interactivas (visuales) de datos abstractos para mejorar la cognición humana. Los datos abstractos incluyen tanto datos numéricos como no numéricos, como información textual y geográfica. Sin embargo, la visualización de información difiere de la visualización científica: “es informacional (visualización de información) cuando se elige una representación espacial, y scivis (visualización científica) cuando se da una representación espacial”.
El campo de la visualización de información surgió de la investigación en la interacción humano-computadora, las aplicaciones informáticas, los gráficos, el diseño visual, la psicología y los métodos comerciales. Se utiliza cada vez más como un componente esencial en la investigación científica, las bibliotecas digitales, la extracción de datos, los datos financieros, la investigación de mercado, el control de la producción, etc.
Métodos y principios
La visualización de información sugiere que los métodos de visualización e interacción aprovechan la riqueza de la percepción humana, lo que permite a los usuarios ver, explorar y comprender simultáneamente grandes cantidades de información. La visualización de información tiene como objetivo crear enfoques para comunicar datos abstractos, información de una manera intuitiva.
El análisis de datos es una parte integral de toda la investigación aplicada y la resolución de problemas en la industria. La mayoríaLos enfoques fundamentales para el análisis de datos son la visualización (histogramas, diagramas de dispersión, diagramas de superficie, mapas de árboles, diagramas de coordenadas paralelas, etc.), estadística (prueba de hipótesis, regresión, PCA, etc.), análisis de datos (coincidencia, etc.)..d.) y métodos de aprendizaje automático (agrupación, clasificación, árboles de decisión, etc.).
Entre estos enfoques, la visualización de información o el análisis de datos visuales es el que más depende de las habilidades cognitivas del personal analítico y permite el descubrimiento de conocimientos procesables no estructurados que solo están limitados por la imaginación y la creatividad humanas. Un analista no necesita aprender ninguna técnica compleja para poder interpretar las visualizaciones de datos. La visualización de información también es un esquema de generación de hipótesis que puede ir acompañado de un análisis más analítico o formal, como la prueba de hipótesis estadística.
Estudiar
El estudio moderno de la visualización comenzó con los gráficos por computadora, que "desde el principio se utilizaron para estudiar problemas científicos. Sin embargo, en los primeros años, la f alta de potencia de los gráficos a menudo limitaba su utilidad. La prioridad en la visualización comenzó a desarrollarse en 1987, con el lanzamiento de un software especial para gráficos por computadora y visualización en computación científica. Desde entonces, ha habido varias conferencias y talleres organizados conjuntamente por IEEE Computer Society y ACM SIGGRAPH".
Cubrieron los temas generales de visualización de datos, visualización de información y visualización científica,así como áreas más específicas como la representación de volumen.
Resumen
El escalamiento multidimensional generalizado (GMDS) es una extensión del escalamiento multidimensional métrico en el que el espacio de destino no es euclidiano. Cuando las diferencias son distancias en una superficie y el espacio de destino es otra superficie, GMDS le permite encontrar la anidación de una superficie en otra con una distorsión mínima.
GMDS es una nueva línea de investigación. Actualmente, las principales aplicaciones son el reconocimiento de objetos deformables (por ejemplo, para el reconocimiento de rostros en 3D) y el mapeo de texturas.
El propósito del escalado multidimensional es representar datos multidimensionales. Los datos multidimensionales, es decir, los datos que requieren más de dos o tres dimensiones para ser representados, pueden ser difíciles de interpretar. Un enfoque para la simplificación es asumir que los datos de interés se encuentran en una variedad no lineal incrustada en un espacio de alta dimensión. Si el colector tiene una dimensión lo suficientemente baja, los datos se pueden visualizar en un espacio de baja dimensión.
Muchos de los métodos de reducción de dimensionalidad no lineales están relacionados con los métodos lineales. Los métodos no lineales se pueden clasificar en términos generales en dos grupos: los que proporcionan mapeo (ya sea desde un espacio de alta dimensión a una incrustación de baja dimensión, o viceversa) y aquellos que simplemente proporcionan visualización. En el contexto del aprendizaje automático, los métodos de mapeo pueden verse comouna etapa preliminar de extracción de características, después de la cual se aplican algoritmos de reconocimiento de patrones. Por lo general, aquellos que solo brindan visualizaciones se basan en datos de proximidad, es decir, mediciones de distancia. El escalado multidimensional también es bastante común en psicología y otras humanidades.
Si el número de atributos es grande, entonces el espacio de posibles cadenas únicas también es exponencialmente grande. Por lo tanto, cuanto mayor sea la dimensión, más difícil será representar el espacio. Esto causa muchos problemas. Los algoritmos que operan con datos de alta dimensión tienden a tener una complejidad de tiempo muy alta. Reducir los datos a menos dimensiones a menudo hace que los algoritmos de análisis sean más eficientes y puede ayudar a los algoritmos de aprendizaje automático a hacer predicciones más precisas. Esta es la razón por la que el escalado de datos multidimensionales es tan popular.