A lo largo de la historia de la estadística, se han hecho varios intentos para crear una taxonomía de niveles de medición. El psicofísico Stanley Smith Stevens definió las escalas nominal, ordinal, de intervalo y proporcional.
Las medidas nominales no tienen un orden significativo de rangos entre los valores y permiten cualquier conversión uno a uno.
Las dimensiones regulares tienen diferencias inexactas entre valores consecutivos, pero tienen un orden específico de esos valores y permiten cualquier transformación que preserve el orden.
Las mediciones de intervalo tienen distancias significativas entre puntos, pero el valor cero es arbitrario (como en el caso de las mediciones de longitud y temperatura en Celsius o Fahrenheit) y permite cualquier transformación lineal.
Las dimensiones de proporción tienen tanto un valor cero significativo como distancias entre diferentes dimensiones, y permiten cualquier transformación de escala.
Variables y clasificación de la información
Porque las variablescorrespondientes solo a medidas nominales u ordinales no pueden medirse numéricamente de manera razonable y, a veces, se agrupan como variables categóricas. Las medidas de razón e intervalo se agrupan como variables cuantitativas, que pueden ser discretas o continuas debido a su naturaleza numérica. Tales distinciones a menudo están vagamente relacionadas con el tipo de datos en informática, ya que las variables categóricas dicotómicas se pueden representar mediante valores booleanos, variables categóricas politómicas con números enteros arbitrarios en un tipo de datos integral y variables continuas con componentes reales que involucran el cálculo de punto flotante. Pero la visualización de los tipos de datos de información estadística depende de la clasificación que se aplique.
Otras clasificaciones
También se han creado otras clasificaciones de datos estadísticos (información). Por ejemplo, Mosteller y Tukey distinguieron entre grados, rangos, acciones contadas, conteos, montos y saldos. Nelder en un momento describió conteos continuos, proporciones continuas, correlación de conteos y formas categóricas de comunicar datos. Todos estos métodos de clasificación se utilizan en la recopilación de información estadística.
Problemas
La cuestión de si es apropiado aplicar diferentes tipos de métodos estadísticos a los datos obtenidos a través de diferentes procedimientos de medición (recopilación) se complica por problemas relacionados con la conversión de variables y la interpretación precisa de las preguntasinvestigar. “La relación entre los datos y lo que describen simplemente refleja el hecho de que ciertos tipos de declaraciones estadísticas pueden tener valores de verdad que no son invariantes bajo ciertas transformaciones. Si vale la pena considerar la transformación depende de la pregunta que esté tratando de responder.
Qué es un tipo de datos
El tipo de datos es un componente fundamental del contenido semántico de una variable y controla qué tipos de distribuciones de probabilidad se pueden usar lógicamente para describir la variable, las operaciones permitidas en ella, el tipo de análisis de regresión usado para predecirla, etc. El concepto de un tipo de datos es similar al concepto de nivel de medición, pero más específico; por ejemplo, los recuentos de datos requieren una distribución diferente (Poisson o binomial) que para los valores reales no negativos, pero ambos caen bajo la misma distribución. nivel de medición (escala de coeficiente).
Escalas
Se han hecho varios intentos para crear una taxonomía de niveles de medición para el procesamiento de información estadística. El psicofísico Stanley Smith Stevens definió escalas nominales, ordinales, de intervalo y proporcionales. Las medidas nominales no tienen un orden significativo de rangos entre los valores y permiten cualquier conversión uno a uno. Las mediciones ordinarias tienen diferencias imprecisas entre valores sucesivos, pero difieren en el orden significativo de esos valores y permitencualquier transformación que preserve el orden. Las mediciones de intervalo tienen distancias significativas entre las mediciones, pero el valor cero es arbitrario (como en el caso de las mediciones de temperatura y longitud en Celsius o Fahrenheit) y permite cualquier transformación lineal. Las dimensiones de relación tienen un valor cero significativo y distancias entre diferentes dimensiones definidas, y permiten cualquier transformación de escala.
Los datos que no se pueden describir con un solo número a menudo se incluyen en vectores aleatorios de variables aleatorias reales, aunque existe una tendencia creciente a procesarlos usted mismo. Dichos ejemplos se discutirán a continuación.
Vectores aleatorios
Los elementos individuales pueden o no estar correlacionados. Ejemplos de distribuciones utilizadas para describir vectores aleatorios correlacionados son la distribución normal multivariante y la distribución t multivariante. En general, puede haber correlaciones arbitrarias entre cualquier elemento, sin embargo, esto a menudo se vuelve inmanejable por encima de un cierto tamaño, lo que requiere restricciones adicionales en los componentes correlacionados.
Matrices aleatorias
Las matrices aleatorias pueden organizarse linealmente y tratarse como vectores aleatorios, sin embargo, esta puede no ser una forma eficiente de representar correlaciones entre diferentes elementos. Algunas distribuciones de probabilidad están diseñadas específicamente para matrices aleatorias, como la matriz normaldistribución y distribución de Wishart.
Secuencias aleatorias
A veces se les considera lo mismo que vectores aleatorios, pero en otros casos el término se aplica específicamente a casos en los que cada variable aleatoria se correlaciona solo con variables cercanas (como en un modelo de Markov). Este es un caso especial de la red bayesiana y se usa para secuencias muy largas, como cadenas de genes o documentos de texto largos. Varios modelos están especialmente diseñados para este tipo de secuencias, como las secuencias ocultas de Markov.
Procesos aleatorios
Son similares a las secuencias aleatorias, pero solo cuando la longitud de la secuencia es indefinida o infinita, y los elementos de la secuencia se procesan uno por uno. Esto se usa a menudo para datos que pueden describirse como series temporales. Esto es cierto cuando se trata, por ejemplo, del precio de las acciones al día siguiente.
Conclusión
El análisis de la información estadística depende enteramente de la calidad de su recopilación. Este último, a su vez, está fuertemente relacionado con las posibilidades de su clasificación. Por supuesto, existen muchos tipos de clasificación de la información estadística, que el lector podrá comprobar por sí mismo al leer este artículo. No obstante, la presencia de herramientas eficaces y un buen dominio de las matemáticas, así como conocimientos en el campo de la sociología, harán su trabajo, permitiéndole realizar cualquier encuesta o estudio sin correcciones de error significativas. Fuentes de información estadística en formapersonas, organizaciones y otros temas de la sociología, afortunadamente, están representados en gran abundancia. Y ninguna dificultad puede interponerse en el camino de un verdadero explorador.