La Minería de Datos es Concepto, análisis de algoritmos, propósito y aplicación

Tabla de contenido:

La Minería de Datos es Concepto, análisis de algoritmos, propósito y aplicación
La Minería de Datos es Concepto, análisis de algoritmos, propósito y aplicación
Anonim

El desarrollo de la tecnología de la información trae resultados prácticos. Pero tareas como encontrar, analizar y usar información aún no han recibido una herramienta efectiva de alta calidad. Hay herramientas analíticas y cuantitativas, realmente funcionan. Pero aún no se ha producido una revolución cualitativa en el uso de la información.

Mucho antes del advenimiento de la tecnología informática, una persona necesitaba procesar grandes cantidades de información y se las arreglaba con lo mejor de su experiencia y capacidades técnicas disponibles.

El desarrollo de conocimientos y habilidades siempre ha respondido a necesidades reales y correspondido a las tareas actuales. La minería de datos es un nombre colectivo utilizado para referirse a un conjunto de métodos para descubrir conocimientos previamente desconocidos, no triviales, útiles en la práctica y accesibles en los datos, necesarios para tomar decisiones en diversas áreas de la actividad humana.

Humanos, inteligencia, programación

Una persona siempre sabe cómo actuar en cualquier situación. La ignorancia o una situación desconocida no le impiden tomar una decisión. La objetividad y razonabilidad de cualquier decisión humana puede ser cuestionada, pero será aceptada.

La inteligencia se basa en: "mecanismo" hereditario, conocimiento adquirido, activo. El conocimiento se aplica para resolver problemas que se presentan ante una persona.

  1. La inteligencia es un conjunto único de conocimientos y habilidades: oportunidades y base para la vida y el trabajo humanos.
  2. La inteligencia está en constante evolución y las acciones humanas tienen un impacto en otras personas.

La programación es el primer intento de formalizar la representación de datos y el proceso de creación de algoritmos.

Hombre, inteligencia, programación
Hombre, inteligencia, programación

La inteligencia artificial (IA) es una pérdida de tiempo y recursos, pero los resultados de los intentos fallidos del siglo pasado en el campo de la IA quedaron en la memoria, se usaron en varios sistemas expertos (inteligentes) y se transformaron, en particular, en algoritmos (reglas) y análisis de datos matemáticos (lógicos) y minería de datos.

Información y la habitual búsqueda de una solución

Una biblioteca ordinaria es un depósito de conocimiento, y la palabra impresa y los gráficos aún no han cedido la palma a la tecnología informática. Los libros de física, química, mecánica teórica, diseño, historia natural, filosofía, ciencias naturales, botánica, libros de texto, monografías, trabajos de científicos, materiales de conferencias, informes sobre trabajos de desarrollo, etc. son siempre relevantes y fiables.

La biblioteca es una gran cantidad de fuentes diferentes que difierenforma de presentación del material, origen, estructura, contenido, estilo de presentación, etc.

Biblioteca: libros, revistas y otros impresos
Biblioteca: libros, revistas y otros impresos

Exteriormente todo es visible (legible, accesible) para su comprensión y uso. Puede resolver cualquier problema, establecer correctamente la tarea, justificar la solución, escribir un ensayo o trabajo final, seleccionar material para un diploma, analizar fuentes sobre el tema de una disertación o un informe científico y analítico.

Cualquier problema de información se puede resolver. Con la debida perseverancia y habilidad, se obtendrá un resultado preciso y confiable. En este contexto, la minería de datos es un enfoque completamente diferente.

Además del resultado, una persona recibe "enlaces activos" a todo lo que se vio en el proceso de lograr el objetivo. Se puede hacer referencia a las fuentes que utilizó para resolver el problema y nadie disputará el hecho de la existencia de la fuente. Esto no es una garantía de autenticidad, pero es un testimonio seguro de que la responsabilidad de la autenticidad está "desinscrita". Desde este punto de vista, la minería de datos significa grandes dudas sobre la fiabilidad y no hay enlaces "activos".

Al resolver varios problemas, una persona obtiene resultados y expande su potencial intelectual a muchos "vínculos activos". Si una nueva tarea “activa” un vínculo ya existente, la persona sabrá cómo solucionarlo: no es necesario volver a buscar nada.

"Enlace activo" es una asociación fija: cómo y qué hacer en un caso particular. El cerebro humano recuerda automáticamente todo lo que le parece potencialmente interesante, útil.o es probable que se necesiten en el futuro. En muchos sentidos, esto sucede en un nivel subconsciente, pero tan pronto como surge una tarea que se puede asociar con un "enlace activo", aparece instantáneamente en la mente y se obtendrá una solución sin necesidad de buscar información adicional. La minería de datos es siempre una repetición del algoritmo de búsqueda y este algoritmo no cambia.

Búsqueda habitual: problemas "artísticos"

La biblioteca de matemáticas y la búsqueda de información en ella es una tarea relativamente débil. Encontrar una forma u otra de resolver una integral, construir una matriz o realizar la operación de sumar dos números imaginarios es laborioso, pero sencillo. Debe revisar varios libros, muchos de los cuales están escritos en un idioma específico, encontrar el texto correcto, estudiarlo y obtener la solución requerida.

Con el tiempo, la enumeración se volverá familiar y la experiencia acumulada le permitirá navegar por la información de la biblioteca y otros problemas matemáticos. Este es un espacio de información limitado de preguntas y respuestas. Un rasgo característico: tal búsqueda de información acumula conocimiento para resolver problemas similares. La búsqueda de información de una persona deja rastros ("enlaces activos") en su memoria sobre posibles soluciones a otros problemas.

En la ficción, encuentre la respuesta a la pregunta: "¿Cómo vivía la gente en enero de 1248?" muy duro. Es aún más difícil responder a la pregunta de qué había en los estantes de las tiendas y cómo se organizaba el comercio de alimentos. Incluso si algún escritor escribió clara y directamente sobre esto en su novela, si se pudiera encontrar el nombre de este escritor, entonces las dudas sobrela fiabilidad de los datos recibidos permanecerá. La confiabilidad es una característica crítica de cualquier cantidad de información. La fuente, el autor y las pruebas que excluyen la falsedad del resultado son importantes.

Circunstancias objetivas de una situación particular

El hombre ve, oye, siente. Algunos especialistas dominan un sentimiento único: la intuición. El enunciado del problema requiere información, el proceso de resolución del problema suele ir acompañado de un refinamiento del enunciado del problema. Este es el problema menor que surge al trasladar información a las entrañas de un sistema informático.

Información en el espacio virtual
Información en el espacio virtual

La biblioteca y los compañeros de trabajo son participantes indirectos en el proceso de decisión. El diseño del libro (fuente), los gráficos en el texto, las características de dividir la información en encabezados, notas al pie por frases, el índice de materias, la lista de fuentes primarias: todo evoca asociaciones en una persona que indirectamente afectan el proceso de resolución. el problema.

El momento y lugar de solución del problema es fundamental. Una persona está tan dispuesta que involuntariamente presta atención a todo lo que la rodea en el proceso de resolver un problema. Puede ser una distracción o puede ser estimulante. La minería de datos nunca "comprenderá".

Información en espacio virtual

Una persona siempre ha estado interesada solo en información confiable sobre un evento, fenómeno, objeto, algoritmo para resolver un problema. El hombre siempre ha imaginado exactamente cómo puede lograr la meta deseada.

La aparición de las computadoras y los sistemas de información deberían haberle facilitado la vida a una persona, pero todo se ha vuelto más complicado. La información migró a las entrañas de los sistemas informáticos y desapareció de la vista. Para seleccionar los datos necesarios, debe crear un algoritmo correcto o formular una consulta a la base de datos.

Datos dentro del sistema de información
Datos dentro del sistema de información

La pregunta debe ser correcta. Solo así podrás obtener una respuesta. Pero quedan dudas sobre la autenticidad. En este sentido, la Minería de Datos es realmente "excavaciones", es "extracción de información". Así está de moda traducir esta frase. La versión rusa es minería de datos o tecnología de minería de datos.

En los trabajos de especialistas autorizados, las tareas de Data Mining se indican de la siguiente manera:

  • clasificación;
  • agrupamiento;
  • asociación;
  • secuencia;
  • pronóstico.

Desde el punto de vista de la práctica que guía a una persona en el procesamiento manual de la información, todas estas posiciones son discutibles. En cualquier caso, una persona procesa la información automáticamente y no piensa en clasificar datos, compilar grupos temáticos de objetos (clustering), buscar patrones temporales (secuencia) o predecir el resultado.

Todas estas posiciones en la mente humana están representadas por conocimientos activos, que cubren más posiciones y utilizan dinámicamente la lógica de procesamiento de los datos iniciales. El subconsciente de una persona juega un papel importante, especialmente cuando es especialista en un campo particular del conocimiento.

Ejemplo: Venta al por mayor de equipos informáticos

La tarea es simple. Hay variosdecenas de proveedores de equipos informáticos y periféricos. Cada uno tiene una lista de precios en formato xls (archivo Excel), que se puede descargar desde el sitio web oficial del proveedor. Se requiere crear un recurso web que lea archivos de Excel, los convierta en tablas de bases de datos y permita a los clientes seleccionar los productos deseados a los precios más bajos.

Los problemas surgen inmediatamente. Cada proveedor ofrece su propia versión de la estructura y contenido del archivo xls. Puede obtener el archivo descargándolo del sitio web del proveedor, solicitándolo por correo electrónico u obteniendo un enlace de descarga a través de su cuenta personal, es decir, registrándose oficialmente con el proveedor.

Tienda de computadoras virtuales
Tienda de computadoras virtuales

La solución del problema (al principio) es tecnológicamente simple. Al cargar archivos (datos iniciales), se escribe un algoritmo de reconocimiento de archivos para cada proveedor y los datos se colocan en una gran tabla de datos iniciales. Después de que se hayan recibido todos los datos, después de que se haya establecido el mecanismo de intercambio continuo (diario, semanal o al cambiar) de datos nuevos:

  • cambiar surtido;
  • cambios de precios;
  • aclaración de la cantidad en stock;
  • ajuste de los términos de la garantía, especificaciones, etc.

Aquí es donde comienzan los verdaderos problemas. La cosa es que el proveedor puede escribir:

  • portátil Acer;
  • portátil Asus;
  • Portátil Dell.

Estamos hablando del mismo producto, pero de diferentes fabricantes. ¿Cómo hacer coincidir notebook=laptop o cómo eliminar Acer, Asus y Dell de una línea de productos?

Parahumano no es un problema, pero ¿cómo "entenderá" el algoritmo que Acer, Asus, Dell, Samsung, LG, HP, Sony son marcas comerciales o proveedores? ¿Cómo hacer coincidir "impresora" e impresora, "escáner" y "MFP", "copiadora" y "MFP", "auriculares" con "auriculares", "accesorios" con "accesorios"?

Crear un árbol de categorías basado en datos de origen (archivos de origen) ya es un problema cuando necesita configurar todo en automático.

Muestreo de datos: excavaciones del "recién vertido"

Se solucionó la tarea de crear una base de datos de proveedores de equipos de cómputo. Se ha construido un árbol de categorías, está funcionando una tabla común con ofertas de todos los proveedores.

Tareas típicas de minería de datos en el contexto de este ejemplo:

  • encuentre un producto al precio más bajo;
  • seleccione el artículo con el menor costo de envío y precio;
  • análisis de productos: características y precios por criterios.

En el trabajo real de un gerente que usa datos de varias docenas de proveedores, habrá muchas variaciones de estas tareas, e incluso más situaciones reales.

Por ejemplo, hay un proveedor "A" que vende ASUS VivoBook S15: prepago, entrega 5 días después de la recepción real del dinero. Hay un proveedor "B" del mismo producto del mismo modelo: pago al recibir, entrega después de la conclusión del contrato dentro de un día, el precio es una vez y media más alto.

Comienza la minería de datos - "excavaciones". Expresiones figurativas: "excavaciones" o "minería de datos" son sinónimos. Se trata de obtener una razón para tomar una decisión.

Los proveedores "A" y "B" tienen un historial de entregas. Gradopago anticipado en el primer caso contra pago a la recepción en el segundo caso, teniendo en cuenta que la f alta de entrega en el segundo caso es un 65% superior. El riesgo de sanciones por parte del cliente es mayor/menor. ¿Cómo y qué determinar y qué decisión tomar?

Por otro lado: la base de datos fue creada por un programador y un administrador. Si el programador y el administrador han cambiado, ¿cómo determinar el estado actual de la base de datos y aprender a usarla correctamente? También tendrás que hacer minería de datos. La minería de datos ofrece una variedad de métodos matemáticos y lógicos que no importan qué tipo de datos se investigan. Esto da la solución correcta en algunos casos, pero no en todos.

Pasar a la virtualidad y encontrar significado

Los métodos de minería de datos se vuelven significativos tan pronto como la información se escribe en la base de datos y desaparece del "campo de visión". El comercio de equipos informáticos es una tarea interesante, pero es solo un negocio. Lo bien que esté organizado en la empresa depende de su éxito.

Los cambios climáticos en el planeta y el clima en una ciudad en particular son de interés para todos, no solo para los expertos climáticos profesionales. Miles de sensores toman lecturas de viento, humedad, presión, datos de satélites terrestres artificiales y hay un historial de datos durante años y siglos.

Los datos meteorológicos no se tratan solo de decidir si llevar o no un paraguas al trabajo. Las tecnologías de minería de datos son el vuelo seguro de un avión, el funcionamiento estable de una carretera y el suministro fiable de productos derivados del petróleo por mar.

Los datos "sin procesar" se envían a la informaciónsistema. Las tareas de Minería de Datos son convertirlos en un sistema sistematizado de tablas, establecer vínculos, res altar grupos de datos homogéneos y detectar patrones.

Clima, tiempo y datos brutos
Clima, tiempo y datos brutos

Los métodos matemáticos y lógicos desde los días del análisis cuantitativo OLAP (procesamiento analítico en línea) han demostrado su practicidad. Aquí la tecnología te permite encontrar sentido, y no perderlo, como en el ejemplo de la venta de equipos de cómputo.

Además, en tareas globales:

  • negocio transnacional;
  • gestión del transporte aéreo;
  • estudio de las entrañas de la tierra o problemas sociales (a nivel estatal);
  • estudio del efecto de las drogas en un organismo vivo;
  • predecir las consecuencias de la construcción de una empresa industrial, etc.

Las tecnologías de extracción de datos y convertir datos "sin sentido" en datos reales que le permitan tomar decisiones objetivas es la única opción.

Las posibilidades humanas terminan donde hay una gran cantidad de información en bruto. Los sistemas de minería de datos pierden su utilidad cuando se requiere ver, comprender y sentir información.

Distribución razonable de funciones y objetividad

El hombre y la computadora deben complementarse; esto es un axioma. Escribir una tesis es una prioridad para una persona, y un sistema de información es una ayuda. Aquí, los datos que tiene la tecnología de Minería de Datos son heurísticas, reglas, algoritmos.

Elaborar una previsión meteorológica semanal es la prioridad del sistema de información. El hombre maneja los datos, pero basa sus decisiones en los resultados de los cálculos del sistema. Combina métodos de minería de datos, clasificación de datos especializados, control manual de la aplicación de algoritmos, comparación automática de datos pasados, pronósticos matemáticos y muchos conocimientos y habilidades de personas reales involucradas en la aplicación del sistema de información.

hombre y computadora
hombre y computadora

La teoría de la probabilidad y la estadística matemática no son las áreas de conocimiento más "favoritas" y comprensibles. Muchos especialistas están muy lejos de ellos, pero los métodos desarrollados en estas áreas dan resultados casi 100% correctos. Al aplicar sistemas basados en las ideas, métodos y algoritmos de la Minería de Datos, se pueden obtener soluciones de manera objetiva y confiable. De lo contrario, es simplemente imposible obtener una solución.

Faraones y misterios de siglos pasados

La historia se reescribía periódicamente:

  • estados - por el bien de sus intereses estratégicos;
  • científicos autorizados - por el bien de sus creencias subjetivas.

Es difícil saber qué es cierto y qué es falso. El uso de la Minería de Datos nos permite solucionar este problema. Por ejemplo, la tecnología de construcción de pirámides fue descrita por cronistas y estudiada por científicos en diferentes siglos. No todos los materiales se encuentran en Internet, no todo es único aquí y muchos datos pueden no tener:

  • punto descrito en el tiempo;
  • momento de escribir la descripción;
  • fechas en las que se basa la descripción;
  • autor(es), opiniones (enlaces) tenidas en cuenta;
  • confirmación de objetividad.

Bbibliotecas, templos y "lugares inesperados" se pueden encontrar manuscritos de diferentes siglos y testimonios materiales del pasado.

Objetivo interesante: juntar todo y descubrir la "verdad". Característica del problema: se puede obtener información desde la primera descripción de un cronista, durante la vida de los faraones, hasta el siglo actual, en el que muchos científicos resuelven este problema con métodos modernos.

Racional para usar la minería de datos: el trabajo manual no es posible. Demasiadas cantidades:

  • fuentes de información;
  • idiomas de representación;
  • investigadores que describen lo mismo de diferentes maneras;
  • fechas, eventos y términos;
  • problemas de correlación de términos;
  • el análisis de las estadísticas por grupos de datos a lo largo del tiempo puede diferir, etc.

A finales del siglo pasado, cuando otro fiasco de la idea de la inteligencia artificial se hizo evidente no solo para el profano, sino también para un especialista sofisticado, apareció la idea: “recrear la personalidad”.

Por ejemplo, según los trabajos de Pushkin, Gogol, Chekhov, se forma un cierto sistema de reglas, lógicas de comportamiento y se crea un sistema de información que puede responder ciertas preguntas como lo haría una persona: Pushkin, Gogol o Chéjov. En teoría, esta tarea es interesante, pero en la práctica es extremadamente difícil de implementar.

Sin embargo, la idea de tal tarea sugiere una idea muy práctica: "cómo crear una búsqueda de información inteligente". Internet es una gran cantidad de recursos en desarrollo, una gran base de datos y esta es una gran oportunidad para aplicar la minería de datos en combinación con humanos.lógica en el formato de desarrollo conjunto.

Máquina y hombre juntos
Máquina y hombre juntos

Una máquina y un hombre emparejados es una excelente tarea y un éxito indudable en el campo de la "arqueología de la información", excavaciones de alta calidad en datos y resultados que pondrán algo en duda, pero que sin duda te permitirán para obtener nuevos conocimientos y tendrá demanda en la sociedad.

Recomendado: