Análisis de texto de frecuencia: características y ejemplos

Tabla de contenido:

Análisis de texto de frecuencia: características y ejemplos
Análisis de texto de frecuencia: características y ejemplos
Anonim

Te has encontrado con este concepto más de una vez en tu vida si has tenido que trabajar con textos. En particular, puede recurrir a calculadoras en línea que realizan exactamente el análisis de frecuencia del texto. Estas útiles herramientas muestran cuántas veces aparece un carácter o una letra en particular en cualquier pasaje de texto. A menudo también se muestra un porcentaje. ¿Por qué es necesario? ¿Cómo contribuye el análisis de frecuencia del texto al "desciframiento" de los cifrados simples? ¿Cuál es su esencia, quién lo inventó? Responderemos a estas y otras preguntas importantes sobre el tema en el transcurso del artículo.

Definición

El análisis de frecuencia es una de las variedades del criptoanálisis. Se basa en la suposición de los científicos sobre la existencia de una distribución estadística no trivial de caracteres individuales y sus secuencias regulares tanto en texto sin formato como cifrado.

Se cree que tal distribución, hasta el reemplazo de caracteres individuales, también se mantendrá en los procesos de cifrado/descifrado.

análisis de frecuencia de sistemas
análisis de frecuencia de sistemas

Características del proceso

Ahora echemos un vistazo al análisis de frecuencia en términos simples. Esto implica que el número de ocurrencias del mismo carácter alfabético en textos de suficiente extensión es el mismo en diferentes textos escritos en el mismo idioma.

¿Y ahora qué pasa con el cifrado monoalfabético? Se supone que si hay un carácter con una probabilidad de ocurrencia similar en la sección con texto cifrado, entonces es realista suponer que es esa letra cifrada.

Los seguidores del análisis de texto de frecuencia aplican el mismo razonamiento a los digramas (secuencias de dos letras). Trigramas: esto es para el caso de cifrados ya polialfabéticos.

Historia del método

El análisis de frecuencia de las palabras no es un hallazgo de la modernidad. Se conoce en el mundo científico desde el siglo IX. Su creación está asociada con el nombre Al-Kindi.

Pero los casos conocidos de aplicación del método de análisis de frecuencia pertenecen a un período muy posterior. El ejemplo más llamativo aquí es el desciframiento de los jeroglíficos egipcios, realizado en 1822 por J.-F. Champollion.

Si pasamos a la ficción, podemos encontrar muchas referencias interesantes a este método de descifrado:

  • Conan Doyle - "Los bailarines".
  • Jules Verne - "Hijos del Capitán Grant".
  • Edgar Poe - "Escarabajo de oro".

Sin embargo, desde mediados del siglo pasado, la mayoría de los algoritmos utilizados en el cifrado se han desarrollado teniendo en cuenta su resistencia a este tipo de criptoanálisis de frecuencia. Por lo tantohoy en día, se utilizan con mayor frecuencia solo para capacitar a futuros criptógrafos.

análisis de frecuencia de texto
análisis de frecuencia de texto

Método básico

Presentemos ahora el análisis de respuesta de frecuencia en detalle. Este tipo de análisis se basa directamente en el hecho de que la prueba se compone de palabras y éstas, a su vez, de letras. El número de letras que llenan los alfabetos nacionales es limitado. Las letras simplemente se pueden enumerar aquí.

Las características más importantes de dicho texto serán tanto la repetición de letras, varios bigramas, trigramas y n-gramas, así como la compatibilidad de varias letras entre sí, la alternancia de consonantes / vocales y otras variedades de estos símbolos.

La idea principal de los métodos es contar las ocurrencias de posibles n-gramas (indicados por nm) en textos sin formato lo suficientemente largos para el análisis (indicados por T=t1t2…tl) compuestos por letras del alfabeto nacional (denotado por {a1, a2, …, an}). Todo lo anterior provoca algunos m-gramas consecutivos del texto:

t1t2…tm, t2t3…tm+1, …, ti-m+1tl-m+2…tl.

Si este es el número de ocurrencias del m-grama ai1ai2…aim en un determinado texto T, y L es el número total de m-gramas analizados por el investigador, entonces es posible establecer empíricamente que para L suficientemente grande, las frecuencias para dicho m-grama serán un poco diferentes entre sí.

análisis de frecuencia
análisis de frecuencia

Letras frecuentes del alfabeto ruso

Pero el análisis de tiempo-frecuencia, a pesar del nombre similar, no tiene nada que ver con el tema de nuestra conversación. Este tipo de análisis se realiza paraseñales de estaciones de radar de baja observabilidad que utilizan una transformada wavelet especial.

Ahora volvamos al tema principal. Al realizar un análisis de frecuencia, puede averiguar qué letras del alfabeto ruso se encuentran con mayor frecuencia en textos bastante voluminosos (porcentaje de 0,062 a 0,018):

  • A.
  • V.
  • D.
  • F.
  • Yo.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • Yo.

Incluso se ha introducido una regla mnemotécnica especial, que ayuda a aprender las letras más comunes del alfabeto ruso. Para hacer esto, es suficiente recordar una sola palabra: "pajar".

En los casos generales, la frecuencia de uso de letras en términos porcentuales se establece simplemente: el especialista cuenta cuántas veces aparece la letra en el texto, luego divide el valor resultante por el número total de caracteres en el texto. Y para expresar este valor en porcentaje, basta con multiplicarlo por 100.

Es importante considerar que la frecuencia dependerá no solo del volumen del texto, sino también de su naturaleza. Por ejemplo, en las fuentes técnicas, la letra "F" aparece con mucha más frecuencia que en la ficción. Por lo tanto, para obtener resultados objetivos, un especialista debe escribir textos de diversa naturaleza y estilo para la investigación.

programas de análisis de frecuencia de texto
programas de análisis de frecuencia de texto

Bi-, tri-, cuatro gramos

En textos significativos, también puedes encontrar los más comunes (respectivamente, los másrepetidas) combinaciones de dos o más letras. Los especialistas también han compilado varias tablas que indican las frecuencias de digramas similares de varios alfabetos.

En cuanto al ruso, el análisis de frecuencia de sistemas de textos voluminosos con significado permitió establecer los bigramas y trigramas más comunes:

  • ES.
  • EST.
  • PERO.
  • NO.
  • ON.
  • RA.
  • VO.
  • KO.
  • VO.
  • STO.
  • NUEVO
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Relaciones preferidas de las letras entre sí

Y estas no son todas las posibilidades que el análisis de frecuencia puede proporcionar a los investigadores de texto. Al sistematizar información de tablas similares de bigramas y trigramas, es posible extraer datos sobre las combinaciones de letras más comunes. O, en otras palabras, sus relaciones preferidas entre ellos.

Un estudio tan extenso ya ha sido realizado por expertos. Su resultado fue una tabla donde, junto a cada letra del alfabeto, se indicaban sus vecinas. Además, aquellos personajes que a menudo se encuentran tanto inmediatamente antes como después. Las letras de la tabla no se escriben por casualidad. Más cerca del símbolo, se indican los vecinos más frecuentes, más lejos, los más raros.

Considere ejemplos:

  • Letra "A". Aquí se distinguen las siguientes conexiones preferentes: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. De aquí vemos que la mayoría de las veces antes de "A" en los textos hay "H" ("NA"). Y después de "A" con mayor frecuencia en textos en ruso podemos encontrarnos con "L"("AL").
  • Letra "M". Los expertos han identificado tales conexiones preferidas: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Letra "b". Las conexiones preferidas son las siguientes: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Letra "Sh". Conexiones preferidas: "e-b-a-i-u-Sch-e-i-a".
  • Letra "P". Conexiones preferidas con este símbolo del alfabeto ruso: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
análisis de tiempo-frecuencia
análisis de tiempo-frecuencia

¿Qué define el análisis?

Los modernos programas de análisis de texto de frecuencia ayudan a estudiar grandes volúmenes de una amplia variedad de artículos, ensayos, pasajes, etc. La siguiente información se proporciona al investigador como estándar:

  • Número total de caracteres en el texto.
  • Número de espacios utilizados por el autor.
  • Número de dígitos.
  • Información sobre los signos de puntuación utilizados: puntos, comas, etc.
  • El número de letras en cada uno de los alfabetos disponibles: cirílico, latino, etc.
  • Información sobre la frecuencia de uso de cada letra y símbolo en el texto: el número de menciones y el porcentaje en comparación con el texto completo.

Lucha contra la sobreoptimización y la sobresaturación

¿Por qué se realiza el análisis de frecuencia de texto? ¿Es solo por curiosidad, para establecer qué caracteres en el texto escrito resultaron ser más frecuentes? No, la principal aplicación del análisis es práctica y está en otra parte.

Los N-gramas incluyen no solo bigramas y trigramas estables. al mismolas categorías incluyen palabras clave (etiquetas), colocaciones. Es decir, combinaciones estables formadas por dos o más palabras. Se distinguen por el hecho de que tales composiciones aparecen juntas en el texto y al mismo tiempo llevan una cierta carga semántica.

Esto les hace el juego a especialistas en SEO sin escrúpulos. En su trabajo, a veces abusan de la repetición de etiquetas y palabras clave en el texto para aumentar artificialmente la relevancia de una página web en particular. Están tratando de engañar al sistema con tal "truco": convertir una combinación natural con la combinación habitual de palabras, tradicional para el idioma ruso ("compre un abrigo de visón") en una inconsistente. Es decir, obtenido reorganizando palabras en un N-grama tan natural ("comprar un abrigo de visón").

Pero hoy en día, los algoritmos de búsqueda han aprendido a detectar la sobreoptimización con la misma eficacia que el sobrespam: sobresaturación del texto con palabras clave, etiquetas que afectan la clasificación de los resultados en la página de búsqueda. Las páginas sobreoptimizadas ahora, por el contrario, se clasifican más abajo según la consulta del usuario. Y las personas mismas no tienden a leer texto sin sentido, sobresaturado con etiquetas, prefiriendo información útil en otro recurso.

método de análisis de frecuencia
método de análisis de frecuencia

Ayuda al análisis privado para especialistas en SEO

Por lo tanto, los filtros de texto de los motores de búsqueda modernos dan preferencia a aquellas páginas de Internet, cuya información no solo es fácil de leer, sino también útil para los visitantes. Para optimizar su trabajo para los nuevos estándares, los especialistas en SEOy pasar al análisis de frecuencia del texto. Muchos servicios populares lo ofrecen hoy.

El análisis de frecuencia ayuda a revisar el texto que se está preparando para su publicación con fines informativos. Elimine la redundancia innecesaria de etiquetas y frases clave. También permite llamar la atención del autor sobre combinaciones de palabras poco naturales que despiertan sospechas en los filtros de texto de los motores de búsqueda.

análisis de respuesta de frecuencia
análisis de respuesta de frecuencia

El análisis de frecuencia del texto ayuda a determinar la frecuencia de mención de un personaje en particular en la fuente. El método se usa hoy para evaluar la sobrecarga de texto con etiquetas, permutaciones no naturales de palabras.

Recomendado: