¿Qué es la lingüística de corpus?

Tabla de contenido:

¿Qué es la lingüística de corpus?
¿Qué es la lingüística de corpus?
Anonim

Hace varias décadas, los científicos solo podían soñar con automatizar la investigación lingüística. El trabajo se hizo a mano, una gran cantidad de estudiantes participaron en él, había una probabilidad significativa de un error de "f alta de atención" y, lo más importante, todo tomó mucho, mucho tiempo.

Con el desarrollo de la tecnología informática, se hizo posible realizar investigaciones mucho más rápido, y hoy en día una de las áreas prometedoras en el estudio del lenguaje es la lingüística de corpus. Su principal característica es el uso de grandes cantidades de información textual, consolidada en una sola base de datos, marcada de manera especial y denominada corpus.

Hoy en día, hay muchos corpus creados para diferentes propósitos, basados en diferentes materiales lingüísticos, que abarcan desde millones hasta decenas de miles de millones de unidades léxicas. Esta dirección se reconoce como prometedora y demuestra un progreso significativo en el logro de objetivos aplicados y de investigación. Profesionales, de una forma u otra tratando conlenguaje natural, se recomienda que se familiarice con los corpus de texto al menos a un nivel básico.

Historia de la lingüística de corpus

La formación de esta dirección está relacionada con la creación del Brown Corps en los EE. UU. a principios de los años 60 del siglo pasado. La colección de textos constaba de solo 1 millón de formas de palabras, y hoy en día un corpus de tal volumen sería completamente no competitivo. Esto se debe en gran medida al ritmo de desarrollo de la tecnología informática, así como a la creciente demanda de nuevos recursos de investigación.

En los años 90, la lingüística de corpus se transformó en una disciplina completa e independiente, se recopilaron y marcaron colecciones de textos para varias docenas de idiomas. Durante este período, por ejemplo, se creó el British National Corpus para 100 millones de usos de palabras.

Lenguaje del cuerpo
Lenguaje del cuerpo

A medida que se desarrolla esta dirección de la lingüística, el volumen de textos se vuelve más grande (y alcanza miles de millones de unidades de vocabulario), y el marcado se vuelve cada vez más diverso. Hoy, en el espacio de Internet, se pueden encontrar corpus de habla escrita y oral, multilingües y didácticos, enfocados a la literatura de ficción o académica, entre muchas otras variedades.

¿Qué casos hay?

Los tipos de corpus en la lingüística de corpus se pueden representar de varias maneras. Es intuitivamente claro que la base para la clasificación puede ser el idioma de los textos (ruso, alemán), modo de acceso (código abierto, código cerrado, comercial), género del material fuente (ficciónliteratura, documental, académico, periodismo).

métodos de la lingüística de corpus
métodos de la lingüística de corpus

De manera interesante se lleva a cabo la generación de materiales que representan el habla oral. Dado que la grabación deliberada de tal discurso crearía condiciones artificiales para los encuestados, y el material resultante no podría llamarse "espontáneo", la lingüística de corpus moderna fue al revés. El voluntario está equipado con un micrófono, y durante el día se graban todas las conversaciones en las que participa. Las personas que nos rodean, por supuesto, no pueden saber que en el curso de una conversación cotidiana están contribuyendo al desarrollo de la ciencia.

Más tarde, las grabaciones de audio recibidas se almacenan en el banco de datos y se acompañan de texto impreso como una transcripción. De esta forma, se hace posible el marcado necesario para crear un corpus de habla cotidiana hablada.

Solicitud

Donde es posible usar lenguaje, también es posible usar corpus de texto. El propósito de usar métodos de corpus en lingüística puede ser:

  • Crear programas de opinión que se utilizan ampliamente en la política y los negocios para realizar un seguimiento de los comentarios positivos y negativos de los votantes y clientes, respectivamente.
  • Conectar el sistema de información a diccionarios y traductores para mejorar su rendimiento.
  • Diversas tareas de investigación que contribuyen a la comprensión de la estructura del lenguaje, la historia de su desarrollo y las predicciones de su cambio en un futuro próximo.
  • Desarrollo de sistemas de extracción de información basados en datos morfológicos,características sintácticas, semánticas y otras.
  • Optimización del trabajo de varios sistemas lingüísticos, etc.

Uso de conchas

La interfaz de recursos es similar a un motor de búsqueda típico y solicita al usuario que ingrese alguna palabra o combinación de palabras para buscar en la base de información. Además del formulario de solicitud exacto, puede usar la versión extendida, que le permite encontrar información textual por casi cualquier criterio lingüístico.

computación y lingüística de corpus
computación y lingüística de corpus

La base para la búsqueda puede ser:

  • perteneciente a cierto grupo de partes del discurso;
  • características gramaticales;
  • semántica;
  • coloración estilística y emocional.

Además, puede combinar criterios de búsqueda para una secuencia de palabras: por ejemplo, encontrar todas las apariciones de un verbo en tiempo presente, primera persona, singular seguido de la preposición "en" y un sustantivo en acusativo. Resolver una tarea tan simple toma al usuario unos segundos y requiere solo unos pocos clics del mouse en los campos dados.

Proceso de creación

La búsqueda en sí se puede realizar tanto en todos los subcorpus, como en uno, específicamente seleccionado, dependiendo de las necesidades a la hora de lograr un objetivo específico:

  1. En primer lugar, se determina qué textos formarán la base del corpus. Para fines prácticos, a menudo se utilizan materiales periodísticos, periodísticos, comentarios de Internet. En los proyectos de investigación, lo másvarios tipos de corpus, pero los textos deben seleccionarse sobre una base común.
  2. Se preprocesa el conjunto de textos resultante, se corrigen los errores, si los hubiera, se prepara una descripción bibliográfica y extralingüística del texto.
  3. Se filtra toda la información no textual: se eliminan gráficos, imágenes y tablas.
  4. Los tokens, generalmente palabras, se asignan para su posterior procesamiento.
  5. Finalmente, se lleva a cabo el marcado morfológico, sintáctico y de otro tipo del conjunto de elementos resultante.

El resultado de todas las operaciones realizadas es una estructura sintáctica con un conjunto de elementos distribuidos sobre ella, para cada uno de los cuales se definen una parte del discurso, características gramaticales y, en algunos casos, semánticas.

Dificultades en la creación de casos

Es importante entender que para obtener un corpus, no es suficiente juntar muchas palabras u oraciones. Por un lado, una colección de textos debe ser equilibrada, es decir, presentar distintos tipos de textos en determinadas proporciones. Por otro lado, el contenido del maletín debe marcarse de forma especial.

Lingüística del corpus de Zakharov
Lingüística del corpus de Zakharov

La primera cuestión se resuelve por acuerdo: por ejemplo, la colección incluye un 60% de textos de ficción, un 20% de documentales, una determinada proporción se da a la presentación escrita de discursos orales, actos legislativos, artículos científicos, etc. La receta ideal para un corpus equilibrado hoy no existe.

La segunda pregunta sobre el marcado de contenido es más difícil de resolver. Existen programas y algoritmos especiales que se utilizan para el marcado automático de textos, pero no dan un resultado del 100 %, pueden causar fallas y requieren un refinamiento manual. Las oportunidades y los problemas para resolver este problema se describen en detalle en el trabajo de V. P. Zakharov sobre lingüística de corpus.

El marcado de texto se lleva a cabo en varios niveles, que enumeraremos a continuación.

Marcado morfológico

Desde el banco de la escuela, recordamos que en el idioma ruso hay diferentes partes del discurso, y cada una de ellas tiene sus propias características. Por ejemplo, un verbo tiene categorías de modo y tiempo que no tiene un sustantivo. Un hablante nativo declina sustantivos y conjuga verbos sin dudarlo, pero el trabajo manual no es adecuado para marcar un corpus de 100 millones de usos de palabras. Todas las operaciones necesarias pueden ser realizadas por una computadora, sin embargo, para esto necesita ser enseñada.

El marcado morfológico es necesario para que la computadora "entienda" cada palabra como una parte del discurso que tiene ciertas características gramaticales. Dado que una serie de reglas regulares funcionan en ruso (como en cualquier otro idioma), es posible construir un procedimiento automático para el análisis morfológico poniendo una serie de algoritmos en la máquina. Sin embargo, hay excepciones a la regla, así como varios factores que complican la situación. Como resultado, el análisis informático puro actual está lejos de ser ideal, e incluso un 4% de errores dan un valor de 4 millones de palabras en un corpus de 100 millones de unidades, lo que requiere un refinamiento manual.

Este problema se describe en detalle en el libro "Corpus Linguistics" de V. P. Zakharov.

Marcado sintáctico

El análisis sintáctico o análisis sintáctico es un procedimiento que determina la relación de las palabras en una oración. Con la ayuda de un conjunto de algoritmos, es posible determinar el sujeto, el predicado, las adiciones y varios giros del habla en el texto. Al averiguar qué palabras en la secuencia son principales y cuáles son dependientes, podemos extraer información del texto de manera eficiente y entrenar a la máquina para que devuelva solo la información que nos interesa en respuesta a una solicitud de búsqueda.

laboratorios de lingüística de corpus en universidades rusas
laboratorios de lingüística de corpus en universidades rusas

Por cierto, los motores de búsqueda modernos usan esto para dar números específicos en lugar de largos textos en respuesta a consultas relevantes como: "cuántas calorías hay en una manzana" o "distancia de Moscú a San Petersburgo". Sin embargo, para comprender incluso los conceptos básicos del proceso descrito, deberá familiarizarse con la "Introducción a la lingüística de corpus" u otro libro de texto básico.

Marcado semántico

La semántica de una palabra es, en términos simples, su significado. Un enfoque ampliamente aplicable en el análisis semántico es la atribución de etiquetas a una palabra, lo que refleja su pertenencia a un conjunto de categorías y subcategorías semánticas. Dicha información es valiosa para optimizar los algoritmos de análisis de sentimientos de texto, referencias automáticas y realizar otras tareas utilizando métodos de lingüística de corpus.

Hay una serie de "raíces" del árbol, que son palabras abstractas que tienensemántica muy amplia. A medida que este árbol se ramifica, se forman nodos que contienen más y más elementos léxicos específicos. Por ejemplo, la palabra "criatura" se puede asociar con conceptos tales como "humano" y "animal". La primera palabra continuará ramificándose en varias profesiones, términos de parentesco, nacionalidad, y la segunda, en clases y tipos de animales.

Uso de sistemas de recuperación de información

Los ámbitos de uso de la lingüística de corpus abarcan una amplia variedad de áreas de actividad. Los corpus se utilizan para compilar y corregir diccionarios, crear sistemas de traducción automática, resumir, extraer hechos, determinar opiniones y otros procesos de texto.

corpus lingüístico tipos de corpus
corpus lingüístico tipos de corpus

Además, dichos recursos se utilizan activamente en el estudio de los idiomas del mundo y los mecanismos de funcionamiento del idioma en su conjunto. El acceso a grandes volúmenes de información preparada previamente contribuye al estudio rápido y completo de las tendencias en el desarrollo de las lenguas, la formación de neologismos y giros estables del habla, cambios en los significados de las unidades léxicas, etc.

Debido a que trabajar con volúmenes tan grandes de datos requiere automatización, hoy en día existe una estrecha interacción entre la informática y la lingüística de corpus.

Corpus Nacional de la Lengua Rusa

Este corpus (abreviado como NKRC) incluye una serie de subcorpus que permiten utilizar el recurso para resolver una amplia variedad de tareas.

Los materiales en la base de datos de la NCRA se dividen en:

  • sobre publicaciones en medios de los 90 y 2000años, tanto nacionales como extranjeros;
  • grabaciones de discursos orales;
  • textos marcados acentológicamente (es decir, con tildes);
  • habla dialectal;
  • obras poéticas;
  • materiales con marcado sintáctico, etc.

El sistema de información también incluye subcorpus con traducciones paralelas de obras del ruso al inglés, alemán, francés y muchos otros idiomas (y viceversa).

Además, la base de datos tiene una sección de textos históricos que representan el habla escrita en ruso en varios períodos de su desarrollo. También hay un corpus de formación que puede ser útil para los ciudadanos extranjeros en el dominio del idioma ruso.

El corpus nacional del idioma ruso incluye 400 millones de unidades léxicas y, en muchos sentidos, está por delante de una parte significativa del corpus de idiomas europeos.

Prospectos

Un hecho a favor de reconocer esta área como prometedora es la presencia de laboratorios de lingüística de corpus en las universidades rusas, así como en las extranjeras. Con el uso y la investigación en el marco de los recursos de recuperación de información considerados, se asocia el desarrollo de algunas áreas en el campo de las altas tecnologías, los sistemas de preguntas y respuestas, pero esto se discutió anteriormente.

historia de la lingüística de corpus
historia de la lingüística de corpus

Se prevé un mayor desarrollo de la lingüística de corpus en todos los niveles, desde el técnico, en cuanto a la introducción de nuevos algoritmos que optimicen los procesos de búsqueda y procesamiento de la información, ampliando las capacidades de las computadoras, aumentando la operatividadla memoria, y terminando con los domésticos, ya que los usuarios encuentran cada vez más formas de utilizar este tipo de recurso en la vida cotidiana y en el trabajo.

En conclusión

A mediados del siglo pasado, 2017 parecía un futuro lejano, en el que las naves espaciales navegan por las extensiones del Universo y los robots hacen todo el trabajo por las personas. En realidad, sin embargo, la ciencia está repleta de "espacios en blanco" y está haciendo intentos desesperados por responder preguntas que han preocupado a la humanidad durante siglos. Las preguntas sobre el funcionamiento del lenguaje ocupan un lugar destacado aquí, y la lingüística de corpus y computacional puede ayudarnos a responderlas.

El procesamiento de grandes cantidades de datos le permite detectar patrones que antes eran inaccesibles, predecir el desarrollo de ciertas características del lenguaje, rastrear la formación de palabras casi en tiempo real.

A un nivel global práctico, los corpus pueden considerarse, por ejemplo, como una herramienta potencial para evaluar el sentimiento público: Internet es una base de datos continuamente actualizada de varios textos creados por usuarios reales: estos son comentarios, reseñas, artículos, y muchas otras formas de expresión.

Además, trabajar con corpus contribuye al desarrollo de los mismos medios técnicos que están involucrados en la recuperación de información, que nos son familiares de los servicios de Google o Yandex, traducción automática, diccionarios electrónicos.

Es seguro decir que la lingüística de corpus solo está dando sus primeros pasos y se desarrollará rápidamente en un futuro próximo.

Recomendado: