Banderas de Turquía y de la Unión Europea

Este proyecto está financiado por la Unión Europea.

Tecnologías del lenguaje basadas en datos

La revolución digital está aquí con nosotros y la Inteligencia Artificial (IA) es un facilitador tecnológico clave. Ofrece una serie de nuevas oportunidades para derribar las barreras existentes al desarrollo humano y la inclusión social. Un área impulsada por la IA es la tecnología del lenguaje que permite interactuar con nuestros teléfonos a través de asistentes digitales, traducir sitios web y documentos con unos pocos clics, aumentar la accesibilidad de videos con subtítulos automáticos, etc.

El motor principal detrás de estos es el avance del campo Procesamiento del Lenguaje Natural (PLN). Pero, ¿qué implica la PLN? Aquí hay una lista de tecnologías básicas que caen en el área de este campo:

Basado en texto:

  • Traducción automática

  • Recuperación de información

  • Extracción de la información

  • Análisis de sentimiento

  • Responder a la pregunta

  • Resumen de texto

  • Reconocimiento de nombres de entidades

Basado en el habla:

  • Reconocimiento automático del habla

  • Síntesis de texto a voz

El aspecto revolucionario de estas tecnologías es que están basadas en datos, lo que significa que la inteligencia que se crea con estas herramientas se recopila a partir de grandes volúmenes de información, o simplemente datos. Por ejemplo, en el caso de la traducción automática, el motor «modela» la traducción de un idioma al otro mirando una colección de documentos y oraciones traducidos por humanos. Del mismo modo, un análisis de los sentimientos aprende a etiquetar si un tweet dice bueno o malo sobre una empresa a partir de miles de tweets etiquetados por los humanos como portadores de un sentimiento bueno o malo.

Esta dependencia de los datos es lo que hace que estas tecnologías sean accesibles a algunos idiomas y no a los demás. Los recursos disponibles para un idioma influyen directamente en la posibilidad de desarrollar una aplicación para un idioma. Como el mayor recurso de datos textuales es Internet, y está dominado por unos cuantos idiomas, estas tecnologías tienden a centrarse solo en un puñado de idiomas dominantes, por ejemplo, inglés, español, chino, árabe, etc.

El siguiente diagrama de Microsoft Research Labs India ilustra la jerarquía creada por esta «ley del poder» entre los idiomas.

Clasificación de idiomas según la disponibilidad de tecnología, herramientas y recursos lingüísticos

Clasificación de idiomas según la disponibilidad de tecnología, herramientas y recursos lingüísticos

Traducción automática

La traducción automática (MT) se define como la conversión automática de una secuencia de símbolos en un idioma a una secuencia de símbolos en otro idioma. Ha evolucionado a lo largo de los años, pasando de enfoques basados en normas a enfoques estadísticos, que modelaban las probabilidades de mapeo entre subfrases entre traducciones. Estas probabilidades se aprenden de manera estadística a partir de textos paralelos donde las traducciones alineadas con oraciones están disponibles en los idiomas involucrados (referidos como idiomas de origen y destino). El siguiente diagrama ilustra el modelado de la traducción de la palabra «seguro» en inglés a español utilizando traducciones hechas en el Parlamento de la ONU.

Extracción de estadísticas de traducciones de datos paralelos

Extracción de estadísticas de traducciones de datos paralelos

Los servicios de traducción automática como Google Translate y DeepL se han abierto camino en herramientas confiables para traductores y también gente regular en los últimos años. Esto se debe en gran parte al avance de las técnicas de aprendizaje profundo que revolucionaron el campo de la inteligencia artificial. Esta nueva forma de modelar introducida en 2014 cometió un 50% menos de errores de orden de palabras, un 17% menos de errores léxicos y un 19% menos de errores gramaticales en comparación con los modelos anteriores.

Los usos de la traducción automática son los siguientes:

  1. Asimilación, emulando un determinado documento en otro idioma. Este caso de uso permite, por ejemplo, leer un sitio de noticias o un documento técnico en un idioma que no entendemos. Sabemos que no es una traducción 100% precisa, pero da la esencia para explorar más.

  2. Comunicación, que permite la comunicación entre individuos y organizaciones, por ejemplo, en chat, turismo, comercio electrónico, reduciendo la necesidad de una lingua franca.

  3. Monitoreo, que permite el rastreo de información en documentos multilingües a gran escala, por ejemplo, descubriendo tendencias internacionales en Twitter.

  4. Asistencia, mejorando los flujos de trabajo de traducción, por ejemplo, traducción asistida por ordenador, posedición.

La TA también se ha convertido en una herramienta esencial en el aprendizaje de idiomas. Un trabajo reciente de Duke University estudia su uso entre los estudiantes de idiomas de nivel universitario junto con otras herramientas clásicas como diccionarios y tesauros. Informan que el 76% de los estudiantes matriculados en una clase de español utilizan herramientas de MT basadas en la web como Google Translate durante sus estudios.

Finalmente, Bird y Chiang también han propuesto la traducción automática como una herramienta de documentación y preservación para idiomas en peligro de extinción en su documento Traducción automática para la preservación del idioma. Citando directamente de su artículo: «… cuando los textos originales se traducen a un idioma mundial importante, garantizamos que la documentación del idioma será interpretable incluso después de que el idioma haya caído fuera de uso. En segundo lugar, cuando un orador sobreviviente puede identificar errores en la salida de un sistema de TA, tenemos evidencia oportuna de aquellas áreas de gramática y léxico que necesitan una mejor cobertura mientras todavía hay tiempo para recopilar más. Estas tareas de producción y corrección de traducciones pueden ser realizadas por hablantes del idioma sin depender de la intervención de lingüistas externos. Además, eludimos la necesidad de recursos lingüísticos como bancos de árboles y redes de palabras, que son caros de crear y que dependen de la existencia de análisis morfológicos, sintácticos y semánticos de la lengua «.

Esta forma innovadora de documentación del lenguaje reduce el esfuerzo en la recopilación de oraciones traducidas, ya que el desarrollo de MT se basa en este tipo de datos. (Más información sobre los datos paralelos en la siguiente sección)

Reconocimiento automático del habla

El reconocimiento automático de voz (ASR) es la conversión del habla en su forma acústica en una forma simbólica como palabras o letras. Es el modelado probabilístico de la pregunta «¿Cuál es la secuencia de palabras más probable entre todas las secuencias de palabras posibles dada una entrada acústica?». El siguiente diagrama ilustra este proceso. La señal de voz capturada por un micrófono se codifica primero en una secuencia de vectores de características acústicas. A continuación, los vectores de características acústicas se decodifican en las palabras que representan la información lingüística que se encuentra en la señal de voz.

El reconocimiento automático de voz está modelando la pregunta "¿Cuál es la secuencia de palabras más probable entre todas las secuencias de palabras posibles dada una entrada acústica?"

Un diagrama básico de reconocimiento automático de voz

El desarrollo de un sistema automático de reconocimiento de voz para un idioma depende del siguiente tipo de datos:

  1. Colección de grabaciones cortas de audio de voz de muchos locutores y sus transcripciones de texto

  2. Un gran corpus de texto

  3. Diccionario de pronunciación fonética (opcional en tecnologías más modernas)

La ASR ha progresado significativamente en la última década nuevamente gracias al advenimiento del aprendizaje profundo. En septiembre de 2017, Microsoft anunció sus resultados para un sistema de reconocimiento de voz en inglés que podría lograr un rendimiento mejor que el humano en la transcripción del habla. Su sistema se basó en un conjunto de datos de 200 MILLONES de palabras transcritas del discurso conversacional. Estos desarrollos ya han tenido un gran impacto ya que los asistentes virtuales se han convertido en una aplicación cotidiana, búsqueda por voz y transcripción automática de audio.

De texto a voz

Texto a voz (o síntesis de voz) implica la producción de un discurso similar al humano dada una entrada de texto con un ordenador. Antes del advenimiento del aprendizaje profundo, había dos enfoques principales para la síntesis de texto a voz (TTS): TTS concatenativo y TTS paramétrico. Concatenative TTS, también llamada selección de unidades, combina cortos clips de audio pregrabados llamados unidades para sintetizar el texto deseado. Concatenative TTS puede proporcionar un buen rendimiento en términos de calidad del habla, pero el procedimiento de corte y puntada significa una falta de naturalidad. El TTS paramétrico se basa en métodos estadísticos mediante la generación de voz con una combinación de parámetros como F0 y energía, modelando la producción de voz humana.

Actualmente, la mayoría de los sistemas TTS modernos se basan en métodos de aprendizaje profundo. Las redes neuronales profundas se entrenan utilizando una gran cantidad de voz grabada y las transcripciones de texto asociadas. A diferencia de los datos de capacitación de ASR, generalmente se recopilan de un solo orador. El sistema TTS resultante es capaz de replicar la voz de este orador en particular.

TTS es importante para hacer que los ordenadores sean accesibles a las personas ciegas o con visión parcial, ya que les permite «leer» desde la pantalla. La tecnología TTS se puede vincular a cualquier entrada escrita en una variedad de idiomas, por ejemplo, pronunciación automática de palabras de un diccionario en línea, lectura en voz alta de un texto, interfaz para un asistente de voz, etc.

En el caso de lenguas en peligro y minoritarias, TTS puede ayudar al aprendizaje de idiomas y la documentación lingüística. Los estudiantes que no tienen acceso a oradores pueden estudiar cómo se pronuncia una oración sin la ayuda de un tutor. Es un registro permanente de la lengua, ya que persistirá incluso después del momento en que no queden hablantes para la lengua.


_images/logos.png

Este documento fue creado con el apoyo financiero de la Unión Europea. El contenido de este sitio web es responsabilidad exclusiva de Col·lectivaT y SKAD, y no refleja necesariamente las opiniones de la Unión Europea.