¿Cómo funcionan los traductores automáticos, cuándo se inventaron? Descubre la historia y los secretos detrásde Google Translate y otros traductores automáticos


Hola lectores, Amicie aquí.

Esta vez con el primer artículo de la serie «Cuando las cifras se convierten en letras» en la que me dedicaré a hablar de la traducción automática.  

Estoy encantada de volver hoy con ustedes para presentarles varios artículos sobre la traducción automática. ¿Desde cuándo existen estas técnicas? ¿Cómo funcionan? ¿Son realmente eficaces? Esto es lo que trataremos de entender en esta serie de artículos

Hoy vamos a hablar de la evolución de la traducción automática a lo largo del tiempo, específicamente desde mediados del siglo XIX hasta la actualidad.

🔗 ¿Creatividad o fidelidad? La traducción según Borges y Rabassa

Como sabemos, los traductores automáticos no han dejado de mejorarse en los últimos años. Hemos asistido con admiración a los sorprendentes cambios de Google Translate, por ejemplo. Hasta hace unos años, Google Translate se consideraba una broma y era objeto de burla por parte de muchos usuarios. Pero muchos traductores, terminólogos, científicos y lingüistas han asumido la tarea y y han conseguido mejorar notablemente su rendimiento. Tanto es así que herramientas como Google Translation, Reverso o DeepL se han convertido en imprescindibles en nuestras vidas.  

Toda la información que he encontrado sobre el tema da la impresión de que lo que realmente ha dado importancia a la traducción digital es esta evolución, este paso de una traducción de tipo descifrado, es decir, palabra por palabra, a una traducción que tiene en cuenta las sutilezas, los dobles sentidos, las expresiones de una lengua. Pero ¿Cuándo y cómo conseguimos que los ordenadores logararan entender estos matices propios del lenguaje humano? 

En este primer artículo sobre la traducción automática, veremos las diferentes etapas por las que ha pasado la traducción automática para llegar al Google Translation y las otras herramientas que conocemos hoy en día. Vayamos entonces desde sus inicios.

Georgetown-IBM-Experiment ⋆ Into The Void Science
El Experimento Georgetown-IBM fue la primera máquina de traducción automática

Guerra Fría: necesidad urgente de traducir textos soviéticos 

Todo comienza en los años 50. Estados Unidos y la Unión Soviética se encuentran en plena Guerra Fría y circulan numerosos documentos rusos que contienen valiosa información científica. Los estadounidenses tienen que traducirlos rápida y masivamente para conocer el siguiente movimiento de los soviéticos.

Así es como el 7 de enero de 1954 se crea una de las primeras máquinas de traducción: el Experimento Georgetown-IBM, un diccionario de 250 palabras y 49 frases traducidas del ruso al inglés. Este «diccionario automático» era, por supuesto, muy limitado, ya que se trataba de una máquina de traducción, basada en la traducción palabra por palabra, que sólo tenía en cuenta 6 reglas gramaticales y ninguna estructura semántica. 

Sin embargo, esta primera máquina de traducción tiene el mérito de acelerar la investigación sobre los traductores automáticos. 

En 1966, el ALPAC (Automatic Language Processing Advisory Committee) presentó su informe sobre Georgetown-IBM al gobierno estadounidense. Los resultados fueron decepcionantes. El traductor automático no sólo era inexacto, sino también mucho más lento que un traductor humano. 

Este informe marca el final de este ancestro de nuestro actual programa de traducción. 

Entre 1966 y 1990: el alejamiento de la palabra 

Hasta los años noventa, la traducción automática intentó alejarse de la traducción palabra por palabra apoyándose en árboles sintácticos basados en la traducción de la estructura de la frase. Por eso, la creación de traductores automáticos requiere mucho tiempo, ya que las estructuras se introducen manualmente en el ordenador, lo que exige un trabajo de colaboración entre traductores, terminólogos, científicos y codificadores. 

Además, este método presenta cinco grandes problemas: 

  1. Ambigüedades semánticas.
  1. Ambigüedades gramaticales.
  1. Ambigüedades pronominales.
  1. Traducciones de expresiones fijas. 
  1. Registro lingüístico.

Veamos ejemplos de cada uno de estos problemas:

Tomemos como ejemplo el verbo «voler» en francés. Esta palabra significa tanto «robar» como «volar», por lo que es muy difícil para el ordenador saber qué palabra utilizar para traducir. Este es un ejemplo de ambigüedad semántica.

En el caso de las ambigüedades gramaticales, se trata sobre todo de un problema de conjugación. Por ejemplo, cuando se dice «bailamos el Gangnam Style», es imposible que el ordenador sepa si la acción tiene lugar en presente o en pasado. Como humanos, sabemos muy bien que es tiempo pasado, pero el ordenador no puede saber que la canción es extremadamente anticuada. 

Las ambigüedades pronominales pueden ser, por ejemplo, el uso de «you», en inglés, que podría traducirse al español como «tú» o «usted», dependiendo de la situación de enunciación y el grado de confianza de los hablantes. Esto le sería imposible saber a un ordenador.

Además, por supuesto, es muy difícil que un ordenador entienda las expresiones en cada idioma. Por ejemplo, «couper les cheveux en quatre» que literalmente significa «corta el caballo en cuatro» en realidad significa complicarse la vida.

Por último, por supuesto, el registro lingüístico. Esto incluye palabras de la jerga popular que son demasiado nuevas para que el ordenador las conozca y que pueden cambiar según la región del hablante. Por ejemplo, en Colombia «tomar el autobús» se dice «Coger la buseta». Si conoces algo del lenguaje de la calle en Brasil y Argentina, las palabras «buseta» (buceta, en realidad) y «coger», respectivamente, sabrás el significado tan hot que tienen estas dos palabras.  

Los años 90: el método estadístico 

Luego, en los años 90, se introdujo un nuevo método que revolucionó la traducción automática. Este era el método estadístico. En resumen, este método consiste en trabajar con un corpus, es decir, una enorme reserva de documentos ya traducidos a las lenguas de origen y de destino.

Al ordenador le interesan sobre todo los grupos de palabras o trozos de frases. Para cada segmento X escrito en la lengua de origen, tomemos el ejemplo del francés, observaremos la frecuencia con la que el segmento X ha sido traducido por el segmento Y en la lengua de destino, por ejemplo, el español. A partir de ahí, el ordenador traducirá el segmento X por el segmento Y que se produzca con más frecuencia.

Sin embargo, el ordenador, que tiene su propia lógica, no cortará la frase a traducir como lo habría hecho un humano. El ordenador corta las frases en función de los segmentos que aparecen con más frecuencia en su corpus.

Por ejemplo, tomemos la frase: « J’ai obtenu un certificat de travail.” (He conseguido un certificado de trabajo) 

Al traducir esta frase, el humano traducirá «j’ai obtenu» y luego se centrará en el grupo nominal «un certificat de travail». 

El ordenador, por su lado, se centrará en las ocurrencias y en este caso «un certificat de» y luego «travail». 

Por lo tanto, para este grupo nominal, mirará lo que muestran las estadísticas para el segmento X «un certificado de», por ejemplo: 

Y1. un certificado de: 50% 

Y2. Un diploma de: 35% 

Y3. Un título de: 10%

Y4. un documento de: 5% 

(Vale anotar que estas estadísticas son falsas, totalmente inventadas para ilustrar un dicho.)

En este ejemplo, la frecuencia del segmento Y1 es la más alta, lo que significa que esta es la traducción que el ordenador utilizará para traducir el segmento X. Así, el ordenador traducirá el grupo nominal «un certificat de» como «un certificado de». 

Una vez hecho esto, hace lo mismo con «travail» donde encuentra «trabajo» al 60% y «obra» al 40%, por lo que se quedará con «trabajo», que dará «un certificado de trabajo» cuando se junte. Sin embargo, tuvimos suerte porque casi terminamos con un “diploma de obra” que ya no tendría sentido. 

Este método es muy eficaz, pero, como se puede imaginar, rápidamente da lugar a incoherencias al ensamblar los fragmentos. Por lo tanto, los investigadores trataron de imponer a los ordenadores su propia forma de pensar y de dividir las frases. Sin embargo, paradójicamente, las traducciones no fueron tan buenas como antes.

Entonces, ¿podemos decir que el hombre ha conseguido crear máquinas que tienen su propia forma de pensar? 

8 razones para no usar Google Translate - The Spanish Group

Desde 2015: la IA y un cambio radical  

Desde 2015, la traducción automática ha experimentado un verdadero punto de inflexión. Fue en esta época cuando se empezó a utilizar cierta Inteligencia Artificial basada en redes neuronales para la traducción y es un método de traducción que está teniendo un éxito fenomenal tanto en el ámbito personal como en el profesional

Se trata del Deep Learning, pero dejaremos este interesante tema para un próximo artículo dedicado a la traducción automática.  

Por lo pronto, les agradezco, queridos lectores, por su atención.

Nos vemos la semana que viene con un nuevo artículo sobre la traducción automática en la que intentaremos comprender cómo funciona la Inteligencia Artificial y cómo puede utilizarse para la traducción.

-Amicie.

Lee todos mis artículos sobre traducción aquí >>

¿Te gustó este artículo sobre traducción automática? ¡Cuéntame en los comentarios!