Si usas Google Translate, estoy seguro que te ha pasado. Traduces entre dos idiomas que no son inglés, y en algún punto se pierde el sentido de la traducción. Un ejemplo muy sencillo:

En chino, “¿Cuál es su nombre?” se dice “您贵姓?” (Nín guìxìng?), donde ” 您” significa “usted”. Sin embargo, al usar el traductor de Google, tenemos lo siguiente:

Cómo funciona Google Translate: Prueba de chino a español 1.
Cómo funciona Google Translate: Prueba de chino a español 1.

Ignorando por un momento la falta de acento y de signos de interrogación, podrán ver que “您 ” es traducido a español como “tu”.

Más raro aún, la palabra para brindar en chino es “干杯” (gānbēi), pero es traducida a español como…

Cómo funciona Google Translate: Prueba de chino a español 2.
Cómo funciona Google Translate: Prueba de chino a español 2.

… tostadas.

Lo que nos lleva a preguntarnos: ¿Cómo funciona Google Translate?

Adrien Lucas Ecoffet explicó en Quora el procedimiento mediante el cual Google Translate traduce para 71 idiomas:

Traducción automática estadística

Contrario a lo que uno podría pensar, el Google Translate no funciona por medio de un análisis sintáctico en el idioma de origen para abastraer su significado y luego restituir ese significado en el idioma de destino. Google no pidió a los expertos en idiomas que escribieran las reglas gramaticales para cada idioma para analizarlas en árboles semánticos.

Google usa la Traducción Automática Estadística (SMT por sus siglas en inglés). La SMT se basa en el uso de grandes cantidades de traducciones humanas del lenguaje A al lenguaje B, y utiliza métodos estadísticos para encontrar la oración que cree que es la traducción más probable del idioma B de una oración en el idioma A según las probabilidades derivadas de ese corpus.

SMT es ampliamente aceptado como el algoritmo de traducción automática más conocido y eficiente que se conoce en la actualidad. Tiende a comportarse relativamente bien con reglas gramaticales esotéricas, palabras desconocidas, y puede conservar el estilo hasta cierto punto. Lo más importante para Google es que mejora a medida que se agregan más datos al corpus, y Google tiene muchos datos.

Ejes y radios

La traducción automática estadística sufre un problema que las aerolíneas han enfrentado durante décadas.

Supongamos que una aerolínea quiere operar en cada estado de los Estados Unidos. Supongamos además que quiere que cualquier persona pueda volar a cualquier ciudad en un día determinado. Si la aerolínea solo opera vuelos directos, deberán asegurarse de que cada una de las 50 ciudades tenga un vuelo a cada una de las otras 49 ciudades. Por lo tanto, deberán operar al menos 50 * 49 = 2,450 vuelos por día.

Pero, ¿qué pasa si la aerolínea decide volar a todos a Denver, Colorado, y una vez ahí a su destino? Entonces sólo necesitarán operar vuelos de cada una de las otras 49 ciudades a Denver, y de Denver a cada una de las 49 ciudades, lo que nos da un mínimo de 2 * 49 = 98 vuelos por día. Suena mucho más económico. Si alguna vez has volado a algún lugar, probablemente hayas notado que las aerolíneas sí utilizan este método, llamado paradigma de distribución spoke-hub.

Google Translate funciona como un nodo central. File:Airline hub-1995.svg
Google Translate funciona como un nodo central. Fuente: Airline_hub-1995.svg

Espero que en este punto te hayas dado cuenta de cómo funciona Google Translate. La traducción automática estadística solo puede llevarte directamente de un idioma a otro. Google Translate maneja 71 idiomas, si conté correctamente. Esto significa que Google necesitaría 71 * 70 = 4,970 modelos estadísticos de un idioma a otro, generados a partir de 71 * 70/2 = 2,485 corpus bilingües, ya que presuntamente se puede usar un corpus de un solo idioma para generar modelos de traducción en ambas direcciones. Es una gran cantidad de datos, y muchos de estos corpus bilingües pueden ser tan pequeños que la calidad de la traducción sería bastante mala de todos modos. Además, la gente rara vez necesita traducir cosas del swajili al yiddish.

Presuntamente, Google recibe principalmente solicitudes de traducciones desde y hacia el inglés. Además, con proyectos como Google Books y simplemente indexando la web, Google ha adquirido corpus de texto sesgados hacia el inglés. Por estas razones, parecería que el inglés es una opción razonable, como el Denver de Google. Si Google usa el inglés como centro, solo necesitan 70 corpus y 140 modelos estadísticos, una mejora de 35.5x.

El experimento

Podemos intentar confirmar esto a través de un experimento. Tengo la suerte de hablar francés (mi lengua materna), inglés (obviamente) y un poco de alemán.

Esto es perfecto porque, como verás, ofrece buenas posibilidades para la experimentación, y también porque si Google elige hacer un caso especial manejando pares específicos de idiomas directamente, y solo otros a través del inglés, el francés y el alemán serían bastante altos en la lista ya que debe usarse con bastante frecuencia y debe ser bastante fácil encontrar un buen corpus bilingüe francés/alemán.

Pensar en las características para la prueba no es tan difícil: lo primero que se me ocurrió fueron las diversas formas de “usted”. El inglés solo tiene una forma, pero el francés y el alemán tienen el informal de : tu en francés y du en alemán, el plural: vous en francés e ihr en alemán, y el formal: vous en francés y Sie en alemán. Las reglas de cortesía son más o menos similares en francés y alemán, por lo que sería un buen indicador si se perdiera en la traducción.

[…] Todos los nombres de profesiones en alemán contienen información de género (Lehrer/Lehrerin), algunos, relativamente pocos, lo tienen en francés (técnicamente, todos los nombres de profesiones se pueden feminizar, pero a menudo “suena mal”), y son muchos menos en inglés.

He aquí lo asombroso: dado que algunos nombres de profesiones contienen información de género en inglés, sería una evidencia bastante sólida para los radios si la información de género se tradujera del francés al alemán solo en los casos en que también exista en inglés, ¿cierto?

Aquí están los resultados de mi experimento. En la mayoría de los casos intenté traducir del francés al alemán y del alemán al francés, y obtuve los mismos resultados. Aquí solo mostraré francés a alemán.

Google acierta en la primera oración:

En francés: “Usted es el maestro”. En alemán: “Usted es el maestro”. Correcto.

Pero solo fue cuestión de suerte:

En francés: “Tú eres la maestra”. En Alemán: “Usted es el maestro”. Incorrecto.

Google perdió tanto el nivel de cortesía como la información del género… Tal como lo predijo nuestra teoría.

Ahora volvamos al punto de partida para mostrar que Google a veces puede mantener información del género:

En francés: “Usted es el actor”. En alemán: “Usted es el actor”. Correcto.
En francés: “Usted es la actriz”. En alemán: “Usted es la actriz”. Correcto.

Claramente funcionó porque el texto intermedio en inglés también mantuvo la información de género gracias a la palabra actress.

Así que Google utiliza el inglés para traducir entre francés y alemán.

QED.


0 Comments

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *