domingo, 17 de noviembre de 2013

Almacenando millones de palabras para alcanzar la traducción automática perfecta

Los seres humanos siempre han soñado con máquinas para traducir las lenguas de los extranjeros, acaso como ese dispositivo tipo Star Trek que nos permitiría acceder a la comunicación universal. La traducción automática, de hecho, ya fue un objetivo de los pioneros de la informática en la década de 1940, cuando los ordenadores ocupaban habitaciones enteras.

En 1954, combinando reglas gramaticales y un diccionario bilingüe, un ordenador de IBM tradujo 60 frases rusas al inglés. Concretamente usó 250 pares de palabras de vocabulario y 6 reglas gramaticales. Alguna de las frases que se tradujeron impecablemente fueron, por ejemplo, “Mi pyeryedayem mislyi posryedstvom ryechyi”. Tras el reverberar del IBM 701, por medio de tarjetas perforadas, salió: “Transmitimos pensamientos por medio del habla”.

El logro fue tan celebrado, resultó tan impresionante para todo el mundo, que al director del programa de investigación, Leon Dostert, no le dolieron prendas al pronosticar que en un plazo de cinco años, aproximadamente, la traducción automática constituiría un “hecho acabado.”

Sin embargo, con el transcurrir de los años, los expertos advirtieron que traducir automáticamente entrañaba más obstáculos de lo que parecía. El ordenador no sólo debe aprender las reglas, sino las excepciones; y la traducción no consiste sólo en memorizar y recordar, sino en usar la inteligencia para escoger las palabras correctas entre muchas opciones.

A partir de 1980, los investigadores empezaron a permitir que el ordenador usara la probabilidad estadística para calcular qué palabra o frase de un idioma en concreto era la más oportuna, además de tener en cuenta las reglas lingüísticas explícitas junto con un diccionario. En la década de 1990, el programa Candide de IBM usó el equivalente a 10 años de transcripciones de sesiones del Parlamento de Canadá publicadas en francés y en inglés: unos tres millones de pares de frases.

Empezaba, pues, un salto conceptual, una nueva era llamada traducción estadística automática, lo que permitió que las traducciones a través de un ordenador se volvieran mucho más precisas. Con todo, las buenas traducciones distaban mucho de producirse. Hasta 2006.

Fue entonces cuando Google se propuso traducir. En vez de basarse en páginas de texto bien traducidas en dos idiomas, lo que hizo Google fue usar un conjunto de datos mucho más amplio, aunque también más confuso: todo lo que había en Internet. Tal y como explica Viktor Mayer-Schönberger en Big Data:

Su sistema absorbió todas las traducciones que pudo encontrar, para entrenar al ordenador. Así, entraron páginas web corporativas en múltiples idiomas, traducciones idénticas de documentos oficiales e informes de organismos intergubernamentales como las Naciones Unidas y la Unión Europea. Se incluyeron hasta traducciones de libros del proyecto de escaneo de libros de Google. Mientras Candide había usado tres millones de frases cuidadosamente traducidas, el sistema de Google aprovechó miles de millones de páginas de traducciones de calidad muy variable, según el director de Google Translate, Franz Josef Och, una de las autoridades punteras en este campo. Su corpus de un billón de palabras representaba noventa y cinco mil millones de frases en inglés, aunque fueran de dudosa calidad.

Aunque sea más confusa, la mayor información de la que dispone Google permite ser mucho más preciso en sus traducciones que los sistemas anteriores. Y también es más rico: a mediados de 2012, su base de datos cubría más de 60 idiomas. Y también es más flexible: puede añadir y retirar palabras conforme vayan introduciéndose y cayendo en desuso. El algoritmo de Google no es más sofisticado, sino que tiene acceso a una mayor cantidad de datos.

Como trata el lenguaje sencillamente como un conjunto de datos confusos con los que estimar probabilidades, puede incluso traducir entre idiomas para los que existen escasas traducciones directas que añadirle, por ejemplo, el hindi y el catalán. En esos casos, recurre al inglés como puente.