Google anuncia el soporte multilingüe para el Google Assistant

By Jc Olivera on August 30, 2018@JcOlivera

Ya puedes usar más de un idioma con el asistente de Google

Enseñando al Asistente de Google a ser multilingüe

** THE SHOWBIZ LIVE! – AUG 30, 2018 – Los hogares multilingües son cada vez más comunes, con varias fuentes [1] [2] [3] que indican que las personas multilingües ya superan en número a los monolingües, y que este número seguirá creciendo. Con esta gran y creciente población de usuarios multilingües, es más importante que nunca que Google desarrolle productos que puedan entender múltiples idiomas simultáneamente para servir mejor a nuestros usuarios.

Hoy, estamos lanzando el soporte multilingüe para el Asistente de Google, que permite a los usuarios saltar entre dos idiomas diferentes entre consultas, sin tener que volver a su configuración de idioma. Una vez que los usuarios seleccionan dos de los idiomas compatibles, inglés, español, francés, alemán, italiano y japonés, de allí en adelante pueden hablar con el Asistente en cualquier idioma y el Asistente responderá en el idioma de la pregunta. Anteriormente, los usuarios tenían que elegir una configuración de idioma única para el Asistente, cambiar su configuración cada vez que querían utilizar otro idioma, pero ahora, es una experiencia sencilla y con manos libres para hogares multilingües.

El Asistente de Google ahora puede identificar el idioma, interpretar la consulta y proporcionar una respuesta utilizando el idioma correcto sin que el usuario tenga que tocar la configuración del Asistente.

Conseguir que esto funcione, sin embargo, no fue una tarea sencilla. De hecho, este fue un esfuerzo de varios años que implicó resolver muchos problemas desafiantes. Al final, dividimos el problema en tres partes discretas: identificación de idiomas múltiples, comprensión de idiomas múltiples y optimización del reconocimiento multilingüe para usuarios de Google Assistant.

Identificación de idiomas múltiples

Las personas tienen la capacidad de reconocer cuando alguien está hablando otro idioma, incluso si no hablan el idioma ellos mismos, simplemente prestando atención a la acústica del habla (entonación, registro fonético, etc.). Sin embargo, definir un marco computacional para el reconocimiento automático del lenguaje hablado es un desafío, incluso con la ayuda de sistemas completos de reconocimiento automático de voz. En 2013, Google comenzó a trabajar en la tecnología de identificación del lenguaje hablado (LangID) utilizando redes neuronales profundas [4] [5]. Hoy en día, nuestros modelos de LangID de última generación pueden distinguir entre pares de idiomas en más de 2000 pares de idiomas alternativos, utilizando redes neuronales recurrentes, una familia de redes neuronales que son particularmente exitosas para problemas de modelado de secuencias, tales como los de reconocimiento de voz, detección de voz, reconocimiento de hablante y otros. Uno de los desafíos con los que nos topamos fue trabajar con conjuntos de audio más grandes: obtener modelos que pueden comprender automáticamente varios idiomas a escala y alcanzar un estándar de calidad que permitiera a esos modelos funcionar correctamente.

Comprensión de varios idiomas

Para comprender más de un idioma a la vez, es necesario ejecutar varios procesos en paralelo, cada uno produciendo resultados incrementales, lo que permite al asistente no solo identificar el idioma en el que se habla la consulta, sino también analizar la consulta para crear un comando accionable. Por ejemplo, incluso para un entorno monolingüe, si un usuario solicita “configurar una alarma para las 6 p.m.”, el Asistente de Google debe comprender que “configurar una alarma” implica abrir la aplicación de reloj, cumpliendo el parámetro explícito de “6 p.m.” y además hacer la inferencia de que la alarma debe establecerse para hoy.

Hacer que esto funcione para cualquier par de idiomas compatibles es un desafío, ya que el Asistente ejecuta el mismo trabajo que para el caso monolingüe, pero ahora debe habilitar adicionalmente LangID, y no solo uno, sino dos sistemas monolingües de reconocimiento de voz simultáneamente (explicaremos más sobre la limitación actual de dos idiomas más adelante en esta publicación).

Es importante destacar que el Asistente de Google y otros servicios a los que se hace referencia en la consulta del usuario generan de forma asincrónica resultados incrementales en tiempo real que deben evaluarse en cuestión de milisegundos. Esto se logra con la ayuda de un algoritmo adicional que clasifica las hipótesis de transcripción proporcionadas por cada uno de los dos sistemas de reconocimiento de voz utilizando las probabilidades de los idiomas candidatos producidos por LangID, nuestra confianza en la transcripción y las preferencias del usuario (como artistas favoritos, por ejemplo).

Esquema de nuestro sistema de reconocimiento de voz multilingüe utilizado por el Asistente de Google versus el sistema de reconocimiento de voz monolingüe estándar. Se utiliza un algoritmo de clasificación para seleccionar las mejores hipótesis de reconocimiento de dos reconocedores de habla monolingües utilizando información relevante sobre el usuario y los resultados incrementales de langID.

Cuando el usuario deja de hablar, el modelo no solo ha determinado qué idioma se estaba hablando, sino también lo que se dijo. Por supuesto, este proceso requiere una arquitectura sofisticada que incluya un mayor costo de procesamiento y la posibilidad de introducir latencia innecesaria.

Optimización del reconocimiento multilingüe

Para minimizar estos efectos indeseables, cuanto más rápido el sistema pueda tomar una decisión sobre qué idioma se está hablando, mejor. Si el sistema se asegura del idioma que se habla antes de que el usuario finalice una consulta, dejará de ejecutar el discurso del usuario a través del reconocedor perdedor y descartará la hipótesis de la pérdida, reduciendo así el costo de procesamiento y reduciendo cualquier posible latencia. Con esto en mente, vimos varias formas de optimizar el sistema.

Un caso de uso que consideramos fue que las personas normalmente usan el mismo idioma a lo largo de su consulta (que también es el idioma que generalmente los usuarios desean escuchar del Asistente), con la excepción de preguntar sobre entidades con nombres en diferentes idiomas. Esto significa que, en la mayoría de los casos, centrarse en la primera parte de la consulta permite al Asistente hacer una conjetura preliminar del idioma que se está hablando, incluso en oraciones que contienen entidades en un idioma diferente. Con esta identificación temprana, la tarea se simplifica cambiando a un único reconocedor de voz monolingüe, como lo hacemos con las consultas monolingües. Sin embargo, tomar una decisión rápida sobre cómo y cuándo comprometerse con un solo idioma requiere un giro tecnológico final: específicamente, usamos una técnica de bosque aleatorio que combina múltiples señales contextuales, como el tipo de dispositivo que se utiliza, el número de hipótesis de discurso encontradas, la frecuencia con la que recibimos hipótesis similares, la incertidumbre de los reconocedores de voz individuales y la frecuencia con que se usa cada idioma.

Otra forma de simplificar y mejorar la calidad del sistema fue limitar la lista de idiomas candidatos que los usuarios pueden seleccionar. Los usuarios pueden elegir dos idiomas de los seis que nuestros dispositivos domésticos actualmente admiten, lo que nos permitirá admitir la mayoría de nuestros parlantes multilingües. A medida que continuemos mejorando nuestra tecnología, sin embargo, esperamos abordar el soporte trilingüe a continuación, sabiendo que esto mejorará aún más la experiencia de nuestra creciente base de usuarios.

Bilingüe a Trilingüe

Desde el principio, el objetivo de Google ha sido hacer que el Asistente sea naturalmente conversacional para todos los usuarios. El soporte multilingüe ha sido una característica muy solicitada, y es algo que su equipo puso en marcha hace años. Pero hoy en día no solo hay muchos hablantes bilingües en todo el mundo, también se quiere facilitar un poco la vida a los usuarios trilingües, o las familias que viven en hogares donde se hablan más de dos idiomas.

Con la actualización de hoy, estamos en el camino correcto, y fue posible gracias al avanzado aprendizaje automático, nuestras tecnologías de reconocimiento de voz y lenguaje, y el compromiso de nuestro equipo para perfeccionar nuestro modelo LangID. Ahora estamos trabajando para enseñarle al Asistente de Google cómo procesar más de dos idiomas simultáneamente y estamos trabajando para agregar más idiomas admitidos en el futuro. ¡Estén atentos!

Jc Olivera is the founder and Editor-in-Chief of The Showbiz Live!, An online magazine focused in entertainment news, he is also a contributor photographer for mayor photo agencies, graphic designer, tech and gadget enthusiast. // who happens to love coffee //