BERT se presenta como una nueva forma de procesar y decodificar el lenguaje natural, ayudando a Google a captar qué puede estar buscando el usuario...

Anunciado por Google como el mayor cambio en su sistema de búsqueda desde RankBrain (2015), según el gigante afectará a 1 de cada 10 consultas en idioma inglés.

¿Qué es BERT?

BERT es una técnica incorporada por Google, que asiste a sus algoritmos a comprender mejor el contexto de las búsquedas, los matices del lenguaje y las singulares conexiones entre las palabras de un modo que antes no hacía.

Bert, el personaje de Plaza Sésamo

Un nuevo método que busca afinar la comprensión del motor de búsqueda de las sutilezas del lenguaje, tratando de acercarse a la forma en que lo hacen los humanos.

Por ejemplo, comprende el valor de las preposiciones. Palabras como “a”, “para”, “por”, “hacia”, “desde”, “de”, “con”… Términos muy importantes para captar el significado e intención de una determinada búsqueda.

Cloud TPU

Además de mejoras de software, la implementación de BERT necesitó de innovaciones de hardware, utilizando los últimos avances de Cloud TPU.

Las unidades de procesamiento tensorial (TPU) son un circuito ASIC creado “a medida para el aprendizaje automático“, que Google ya usa en su motor de búsqueda para ofrecer resultados relevantes en forma más rápida, así como en el traductor, Gmail y otros de sus productos.

¿Por qué el nombre BERT?

Basada en una red neuronal de código abierto desarrollada y entrenada por Google “para el pre-entrenamiento del procesamiento de lenguaje natural (PNL)“, la técnica se llama BERT acortando su nombre original ‘Bidirectional Encoder Representations from Transformers’ (Representaciones de Codificador Bidireccional de Transformadores).

¿Cuándo y dónde salió BERT de Google?

BERT se presentó en el blog de Google en un post publicado el 25 de octubre de 2019, aunque se dio a conocer casi un año antes en el Google AI Blog.

Su documento académico BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding‘ fue publicado en mayo de 2019 por Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutnova.

Bert y Bernie, el dúo inseparable de Plaza Sésamo

BERT se implementó primero para consultas en inglés, antes de su pronta expansión a otros idiomas.

Actualmente, funciones de BERT se encuentran disponibles en dos docenas de países, como ser las mejoras de los fragmentos destacados, caso para el cual “vemos mejoras significativas en idiomas como coreano, hindú y portugués“, dice Google en su blog.

“BERT ayudará al buscador a comprender mejor una de cada 10 búsquedas en inglés en los EE. UU. y con el tiempo llevaremos esto a más idiomas y localidades”.

Blog de Google

Además, el objetivo es aprender de un idioma y aplicarlo a otros, ayudando a dar mejores resultados en los diferentes idiomas en los que es posible googlear.

¿Qué tan importante es BERT para Google?

Se trata de otro paso por parte del gigante para comprender la intención de búsqueda del usuario y así mejorar la precisión de sus resultados, aprendiendo más sobre cómo buscamos.

Una muestra más de la importancia de la búsqueda semántica.

En palabras de Google:

“… este cambio representa el mayor avance en los últimos cinco años, y uno de los mayores avances en la historia del motor de búsqueda” .

Ver: ¿Qué es la búsqueda semántica de Google?

Para no pocos, con cierta razón y paranoia, se trata de otra mancha más en el tigre en cuanto a la amenaza contra la privacidad del usuario.

¿Qué mejoran, en teoría, los modelos BERT?

Contexto de las palabras y la intención de búsqueda

BERT permite comprender las relaciones entre palabras, en vez de analizar cada una aisladamente.

En palabras de Google:

Estos modelos procesan palabras en relación con todas las otras palabras en una oración, en lugar de una por una en orden. Por lo tanto, los modelos BERT pueden considerar el contexto completo de una palabra al observar las palabras que vienen antes y después, algo particularmente útil para comprender la intención detrás de las consultas de búsqueda”.

Fragmentos Destacados

BERT busca mejorar la precisión de los fragmentos destacados -los llamados featured snippets-, esos resultados de búsqueda especiales que aparecen en la cima de Google encuadrados, primero con el texto y luego el título.

El lenguaje natural de las búsquedas…

Google dice que los modelos BERT serán especialmente útiles en búsquedas “más largas y más conversacionales.

Esto quizá se refiera a las búsquedas por voz o las típicas consultas informales del usuario, es decir el lenguaje natural con el que se busca.

A la vez, el gigante de los buscadores destaca que colaborará en aquellas búsquedas donde preposiciones como “para” o “a” (‘for’ o ‘to’) sean determinantes para comprender el significado, matices y el contexto de las palabras en una consulta.

Un complemento de RankBrain

Según explica SearchEngineLand, BERT es un método adicional para comprender las consultas del usuario, pero no va a reemplazar a RankBrain (el primer método de inteligencia artificial de Google implementado en 2015), sino que para dar los resultados más relevantes, el buscador puede utilizar uno, el otro o una combinación de ambos.

Ejemplos de BERT compartidos por Google

Ej 1 – Brasilero busca viajar a EE.UU. con visa

En la consulta “El viajero brasileño de 2019 a EE. UU. Necesita una visa“, la preposición “a” (“to”) indica que es un brasileño quien quiere viajar a los Estados Unidos.

“Anteriormente, nuestros algoritmos no entendían la importancia de esta conexión, y devolvíamos resultados sobre ciudadanos estadounidenses que viajaban a Brasil. Con BERT, el motor de búsqueda puede comprender este matiz y saber que la palabra muy común “a” (“to”) realmente importa mucho aquí, y podemos proporcionar un resultado mucho más relevante para esta consulta”.

Ej 2 – ¿Se pueden comprar en la farmacia remedios para otros?

Antes la consulta “Puedes conseguir medicamentos para alguien farmacia” devolvía como resultado principal un contenido de Medline Plus sobre cómo conseguir una receta médica.

Ahora los primeros resultados en formato de fragmento destacado (Featured Snippets) son contenidos de HHS.gov o NHS.uk con la consulta y respuesta a: “¿Puedo recoger una receta para otra persona?”.

“Con el modelo BERT podemos entender mejor que “para alguien” (“for someone”) es una parte importante de esta consulta, mientras que anteriormente no vimos el significado, con resultados generales sobre recetas médicas”.

¿Cómo se optimiza para BERT?

La pregunta del millón, pero es de ese tipo de interrogantes sin respuesta. Nadie conoce los misterios de los algoritmos y prácticas de Google.

BERT se perfila como una nueva refinada de los sistemas de Google para comprender mejor el lenguaje natural.

Para quienes escriben y publican en Internet, esto significa seguir escribiendo para el usuario.

Tratar de identificar, además de palabras clave, qué y cómo buscan los usuarios para así procurar dar el mejor contenido posible, esperando que coincida con los criterios de relevancia del buscador.