Published on

Arquitectura Titán de Google Rompe el Cuello de Botella de Memoria de Transformer

Autores
  • avatar
    Nombre
    Ajax
    Twitter

Introducción a Titán: Una Nueva Arquitectura de Google

El mundo de la tecnología está entusiasmado con Titán, una arquitectura novedosa que emerge de Google. Está diseñada para desafiar las limitaciones de los modelos Transformer, particularmente en cómo manejan la memoria. Esta nueva arquitectura está ganando una atención significativa como un posible sucesor del Transformer, especialmente dado su desarrollo por un equipo dentro de Google.

El Desafío de la Memoria en los Modelos Existentes

Los modelos tradicionales como LSTM y Transformer, aunque innovadores, enfrentan desafíos al simular la memoria humana. Estos desafíos incluyen:

  • Capacidad Limitada: Los datos a menudo se comprimen en un estado oculto de tamaño fijo, restringiendo la cantidad de información que se puede retener.
  • Sobrecarga Computacional: Si bien son capaces de capturar dependencias de largo alcance, el costo computacional aumenta cuadráticamente con la longitud de la secuencia, lo que lo hace ineficiente para secuencias muy largas.
  • Dependencia Excesiva de los Datos de Entrenamiento: Simplemente memorizar los datos de entrenamiento no siempre ayuda con la aplicación en el mundo real, donde los datos de prueba pueden quedar fuera de la distribución del entrenamiento.

El Enfoque de Titán: Un Módulo de Memoria Neuro-Inspirado

El equipo de Titán ha adoptado un enfoque diferente, buscando codificar la información en los parámetros de una red neuronal. Han desarrollado un meta-modelo en línea diseñado para aprender cómo recordar y olvidar datos específicos durante las pruebas. Este modelo está inspirado en principios neuropsicológicos, incorporando los siguientes elementos clave:

  • La Sorpresa como Desencadenante: Los eventos inesperados se recuerdan más fácilmente. La "sorpresa" se mide por el gradiente de la entrada al módulo de memoria. Cuanto mayor es el gradiente, más inesperada es la entrada.
  • Mecanismos de Impulso y Olvido: Un mecanismo de impulso acumula sorpresas a corto plazo en la memoria a largo plazo, mientras que un mecanismo de olvido borra los recuerdos antiguos, evitando el desbordamiento de la memoria.
  • Memoria Basada en Perceptrón Multicapa (MLP): El módulo de memoria está compuesto por múltiples capas MLP, lo que le permite almacenar abstracciones profundas de datos, haciéndolo más poderoso que las memorias tradicionales basadas en matrices.

Este enfoque de meta-aprendizaje en línea ayuda al modelo a centrarse en aprender cómo adaptarse a nuevos datos, en lugar de simplemente memorizar los datos de entrenamiento. El módulo también está diseñado para el cálculo paralelo, lo que mejora su eficiencia.

Integración del Módulo de Memoria en Arquitecturas de Aprendizaje Profundo

El equipo de investigación de Titán propuso tres variaciones para incorporar su módulo de memoria en arquitecturas de aprendizaje profundo:

  1. MAC (Memoria como Contexto): Este método combina la memoria a largo plazo y persistente (que codifica el conocimiento de la tarea) como contexto que se introduce en el mecanismo de atención.
  2. MAG (Memoria como Puerta): Este enfoque utiliza la fusión con puerta del módulo de memoria con un mecanismo de atención de ventana deslizante en dos ramas.
  3. MAL (Memoria como Capa): Aquí, el módulo de memoria se implementa como una capa independiente que comprime la información histórica antes de alimentarla al mecanismo de atención.

El equipo descubrió que cada variación tiene sus fortalezas y debilidades.

Rendimiento y Ventajas de Titán

Titán ha demostrado un rendimiento superior en una variedad de tareas, incluido el modelado de lenguaje, el razonamiento de sentido común y la predicción de series temporales. Ha superado a modelos de última generación como Transformer y Mamba. En particular, el módulo de memoria a largo plazo (LMM) solo ha superado a los modelos de referencia en varias tareas, mostrando sus capacidades de aprendizaje independientes sin memoria a corto plazo (atención).

En una prueba de "aguja en un pajar" diseñada para encontrar pistas detalladas en textos largos, Titán mantuvo alrededor del 90% de precisión incluso cuando las longitudes de secuencia aumentaron de 2k a 16k. El equipo indica que las pruebas estándar no muestran completamente las ventajas de Titán en el manejo de textos largos. Titán también superó a modelos como GPT4, Mamba e incluso Llama3.1 con RAG en una tarea que requería inferencia de hechos distribuidos en documentos extremadamente largos.

Titán también ha mostrado un rendimiento impresionante en áreas específicas como la predicción de series temporales y el modelado de secuencias de ADN.

El Equipo Detrás de Titán

La investigación fue llevada a cabo por un equipo del grupo de algoritmos y optimización de Google Research NYC, que actualmente no forma parte de Google DeepMind.

  • Ali Behrouz, un pasante de la Universidad de Cornell, es el primer autor del artículo.
  • Zhong Peilin, un alumno de la Universidad de Tsinghua y graduado de doctorado de la Universidad de Columbia, es científico investigador en Google desde 2021. Es notable por haber publicado un artículo como primer autor en STOC 2016 como estudiante de pregrado.
  • Vahab Mirrokni, un Google Fellow y VP, lidera el equipo.

El equipo desarrolló Titán usando Pytorch y Jax y planea lanzar el código para capacitación y evaluación pronto.