Conceptos básicos del transformador

Conceptos básicos del transformador



Un transformador es un modelo de aprendizaje profundo que adopta el mecanismo de autoatención, ponderando de forma diferencial la importancia de cada parte de los datos de entrada. Se utiliza principalmente en los campos del procesamiento del lenguaje natural (PLN)[1] y la visión por ordenador (CV). [2]

Al igual que las redes neuronales recurrentes (RNN), los transformadores están diseñados para procesar datos de entrada secuenciales, como el lenguaje natural, con aplicaciones en tareas como la traducción y la resumen de texto. Sin embargo, a diferencia de las RNN, los transformadores procesan toda la entrada de una sola vez. El mecanismo de atención proporciona contexto para cualquier posición en la secuencia de entrada. Por ejemplo, si los datos de entrada son una oración en lenguaje natural, el transformador no tiene que procesar una palabra a la vez. Esto permite una mayor paralelización que las RNN y, por tanto, reduce los tiempos de entrenamiento. [1]

Los Transformers fueron introducidos en 2017 por un equipo de Google Brain[1] y son cada vez más el modelo preferido para problemas de PLN,[3] reemplazando a modelos RNN como la memoria a corto plazo largo (LSTM). La paralelización adicional del entrenamiento permite entrenar en conjuntos de datos más grandes. Esto llevó al desarrollo de sistemas preentrenados como BERT (Bidirectional Encoder Representations from Transformers) y GPT (Generative Pre-trained Transformer), que se entrenaban con grandes conjuntos de datos de lenguaje, como el Wikipedia Corpus y el Common Crawl, y que podían ajustarse para tareas específicas. [4][5]

Ponte en contacto


Recomendar lectura