Conceptos básicos del transformador

Conceptos básicos del transformador



Un transformador es un modelo de aprendizaje profundo que adopta el mecanismo de la autoatención, ponderando diferencialmente la importancia de cada parte de los datos de entrada. Se utiliza principalmente en los campos del procesamiento del lenguaje natural (PLN)[1] y la visión artificial (CV). [2]

Al igual que las redes neuronales recurrentes (RNN), los transformadores están diseñados para procesar datos de entrada secuenciales, como el lenguaje natural, con aplicaciones para tareas como la traducción y el resumen de textos. Sin embargo, a diferencia de las RNN, los transformadores procesan toda la entrada de una sola vez. El mecanismo de atención proporciona contexto para cualquier posición en la secuencia de entrada. Por ejemplo, si los datos de entrada son una oración en lenguaje natural, el transformador no tiene que procesar una palabra a la vez. Esto permite una mayor paralelización que las RNN y, por lo tanto, reduce los tiempos de entrenamiento. [1]

Los transformadores fueron introducidos en 2017 por un equipo de Google Brain[1] y son cada vez más el modelo de elección para los problemas de PNL,[3] reemplazando a los modelos RNN como la memoria a corto plazo (LSTM). La paralelización de entrenamiento adicional permite el entrenamiento en conjuntos de datos más grandes. Esto condujo al desarrollo de sistemas preentrenados como BERT (Bidirectional Encoder Representations from Transformers) y GPT (Generative Pre-trained Transformer), que se entrenaron con grandes conjuntos de datos de lenguaje, como el Wikipedia Corpus y Common Crawl, y se pueden ajustar para tareas específicas. [4][5]

Póngase en contacto


Recomendar lectura