Conceptos básicos del transformador

Conceptos básicos del transformador



Un transformador es un modelo de aprendizaje profundo que adopta el mecanismo de autoatención, ponderando diferencialmente la importancia de cada parte de los datos de entrada. Se utiliza principalmente en los campos del procesamiento del lenguaje natural (PNL)[1] y la visión por ordenador (CV). [2]

Al igual que las redes neuronales recurrentes (RNN), los transformadores están diseñados para procesar datos de entrada secuenciales, como el lenguaje natural, con aplicaciones para tareas como la traducción y el resumen de texto. Sin embargo, a diferencia de las RNN, los transformadores procesan toda la entrada de una sola vez. El mecanismo de atención proporciona contexto para cualquier posición en la secuencia de entrada. Por ejemplo, si los datos de entrada son una oración en lenguaje natural, el transformador no tiene que procesar una palabra a la vez. Esto permite una mayor paralelización que las RNN y, por lo tanto, reduce los tiempos de entrenamiento. [1]

Los transformadores fueron introducidos en 2017 por un equipo de Google Brain[1] y son cada vez más el modelo de elección para los problemas de PNL,[3] reemplazando a los modelos RNN como la memoria a corto plazo largo (LSTM). La paralelización de entrenamiento adicional permite el entrenamiento en conjuntos de datos más grandes. Esto llevó al desarrollo de sistemas preentrenados como BERT (Bidirectional Encoder Representations from Transformers) y GPT (Generative Pre-trained Transformer), que fueron entrenados con grandes conjuntos de datos de lenguaje, como el Corpus de Wikipedia y Common Crawl, y pueden ajustarse para tareas específicas. [4] [5]

Póngase en contacto con nosotros


Recomendar lectura