Fundamentos do Transformador

Fundamentos do Transformador



Um transformador é um modelo de aprendizado profundo que adota o mecanismo da autoatenção, ponderando diferencialmente a importância de cada parte dos dados de entrada. É utilizado principalmente nas áreas de processamento de linguagem natural (PLN)[1] e visão computacional (CV). [2]

Assim como redes neurais recorrentes (RNNs), transformadores são projetados para processar dados de entrada sequenciais, como linguagem natural, com aplicações em tarefas como tradução e resumo de texto. No entanto, ao contrário das RNNs, os transformadores processam toda a entrada de uma vez. O mecanismo de atenção fornece contexto para qualquer posição na sequência de entrada. Por exemplo, se os dados de entrada forem uma frase em linguagem natural, o transformador não precisa processar uma palavra de cada vez. Isso permite mais paralelização do que as RNNs e, portanto, reduz os tempos de treinamento. [1]

Transformers foram introduzidos em 2017 por uma equipe do Google Brain[1] e são cada vez mais o modelo preferido para problemas de PLN,[3] substituindo modelos RNN como a memória de curto prazo longo (LSTM). A paralelização adicional do treinamento permite treinar em conjuntos de dados maiores. Isso levou ao desenvolvimento de sistemas pré-treinados como BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), que foram treinados com grandes conjuntos de dados linguísticos, como o Wikipedia Corpus e o Common Crawl, e podem ser ajustados para tarefas específicas. [4][5]

Entre em contato


Recomendar Leitura