Noções básicas do transformador

Noções básicas do transformador



Um transformador é um modelo de aprendizagem profunda que adota o mecanismo de auto-atenção, ponderando diferencialmente a significância de cada parte dos dados de entrada. É usado principalmente nos campos de processamento de linguagem natural (PNL)[1] e visão computacional (CV). [2]

Como as redes neurais recorrentes (RNNs), os transformadores são projetados para processar dados de entrada sequenciais, como linguagem natural, com aplicações para tarefas como tradução e sumarização de texto. No entanto, ao contrário dos RNNs, os transformadores processam toda a entrada de uma só vez. O mecanismo de atenção fornece contexto para qualquer posição na sequência de entrada. Por exemplo, se os dados de entrada forem uma frase de linguagem natural, o transformador não precisará processar uma palavra de cada vez. Isso permite mais paralelização do que os RNNs e, portanto, reduz os tempos de treinamento. [1]

Os transformadores foram introduzidos em 2017 por uma equipe do Google Brain[1] e são cada vez mais o modelo de escolha para problemas de PNL,[3] substituindo modelos RNN, como a memória de longo prazo (LSTM). A paralelização de treinamento adicional permite o treinamento em conjuntos de dados maiores. Isso levou ao desenvolvimento de sistemas pré-treinados, como BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), que foram treinados com grandes conjuntos de dados de linguagem, como o Wikipedia Corpus e o Common Crawl, e podem ser ajustados para tarefas específicas. [4] [5]

Entre em contato


Recomendo ler