Noções básicas do transformador
Um transformador é um modelo de aprendizado profundo que adota o mecanismo de autoatenção, ponderando diferencialmente a significância de cada parte dos dados de entrada. É usado principalmente nas áreas de processamento de linguagem natural (NLP)[1] e visão computacional (CV). [2]
Como as redes neurais recorrentes (RNNs), os transformadores são projetados para processar dados de entrada sequenciais, como linguagem natural, com aplicações em tarefas como tradução e resumo de texto. No entanto, ao contrário dos RNNs, os transformadores processam toda a entrada de uma só vez. O mecanismo de atenção fornece contexto para qualquer posição na sequência de entrada. Por exemplo, se os dados de entrada forem uma frase em linguagem natural, o transformador não precisará processar uma palavra por vez. Isso permite mais paralelização do que RNNs e, portanto, reduz os tempos de treinamento. [1]
Os transformadores foram introduzidos em 2017 por uma equipe do Google Brain[1] e são cada vez mais o modelo de escolha para problemas de PNL,[3] substituindo modelos de RNN, como a memória de longo e curto prazo (LSTM). A paralelização de treinamento adicional permite o treinamento em conjuntos de dados maiores. Isso levou ao desenvolvimento de sistemas pré-treinados, como BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), que foram treinados com grandes conjuntos de dados de linguagem, como o Wikipedia Corpus e o Common Crawl, e podem ser ajustados para tarefas específicas. [4][5]
Como as redes neurais recorrentes (RNNs), os transformadores são projetados para processar dados de entrada sequenciais, como linguagem natural, com aplicações em tarefas como tradução e resumo de texto. No entanto, ao contrário dos RNNs, os transformadores processam toda a entrada de uma só vez. O mecanismo de atenção fornece contexto para qualquer posição na sequência de entrada. Por exemplo, se os dados de entrada forem uma frase em linguagem natural, o transformador não precisará processar uma palavra por vez. Isso permite mais paralelização do que RNNs e, portanto, reduz os tempos de treinamento. [1]
Os transformadores foram introduzidos em 2017 por uma equipe do Google Brain[1] e são cada vez mais o modelo de escolha para problemas de PNL,[3] substituindo modelos de RNN, como a memória de longo e curto prazo (LSTM). A paralelização de treinamento adicional permite o treinamento em conjuntos de dados maiores. Isso levou ao desenvolvimento de sistemas pré-treinados, como BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), que foram treinados com grandes conjuntos de dados de linguagem, como o Wikipedia Corpus e o Common Crawl, e podem ser ajustados para tarefas específicas. [4][5]