Grandes modelos de linguagem: aprimorando recursos com codificador de áudio

Large Language Models (LLMs) tornaram-se cada vez mais populares desde a introdução do ChatGPT da OpenAI. Esses modelos são excelentes em diversas tarefas, como responder perguntas, resumir textos, traduzir idiomas e muito mais. Os LLMs são construídos em subcampos de Inteligência Artificial, incluindo Processamento de Linguagem Natural, Compreensão de Linguagem Natural, Visão Computacional e outros.

Os LLMs treinam prevendo a próxima palavra em grandes quantidades de dados de texto. Este treinamento permite que eles codifiquem uma quantidade significativa de conhecimento sobre o mundo em suas redes neurais. Como resultado, os LLMs são úteis para uma ampla gama de tarefas.

Pesquisas recentes levaram os recursos do LLM um passo adiante ao incorporar um codificador de áudio ao modelo. Isso permite que o LLM execute tarefas de reconhecimento automático de fala (ASR) e traduza a comunicação falada em texto. Ao integrar diretamente representações de dados de áudio nos embeddings de tokens de texto existentes, o LLM ganha habilidades de reconhecimento de fala semelhantes às de sua contraparte baseada em texto.

A equipe de pesquisa demonstrou a eficácia desta abordagem analisando as saídas do codificador de áudio e confirmando a correspondência precisa das incorporações de áudio com os tokens de texto correspondentes. A equipe utilizou o conjunto de dados Multilingual LibriSpeech (MLS) para avaliação e descobriu que o LLM ajustado, conhecido como LLaMA-7B, superou as linhas de base monolíngues em 18% em tarefas de reconhecimento de voz.

Além da avaliação de desempenho, a pesquisa também explorou outros aspectos do LLM aumentado. Ensaios de ablação mostraram que o LLM ainda pode ter um bom desempenho em tarefas multilíngues de ASR, mesmo quando congelado durante o treinamento, sem alterar seus parâmetros.

A equipe também investigou os efeitos da ampliação do codificador de áudio e do ajuste dos parâmetros associados à divisão de áudio. Estes testes visaram melhorar a eficiência e eficácia do sistema ASR. Os resultados mostraram que os LLMs podem processar entradas de áudio de formato longo, mesmo com codificadores de áudio maiores ou passos mais longos.

No geral, a pesquisa demonstra a promessa do uso de LLMs com codificadores de áudio para aprimorar as capacidades de ASR multilíngue. Com os avanços no processamento de áudio, os LLMs têm o potencial de lidar com uma ampla gama de tarefas baseadas em áudio de forma eficaz e eficiente.