Große Sprachmodelle: Erweiterung der Fähigkeiten mit Audio-Encoder

Large Language Models (LLMs) erfreuen sich seit der Einführung von OpenAIs ChatGPT immer größerer Beliebtheit. Diese Modelle eignen sich hervorragend für verschiedene Aufgaben wie das Beantworten von Fragen, das Zusammenfassen von Texten, das Übersetzen von Sprachen und mehr. LLMs basieren auf Teilbereichen der künstlichen Intelligenz, einschließlich Verarbeitung natürlicher Sprache, Verständnis natürlicher Sprache, Computer Vision und anderen.

LLMs trainieren sich selbst, indem sie das nächste Wort in riesigen Textdatenmengen vorhersagen. Dieses Training ermöglicht es ihnen, eine beträchtliche Menge an Wissen über die Welt in ihren neuronalen Netzen zu kodieren. Daher sind LLMs für ein breites Aufgabenspektrum nützlich.

Jüngste Forschungen haben die LLM-Funktionen durch die Integration eines Audio-Encoders in das Modell einen Schritt weitergebracht. Dadurch kann das LLM automatische Spracherkennungsaufgaben (ASR) ausführen und gesprochene Kommunikation in Text übersetzen. Durch die direkte Integration von Audiodatendarstellungen in die vorhandenen Text-Token-Einbettungen erhält das LLM ähnliche Spracherkennungsfähigkeiten wie sein textbasiertes Gegenstück.

Das Forschungsteam hat die Wirksamkeit dieses Ansatzes demonstriert, indem es die Ausgaben des Audio-Encoders analysiert und die genaue Übereinstimmung von Audio-Einbettungen mit entsprechenden Text-Tokens bestätigt hat. Das Team nutzte den Multilingual LibriSpeech (MLS)-Datensatz zur Auswertung und stellte fest, dass das angepasste LLM, bekannt als LLaMA-7B, bei Spracherkennungsaufgaben die einsprachigen Basiswerte um 18 % übertraf.

Neben der Leistungsbewertung untersuchte die Forschung auch andere Aspekte des erweiterten LLM. Ablationsversuche haben gezeigt, dass das LLM bei mehrsprachigen ASR-Aufgaben auch dann noch gute Leistungen erbringen kann, wenn es während des Trainings eingefroren ist, ohne seine Parameter zu ändern.

Das Team untersuchte auch die Auswirkungen der Skalierung des Audio-Encoders und der Anpassung von Parametern im Zusammenhang mit der Audioaufteilung. Ziel dieser Tests war es, die Effizienz und Wirksamkeit des ASR-Systems zu verbessern. Die Ergebnisse zeigten, dass LLMs lange Audioeingaben verarbeiten können, selbst mit größeren Audio-Encodern oder längeren Schritten.

Insgesamt zeigt die Forschung, dass die Verwendung von LLMs mit Audio-Encodern vielversprechend ist, um die mehrsprachigen ASR-Funktionen zu verbessern. Mit den Fortschritten in der Audioverarbeitung haben LLMs das Potenzial, ein breites Spektrum audiobasierter Aufgaben effektiv und effizient zu bewältigen.