Generative KI: Multimodalität und Vergleichskriterien von KI-Modellen

Der Begriff Multimodalität bedeutet, dass etwas aus mehreren Modi oder Formen besteht. In der Sprachverarbeitung bezieht sich der Begriff „multimodal" auf Modelle, die in der Lage sind, mit verschiedenen Arten von Eingaben zu interagieren. Dazu gehören Text, Sprache, Bilder, Audio und Video.

Modelle wie Gemini von Google oder GPT-4V von OpenAI sind multimodale Modelle. Sie können Texte erzeugen, Sprachen übersetzen, verschiedene Arten von kreativen Inhalten schreiben und Fragen beantworten. Sie können auch Bilder generieren, Sprache erkennen und mit Menschen in natürlicher Sprache kommunizieren.

Die Fähigkeit, mit multimodalen Eingaben zu interagieren, macht diese Modelle zu einem vielseitigen Werkzeug für eine Vielzahl von Aufgaben. Sie können beispielsweise verwendet werden, um

  • Text zu generieren, der sowohl inhaltlich als auch stilistisch ansprechend ist.
  • Sprachen zu übersetzen, die sich stark voneinander unterscheiden.
  • Kreative Inhalte zu schreiben, die sowohl originell als auch ansprechend sind.
  • Fragen zu beantworten, die offen, herausfordernd oder seltsam sind.
  • Bilder zu generieren, die realistisch, schön oder lustig sind.
  • Sprache zu erkennen, die in verschiedenen Umgebungen verwendet wird.
  • Mit Menschen in natürlicher Sprache zu kommunizieren, auch wenn sie einen unterschiedlichen kulturellen Hintergrund haben.

Um die Leistungsfähigkeit von KI-Modellen einschätzen zu können, werden verschiedene Benchmarks, also Vergleichswerte, herangezogen. Je nach Gebiet (Bilder, Texte, Video, Tabellendaten, etc.) werden unterschiedliche Benchmarks verwendet.

Benchmarks für Texte

Für Texte sind das zum Beispiel die allgemeinen Fähigkeiten, das logische Denken, die Mathematik und die Programmierkenntnisse. Folgend werden die Benchmarks näher erläutert.

Allgemeine Fähigkeiten

Der MMLU-Benchmark testet das Verständnis und die Darstellung der KI in Bezug auf eine breite Palette von Fragen aus einem weiten Spektrum von Fächern, einschließlich sowohl MINT-Fächern als auch Geisteswissenschaften. Dies misst das Gesamtwissen des Modells und seine Fähigkeit, dieses Wissen auf eine Vielzahl von Themen anzuwenden.

Logisches Denken

Drei Benchmarks werden verwendet, um die logischen Fähigkeiten zu bewerten:

  • Big-Bench Hard: Diese Aufgabensammlung fordert die KI mit komplexen Problemen heraus, die mehrstufiges Denken erfordern, und testet ihre Fähigkeit, Informationen über mehrere Stufen zu verarbeiten und abzuleiten.
  • DROP: Ein Benchmark für Leseverständnis, der die Fähigkeit der KI bewertet, geschriebenen Text zu verstehen und zu analysieren, um Fragen genau zu beantworten.
  • HellaSwag: Dieser Benchmark bewertet das Alltagswissen der KI, indem alltägliche Szenarien präsentiert werden, um ihre Fähigkeit zu beurteilen, Vorhersagen zu treffen und Kontext in alltäglichen Situationen zu verstehen.

Mathematik

Zwei Benchmarks bewerten die mathematischen Fähigkeiten:

  • GSM8K: Hierbei geht es um grundlegende Rechenfähigkeiten und Mathematikprobleme auf Grundschulniveau, die die grundlegenden quantitativen Denk- und Rechenfähigkeiten der KI testen.
  • MATH: Ein anspruchsvollerer Mathematik-Benchmark präsentiert der KI Probleme in Algebra, Geometrie, Vorkalkül und anderen höheren Mathematikbereichen und bewertet ihre Fähigkeit, komplexe und abstrakte mathematische Konzepte zu bewältigen.

Programmieren

Die Programmierfähigkeiten der KI werden mit zwei Benchmarks gemessen:

  • HumanEval: Dieser Benchmark beinhaltet Aufgaben zur Python-Code-Generierung, die die Programmierfähigkeiten und das Verständnis der KI von Codierungspraktiken ohne vorherige Beispiele (Zero-Shot-Lernen) testen.
  • Natural2Code: Ähnlich wie HumanEval bewertet dieser Benchmark weiterhin die Python-Code-Generierung, konzentriert sich aber auf eine neue Reihe von Problemen, die der KI zuvor nicht bekannt waren, um ihre Fähigkeit zu beurteilen, Programmierwissen auf neue Aufgaben zu verallgemeinern und anzuwenden.

Diese Benchmarks dienen als strenger Test der Fähigkeit jedes KI-Modells, Aufgaben durchzuführen, die auf fortgeschrittene kognitive Funktionen wie Lernen, Verstehen, Problemlösen und Kreativität in verschiedenen Wissens- und Fähigkeitsbereichen hinweisen.

Benchmarks zur Bewertung der Multimodalität

Für die Multimodalität werden die Fähigkeiten in der Bild-, Video- und Audioverarbeitung gemessen. Diese Fähigkeiten werden folgend näher erklärt.

Bildverarbeitung

Die Benchmarks testen eine Reihe von Fähigkeiten von Verständnis und Schlussfolgerung bis hin zur optischen Zeichenerkennung (OCR) und Dokumentverständnis:

  • MMMU: Bewertet multidisziplinäre Abitur-Level-Schlussfolgerungsprobleme innerhalb von Bildern.
  • VQA2: Konzentriert sich auf das Verständnis natürlicher Bilder und erfordert, dass das Modell visuelle Inhalte interpretiert und Fragen dazu beantwortet.
  • TextVQA: Testet OCR auf natürlichen Bildern und beurteilt die Fähigkeit des Modells, Text innerhalb eines Bildes zu lesen und zu verstehen.
  • DocVQA: Betrifft das Verständnis von Dokumenten und bewertet, wie gut das Modell Informationen interpretieren und analysieren kann, die in Dokumentenformaten präsentiert werden.
  • Infographic VQA: Beurteilt das Verständnis von Infografiken und erfordert, dass das Modell komplexe visuelle Informationen interpretiert, die in einer Infografik präsentiert werden.
  • MathVista: Fordert das Modell mit mathematischem Schlussfolgern in visuellen Kontexten heraus und testet seine Fähigkeit, auf visuellen Eingaben basierende Mathematikprobleme zu lösen.

Videoverarbeitung

Zwei Benchmarks beurteilen die Fähigkeit der KI, Inhalte zu verstehen und in Bezug auf Videos zu generieren:

  • VATEX: Misst die Fähigkeit des Modells, englische Videobeschriftungen zu liefern.
  • Perception Test MCQA: Beinhaltet die Beantwortung von Fragen zu Videos und testet das Verständnis des Modells für Videoinhalte.

Audioverarbeitung

Zwei Benchmarks bewerten die Audioverarbeitungsfähigkeiten der KI:

  • CoVoST 2: Testet die automatische Sprachübersetzung in 21 Sprachen.
  • FLEURS: Misst die Fähigkeiten der KI zur automatischen Spracherkennung in 62 Sprachen, wobei eine niedrigere Wortfehlerrate eine bessere Leistung anzeigt.

Diese Tests prüfen, wie gut die KIs verschiedene Arten von Informationen – wie Bilder, Texte und Töne – verstehen und sinnvoll darauf antworten können, ähnlich wie es im echten Leben der Fall ist.

In diesem Blogbeitrag haben Sie erfahren, was Multimodalität bei KI-Modellen bedeutet und wie man KI-Modelle aus der Sprachverarbeitung sowie multimodale Modelle miteinander vergleicht. Einen Vergleich der zur Zeit stärksten KI-Modelle von Google mit Gemini und OpenAI mit GPT-4 können Sie in unserem Blogbeitrag „Googles Gemini: Der nächste große Wurf in der Künstlichen Intelligenz?“ lesen.


Hinweis: Dieser Text wurde mit Unterstützung von KI erstellt. Es kamen ChatGPT-4 sowieso Google BARD zum Einsatz. Es wurden die folgenden Hilfestellungen in Anspruch genommen: Textzusammenfassung, Übersetzung, Informationsextraktion, Formulierungshilfen. Alle Texte durchlaufen einen Qualitätscheck durch unsere KI-Experten, so dass die Korrektheit der KI-generierten Informationen gründlich überprüft wird.

Quellen: https://blog.google/intl/de-de/unternehmen/technologie/gemini/ (letzter Abruf: 15.12.2023)

Dr. Sascha Vökler

Dr. Sascha Vökler

Standort: BTU Cottbus - Senftenberg
Schwerpunkt: KI-Training

Tel.: +49 (0) 355 69 3591

E-Mail: sascha.voekler@b-tu.de

Jetzt kontaktieren!

Mittelstand-Digital Zentrum Spreeland
c/o Brandenburgische Technische Universität Cottbus - Senftenberg
Siemens-Halske-Ring 14 | Lehrgebäude 3A
03046 Cottbus

 

Ansprechpartner:
Randolf Schmitt

Tel.: +49 (0) 355 69 5171
E-Mail: randolf.schmitt@b-tu.de