)
Versuchen Sie, dem Beispiel 'Bild zu Beschreibung' zu folgen
Image In Words ist ein generatives Modell, das für Szenarien entwickelt wurde, in denen ultradetaillierte Texte aus Bildern generiert werden müssen. Es ist besonders geeignet für Erkennungsaufgaben von Assistenten großer Sprachmodelle (LLM) und zur Nutzung von KI-Erkennungs- und Beschreibungsfähigkeiten in komplexeren Szenarien unter Verwendung von gpt4o. Es unterstützt nur Englisch und wurde mit etwa 100.000 Stunden englischer Daten trainiert. Image In Words hat in verschiedenen Tests hohe Qualität und Natürlichkeit gezeigt.
Durch den Einsatz eines Annotation-Frameworks mit menschlicher Beteiligung wird sichergestellt, dass jede Bildbeschreibung ein hohes Maß an Detailtreue und Genauigkeit aufweist, wodurch die häufigen Probleme kurzer und irrelevanter Beschreibungen in bestehenden Datensätzen vermieden werden.
Das mit IIW-Daten feinabgestimmte visuell-sprachliche Modell zeigt eine bemerkenswerte Verbesserung in der Genauigkeit und Kohärenz der Beschreibungen, mit einer um 31% verbesserten Modellleistung im Vergleich zu vorherigen Arbeiten.
Das Framework reduziert fiktiven Inhalt in Beschreibungen durch strenge Verifizierungstechniken, wodurch sichergestellt wird, dass die Beschreibungen die Details des Bildes tatsächlich widerspiegeln, ohne nicht vorhandene Details hinzuzufügen.
Die vom Framework generierten Beschreibungen sind nicht nur detailliert und leicht lesbar, sondern auch für ein breites Publikum verständlich und gewährleisten eine umfassende Erfassung aller relevanten Aspekte des visuellen Inhalts.
Durch den Einsatz von mit IIW-Daten trainierten Modellen wird die visuell-sprachliche Argumentationsfähigkeit deutlich verbessert, was ein besseres Verständnis und eine bessere Interpretation visueller Inhalte ermöglicht und genauere und bedeutungsvollere Beschreibungen erzeugt.
Das IIW-Framework hat sich in mehreren praktischen Anwendungen ausgezeichnet, einschließlich der Verbesserung der Zugänglichkeit für sehbehinderte Benutzer, der Verbesserung der Bildsuchfunktionen und einer genaueren Inhaltsprüfung, was das enorme Potenzial in verschiedenen Bereichen zeigt.
Wir haben angereicherte Versionen des IIW-Benchmark Eval-Datasets, von IIW manuell geschriebene Beschreibungen (Bild- und Objektebene-Anmerkungen) sowie Vergleiche mit früheren Arbeiten (DCI, DOCCI) und maschinell generierte LocNar- und XM3600-Datasets als Open Source veröffentlicht. Die folgenden Statistiken spiegeln den Reichtum der Daten wider (z.B. signifikante Zunahmen in Länge und Reichtum für jede Wortart).
Die Datensätze werden unter der CC-BY-4.0-Lizenz veröffentlicht und sind auf GitHub zu finden und können von Hugging Face im 'jsonl'-Format heruntergeladen werden.
Für alle Informationen zu IIW besuchen Sie bitte die Webseiten, Projekte, Daten-Downloads, Visualisierungen und mehr.
@misc{garg2024imageinwords,
title={ImageInWords: Unlocking Hyper-Detailed Image Descriptions},
author={Roopal Garg and Andrea Burns and Burcu Karagol Ayan and Yonatan Bitton and Ceslee Montgomery and Yasumasa Onoe and Andrew Bunner and Ranjay Krishna and Jason Baldridge and Radu Soricut},
year={2024},
eprint={2405.02793},
archivePrefix={arXiv},
primaryClass={cs.CV}
}