)
「画像からテキスト」の例を試してみてください
Image In Wordsは、画像から超詳細なテキストを生成する必要があるシナリオのために設計された生成モデルであり、特に大規模言語モデル(LLM)アシスタントの認識タスクや、gpt4oを利用した複雑なシナリオでのAI認識と説明能力に適しています。英語のみをサポートし、約100,000時間の英語データを使用してトレーニングされています。Image In Wordsは、さまざまなテストで高品質と自然さを示しています。
人間の参加を要するアノテーションフレームワークを使用して、各画像説明が非常に詳細で正確であることを保証し、既存のデータセットで一般的な短いおよび関連性のない説明の問題を回避します。
IIWデータで微調整された視覚言語モデルは、説明の正確性と一貫性の面で顕著な向上を示し、モデルの性能は以前の作業より31%向上しました。
フレームワークは厳格な検証技術を通じて説明の中のフィクションコンテンツを減らし、説明が画像の詳細を実際に反映することを保証し、存在しない詳細を追加しません。
フレームワークで生成された説明は、詳細で読みやすいだけでなく、広範囲の聴衆に理解され、視覚コンテンツのすべての関連する側面を捉えることを保証します。
IIWデータで訓練されたモデルを使用することにより、視覚言語推論能力が顕著に強化され、視覚コンテンツをより良く理解し解釈し、より正確で意味のある説明を生成することができます。
IIWフレームワークは、視覚障害者のアクセシビリティ向上、画像検索機能の強化、より正確なコンテンツレビューを含む、さまざまな実際のアプリケーションで卓越したパフォーマンスを示しており、さまざまな分野での大きな可能性を示しています。
IIW-Benchmark Evalデータセット、IIWが手動で作成した説明(画像とオブジェクトレベルの注釈)、先行研究(DCI、DOCCI)との比較、機械生成のLocNarおよびXM3600データセットの豊富なバージョンをオープンソースとして公開しています。以下の統計データは、データの豊かさを反映しています(例:各品詞の長さと豊かさの大幅な増加)。
データセットはCC-BY-4.0ライセンスの下で公開されており、 GitHub で見つけることができ、 Hugging Face から「jsonl」形式でダウンロードできます。
IIWに関するすべての情報は、ウェブサイト、プロジェクト、データダウンロード、可視化などをご覧ください。
@misc{garg2024imageinwords,
title={ImageInWords: Unlocking Hyper-Detailed Image Descriptions},
author={Roopal Garg and Andrea Burns and Burcu Karagol Ayan and Yonatan Bitton and Ceslee Montgomery and Yasumasa Onoe and Andrew Bunner and Ranjay Krishna and Jason Baldridge and Radu Soricut},
year={2024},
eprint={2405.02793},
archivePrefix={arXiv},
primaryClass={cs.CV}
}