)
尝试去跟随“图片转描述”的例子
Image In Words是专为需要根据图片生成超详细文字的场景设计的生成式模型,特别适用于大型语言模型(LLM)助手的识别任务,以及利用gpt4o更复杂场景下的 AI 识别和描述能力。它只要支持英文, 通过使用大约100,000小时英文数据进行训练,Image In Words在各项测试中都表现出高质量和自然度。
采用人工参与注释框架,确保每个图像描述都具有高度的细节和准确性,避免了现有数据集中常见的简短和不相关描述的问题。
使用 IIW 数据微调的视觉-语言模型在描述准确性和连贯性方面显示出显著提升,模型性能比之前的工作提高了31%。
框架通过严格的验证技术减少描述中的虚构内容,确保描述真实反映图像中的细节,而不是添加不存在的细节。
框架生成的描述不仅详细且易读,能够被广泛受众理解,同时确保全面性,捕捉到视觉内容的所有相关方面。
通过使用 IIW 数据训练的模型,其视觉-语言推理能力显著增强,能够更好地理解和解释视觉内容,生成更准确和有意义的描述。
IIW 框架在多个实际应用中表现出色,包括提高视觉障碍用户的无障碍性、增强图像搜索功能和更准确的内容审核,展示了其在不同领域的巨大潜力。
我们发布了 IIW-Benchmark Eval 数据集、IIW 人工编写的描述(图像和对象级注释)以及与先前工作(DCI、DOCCI)的比较、机器生成的 LocNar 和 XM3600 数据集的丰富版本是开源的。下面的统计数据反映了数据丰富的程度(例如,每个词性的长度和丰富度的大幅增加)。
数据集在 CC-BY-4.0 许可下发布,可以在 GitHub 上找到,也可以从 Hugging Face 以“jsonl”格式下载。
有关IIW的所有资料,请浏览网页、项目、数据下载、可视化等等
@misc{garg2024imageinwords,
title={ImageInWords: Unlocking Hyper-Detailed Image Descriptions},
author={Roopal Garg and Andrea Burns and Burcu Karagol Ayan and Yonatan Bitton and Ceslee Montgomery and Yasumasa Onoe and Andrew Bunner and Ranjay Krishna and Jason Baldridge and Radu Soricut},
year={2024},
eprint={2405.02793},
archivePrefix={arXiv},
primaryClass={cs.CV}
}