GPT4V大模型输入模式简单介绍

来源：网络更新：2024-08-29 19:04:36

想要了解GPT-4V如何灵活运用文本与图像进行交互吗？这篇GPT-4V的三种输入模式，以及它与其他多模态模型在通用性和灵活性上的优势，快来一探究竟吧！

1.GPT-4V的输入模式有三种：纯文本、文本-图像对（文本可为空）、文本与图像交错。

2.这样说比较官方，简单来说，就是输入可以是文本与图像的随意混合，可以在一段文本的多处地方插入多张图片（另外，GPT-4的可输入长度还是很长的），非常自由。

2.作为对比，很多“分开训练，然后对齐”的多模态模型，包括一些真的只能称作ChatGPT+的模型往往对图像的输入都有很多限制，例如图像只能放在输入的开头、一轮交互只能输入一张图像等。

3.这样一对比，“通用性和灵活性”都很清晰了。