想要了解GPT-4V如何突破静态分析的局限,进行动态内容分析吗?本文带你探索它如何通过图片序列理解视频教程,甚至预测事件发展。快来看看GPT-4V如何让机器理解动态世界吧!
1.除了静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。
2.上面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。
3.而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。
4.比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。
5.当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。
6.甚至是预测接下来会发生什么: