GPT-4多模态
视觉理解能力的突破
能力概述
GPT-4是OpenAI首个支持图像输入的多模态大模型,能够理解图像内容、 分析图表、识别文字,实现图文混合理解。
图像理解
描述、分析、问答
OCR识别
文字提取与理解
图表分析
数据解读与推理
核心能力
场景理解
理解图像中的场景、物体、关系
图文推理
结合图像和文本进行综合推理
细节识别
识别图像中的细节和文字
创意描述
对图像进行创意性描述和分析
应用场景
文档分析
解析扫描文档、表格、图表
试卷解题
理解并解答包含图像的题目
产品描述
根据商品图片生成描述
医疗影像
辅助解读医学影像
使用示例
# API调用
response = client.chat.completions.create(
model="gpt-4-vision-preview",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "描述这张图片"},
{"type": "image_url", "image_url": {"url": "..."}}
]
}]
)
局限性
•
小字识别
低分辨率或模糊文字识别困难
•
空间推理
复杂空间关系理解有限
•
视频理解
不支持视频输入
----