语言模型和视觉助手-LLAVA

今天介绍一个新的语言模型和视觉助手-LLaVA ,LLaVA 是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员开发的大型语言和视觉助手。它是一个端到端训练的大型多模态模型,结合了视觉编码器和语言模型,用于通用的视觉和语言理解。这是它的github地址:GitHub – haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards multimodal GPT-4 level capabilities.
LLaVA 可以用于多种任务,包括:
图像描述:给定一张图像,LLaVA 可以生成描述该图像的文字。
图像查询:用户可以使用自然语言来查询图像,LLaVA 可以返回与查询相关的图像。
图像生成:用户可以提供描述,LLaVA 可以生成符合描述的图像。
视觉问答:用户可以提出关于图像的问题,LLaVA 可以回答这些问题。
LLaVA 还处于开发阶段,但它已经取得了一些令人印象深刻的成果。例如,在图像描述任务上,LLaVA 的表现与人类相似。在图像查询任务上,LLaVA 可以准确地返回与查询相关的图像。在图像生成任务上,LLaVA 可以生成逼真的图像。在视觉问答任务上,LLaVA 可以回答有关图像的开放式问题。
LLaVA 具有广泛的应用潜力,它可以用于各种需要视觉和语言理解的任务,例如:
图像搜索
图像识别
图像生成
视觉问答
虚拟助手
同样的这儿有一个演示demo:LLaVA (hliu.cc)


下面我在上面做一下演示,上传一张有趣的图片然后问它一个问题:这张图片有什么不寻常的地方?

模型的回答:这张照片的不寻常之处在于,一名男子站在行驶中的汽车后座上熨烫衣服。这不是一个典型的场景,因为熨烫衣服通常是在室内,在更受控的环境中完成的,而不是在汽车行驶时。这个人在汽车后部平衡和执行这项任务的能力令人印象深刻且非常规。

再上传一个有趣的例子:

AI助手的回答:在平静的湖面上参观码头时,有几件事需要小心。首先,确保您穿着合适的鞋子,具有良好的牵引力,因为码头可能潮湿或湿滑,会增加滑倒和跌倒的风险。其次,请注意天气状况,因为图像显示多云的天空,这可能表明下雨或天气突然变化的可能性。为任何意外的天气变化做好准备并准备合适的衣服和装备至关重要。最后,注意周围的环境,并与码头边缘保持安全距离,以免意外掉入水中。如果您计划游泳或从事水上活动,请确保您具备必要的技能和安全设备。

从这可以看到AI完全能够理解图片的内容,并准确地将其描述出来。并能够非常详细地提出可能出现的情况及应对对策。

我这里自己再上传一个自己用AI生成的图片,然后同它对话:

以下是 LLaVA 的更多功能:
图像描述 可以生成丰富的、有创意的图像描述。
可以理解图像中的细节和上下文。
图像查询 可以理解用户的查询意图。
可以返回与查询相关的图像。
图像生成 可以生成逼真的、符合描述的图像。
视觉问答 可以回答有关图像的开放式问题。
LLaVA 目前还处于开发阶段,但它已经取得了一些令人印象深刻的成果。随着 LLaVA 的不断发展,它将会在更多领域发挥作用。

发表评论

zh_CNChinese