3月11日微软官方在Github开源了一个重量级的ChatGPT AI交互应用Visual ChatGPT。该应用短短一天在Github就达到了4000星。 记者对ChatGPT说:“请生成一张机器人图片。”话音刚落,图片立刻生成。这就是由MSRA资深研究人员提出的视觉版ChatGPT(Visual ChatGPT),同时,它也看得懂图、有理解能力。 OpenAI 重磅推出的聊天对话模型ChatGPT,短短几个月席卷社会各个领域。ChatGPT会的东西五花八门,现如今,Visual ChatGPT将ChatGPT和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。 从头训练一个多模态模型,工作量非常大。于是,研究人员想到可以在ChatGPT的基础上,结合一些视觉模型来达到目的。而想要达到这一目的,需要一个中间站,由此他们提出了提示管理器的概念。相关报道称,提示管理器可以明确告诉ChatGPT每个视觉模型的作用,并指定好输入输出格式;转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。它能处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。 与此同时,研究人员也提到了这项工作目前还存在一些局限性:生成结果的质量,主要取决于视觉模型的性能;使用大量的提示工程,会一定程度上影响生成结果的速度;此外,在输入图片的隐私安全上,还需要做进一步升级保护。 ![]() Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像,以及动态对图像进行处理。 该系统的已经发表对应的论文,支持从arxiv下载。 ![]() 系统架构Visual ChatGPT架构由用户查询部分(User Query)、交互管理部分(Prompt Manger)、视觉基础模型(Visual Foundation Models,VFM)、调用ChatGpt API和迭代交互部分(Iterative Reasoning),最后是用户输出(Outputs)部分 ![]() 如图1所示,用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花,然后逐步使其像卡通一样”。 在交互管理器的帮助下,Visual ChatGPT 开始了相关视觉基础模型的执行链。 在示例条件下,它首先应用深度估计模型来检测深度信息,然后利用深度到图像模型生成带有深度信息的红色花朵图形,最后利用基于稳定扩散模型的风格迁移VFM来改变这个形象的风格变成了卡通。 在上述管道中,交互管理器作为ChatGPT的调度器,提供视觉格式类型并记录信息转换过程。 最后,当Visual ChatGPT从交互管理器获得“卡通”提示时,它将结束执行管道并显示最终结果。 整个系统流程是 1) 明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式; 2)将不同的视觉信息,例如pngimages,深度图像和mask矩阵,转换为语言格式以帮助ChatGPT理解; 3) 处理不同视觉基础模型的历史、优先级和冲突。 在交互管理器的帮助下,ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈,直到它满足用户的要求或达到结束条件。 ![]() VFM在该项目中总共设计了22个不同的VFM来进行图像数据的处理,它们之间存在内在关联和分工,以便仪器协同交互管理器来完成任务; ![]() 安装部署 该系统为方便以Python语言开发,其中依赖torch、torchvision、numpy、transformers、albumentations、opencv-contrib-python等基层类库应用。需要python 3.8和coda环境为基础 用coda创建一个新环境 conda create -n visgpt python=3.8 激活该环境 conda activate visgpt 安装依赖组件 pip install -r requirement.txt 用附带脚本下载视觉基础模型 bash download.sh 填写openai账号的用户key值 export OPENAI_API_KEY={Your_Private_Openai_Key} 设置图像保存目录 mkdir ./image 运行系统 python visual_chatgpt.py |
|Archiver|手机版|小黑屋|雄启汇|雄启识慧云上智库:您身边的行业研究顾问
( 黑ICP备2023000012号-1 )|网站地图
GMT+8, 2025-5-5 12:09 , Processed in 0.391479 second(s), 27 queries .
Powered by Discuz! X3.5
© 2001-2025 Discuz! Team.