visual chatgpt:talking,drawing and editing with visual foundation models
创始人
2025-05-28 18:57:50

微软-多模态ChatGPT来了:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models - 知乎摘要ChatGPT吸引了各个领域的兴趣,因其提供了一个跨领域的具有卓越会话能力和推理能力的语言界面。然而,由于ChatGPT是一个语言模型,目前无法处理、生成来自视觉世界的图像。同时,视觉基础模型Visual Foundatio…https://zhuanlan.zhihu.com/p/612613742如何评价 ChatGPT 3.5 ?未来的 ChatGPT 4.0 会有哪些升级?未来发展方向是什么? - 知乎小科普:尤里卡,希腊词汇,是发现真相时的感叹词,在游戏文明6中,当你触发尤里卡,你的科技会缩短40%的…https://www.zhihu.com/question/571427024/answer/2911287237visual chatgpt包括三个部分chatgpt,vfm和prompt manager,其中vfm包括很多的下游视觉应用,串联chatgpt和vfm是prompt manager,核心就是langchain,通过langchain的三个接口,initialize_agent,conversationBufferMemory和Tools,其中Tools是将下游vfm的推理能力用prompt描述的形式,conversationBufferMemory是指cot的形式,cot思维链视锥将复杂问题拆成多个子问题可以提升正确率,并且让Ai推理的过程可视化,memory有记录的作用,最终通过initialize_agent来综合。

1.introduction

        我们能否构建一个类似chatgpt系统,同时支持图像理解和生成?基于chatgpt构建visual chatgpt,合并了多种vfm(visual foundation models),为了弥合chatgpt和这些vfm的能力,提出了一个prompt manager。prompt manager支持一下功能,1.明确告诉chatgpt每个vfm的能力,并指定输入输出。2.转换不同的视觉信息,例如png图像,深度图像和掩码矩阵,语言格式,以帮助chatgpt。3.处理不同的视觉基础模型的历史,优先级和冲突。在prompt manager的帮助下,chatgpt可以利用这些vfm,并以迭代的方式接收他们的反馈,直到它满足用户需求或达到结束条件。        

如上图所示:用户上传一个黄色花的图像,然后输入一个复杂的语言指令,"请根据这个图像的深度预测图生成一个红色花朵,然后一步一步的把做成卡通图像"。在prompt manager的帮助下,visual chatgpt启动相关的visual foundation模型的执行链。在这种情况下,首先应用深度估计模型来检测深度信息,然后利用深度-图像模型来生成带有深度信息的红色花卉图像,最后基于稳定扩散模型的风格转换vfm来将图像风格转成卡通图像。在上述pipeline中,prompt manager通过提供可视化格式的类型和记录信息转换过程,充当chatgpt的调度器。

例如上图:把图中的replace the sofa in this image with a desk and then make it like a water-color painting(把这张图中的沙发换成书桌,然后做成水彩画)第二个QA,左边是三轮QA,我没关注的是第二个QA,其中user query输入到prompt manager中,chatgpt决定下游是否使用vfm,若使用vfm则对问题进行拆分,首先进行替换,在进行inpainting操作,见右边,这就是cot。

下游有一系列的基础应用。

 

相关内容

热门资讯

原创 货... 5月25日,记者赴西安涉事路段实地测量,将两张抓拍图0.081秒的时间间隔与路侧同一条白线对应,换算...
国内知名冷门绝学大咖齐聚深圳,...   5月22日上午,作为2026文化强国建设高峰论坛重要组成部分,首届冷门绝学传承与创新论坛在深圳启...
呼和浩特铁路公安处成功举办“警... 活力赛场展风采,凝心聚力铸警魂。5月25日上午,呼和浩特铁路公安处“警营聚力 奋勇争先”警营运动会在...
【好评中国·新角色】养老服务师...   “每个老年人的身体情况不一样,照护的重点也不一样。认知症老人要特别注意防走失,还需要移除地面杂物...
1名航天员将开展1年期在轨驻留...   今天(5月23日)上午,神舟二十三号载人飞行任务新闻发布会在酒泉卫星发射中心召开。  发言人介绍...