听完PromptPilot的发布会,发现他们想Pilot的竟然不止是Prompts
创始人
2025-09-15 17:44:31

本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:郭海惟


9月13日,火山云的PromptPilot终于“正式”发布了。


这款产品最早在6月12日的火山引擎FORCE原动力大会上亮相,当时火山引擎智能算法负责人吴迪花了十分钟介绍了PromptPilot的特点和工作流程。


吴迪当时对PromptPilot推出的战略背景有三点总结:


模型越强,提出好问题的正向价值越大;


有很多高价值问题,没有标准答案;


提示词工程本质是一个搜索问题,一切搜索问题都长期都将由算法来解决。


这三个论断,或许可以被理解为当时火山引擎对PromptPilot业务战略逻辑的核心论述:


提示词是值钱的,而PromptPilot的价值,某种程度来自于个性化的场景需求与对prompt需求的个性化理解。正是因为场景是个性化的,所以prompt有被调整的需要;正是因为prompt本质是搜索,所以需要构建对用户的理解。


其实很多巨头都在做类似的事情。


比如,最近阿里巴巴财报会上,吴永铭将记忆能力称为整个agent应用突破的重要节点;Notion、飞书、IMA等应用,都在致力于构建一个服务于用户的知识库生态。


Prompt天然有以上的属性。


借用最近挺火的“十字路口”的比喻,Prompt既是人与智能的十字路口,也是当下以大模型为主的智能基础与未来以agent为主的智能生态的十字路口。


而在9月14日PromptPilot正式发布的沟通会上,面对台下的开发者和媒体,技术负责人许伟则对PrompPilot的战略价值给出了更多的论述角度,他在会议上给了几个很有意思的断,也是我印象比较深几点。


第一,他说,在垂直场景的打造过程中,场景定制化与基础模型能力的GAP会“永远存在”。


如果要解决好垂直场景的落地问题,最好的方式就是“将一些关键能力交到广大客户和行业专家手中”,从而“共同推动智能的进一步广泛和深度提升,实现大规模的落地应用”。


第二,其实也与第一中的解决方案相呼应。许伟称,如果AI上半场是互联网数据引领智能增长,那么“下半场的数据则源自行业和专家的脑袋”,而这会是“重要的区别”。


第三,与大模型训练类似,大量开发者在开发agent的时候,依然像是在炼金,将数据扔进黑箱里祈求获得黄金。这已经成为了agent开发中的痛点,同时也造成了一定的算力浪费。许伟认为,工程化的prompt能力,将不同的模块联动训练,可以一定程度上让agent的训练“可执行、可验证”。


从这个角度来说,PromptPilot对自己角色的定位算是很明确的。它应该就是一个辅助行业从AI上半场走向下半场的工具。


而作为工具,它自己要迭代、要scaling、要积累数据,同时要考虑一些“代码素人”的行业专家也可以使用。


而如果落脚到现实问题上,PromptPilot其实要解决许伟提出的三个“悖论”。


一个是用户“如何清楚表达需求”:


许伟认为,用户的意图从人脑,再到具象化的目标、结构化的表达,中间是存在鸿沟的。尤其是当场景越垂直、越专业,那就越难以用自然语言一次性说清楚,也越需要更精细、更结构化的prompt。


其次是如何摸清楚“模型的能力边界”:


而对于agent开发者来说,大模型能力的边界也是模糊的。(许伟没有展开讲,但我想这个观点其实也无需多言,因为大模型其实是一个黑箱,所以才会有各种各样对大模型的能力测评榜单,对榜单的评测结果才会有各种各样的争议)。


许伟说,“大模型应用本质是寻找定制场景的模型能力边界”。他指出,作为大模型开发者的工作,其实是在表达不清的需求和能力莫测的模型之间,试图搭建人与模型之间的桥梁。


第一和第二个“悖论”,其实呼应了之前的观点,即场景定制化与基础模型能力的GAP会“永远存在”。


而第三个悖论则是长上下文的动态适应过程。


许伟认为这是目前最难的挑战。一方面大模型本身是人类高级思考的替代品,本身是很开放式的(硅星人注:注意力不集中且容易有幻觉);另一方面,上下文越来越长,越来越多样。这导致在开发过程中,很多问题是开发者想象之外的。



你很难想象PromptPilot能解决以上所有的问题,但他们给出了一个自己的工作流程,我也拍了一张照可以给大家参考——PromptPilot建立了一个与用户行为流程相匹配的SDK数据闭环回流,来试图形成一个不断改进系统能力的飞轮。


而在整个发布会中,最高频出现的词语大概是图中所示的评估标准和badcase。


在模型深入场景的过程中,可能最珍贵的就是如何评价的标准。与prompt一样,标准其实藏在专家的脑子里,它甚至不是一条条理论性的可以清楚描述的语言,而是存在相当程度“灰度”的。而后者则是很难用语言直接描述的。


许伟举例说,比如图片审核中,一些元素以不同的方式不同的程度出现,可能得出的合规与否的判断会完全不同。而PromptPilot能做的就是让模型在与用户不断交互的过程中个,把评估标准背后的意图给抽取出来。


在这个过程中,大量的case就显得非常重要。



火山引擎大模型算法工程师王铁飞,介绍了PromptPilot的四个模块,分别是:


数据智擎工坊(Data Engineering)、Prompt臻化联动舱(Prompt优化和联动精调)、Badecase洞察站(Badecase检测)和AI方案生成器(Solution)


这四个模块可以理解为SDK数据闭环回流图的细化。


从实操来看,整体的流程与8月份对外披露的升级版变化不大。整套系统给人的感觉是,在批量测试之前,人基本能改的地方,都开放给了人手动修改和评分;当然,相应的自动化能力也没落下。


测试下来的感觉有点像一辆汽车,既有手动挡又有自动挡。


比如一些媒体老师,拿官方的案例,闭着眼睛一直让自动化流程走到底,总体也能跑通,拿一个还不错的测试分数;开发者则喜欢一边让自动流程跑,每跑一步,就上手优化一下,再接着跑,编prompt甚至能玩出一点vibe coding的感觉。


如许伟所说,PrompPilot希望把能力“交给专家”,所以产品方面能明显看到给用户留了很多能力植入和交互的地方。


首先,用户在一键生成Prompt的时候可以提前加入知识库的文档。


用户可以导入简单的任务描述,也可以直接把领导给你的任务说明一股脑扔进去。


因为即便生成效果不佳,也是可以支持划线局部提修改意见,当然直接上手改也是可以的。


跳测试。


这里给数据集输入一个case(填写变量)


变量可以从数据集里随机抓,也可以AI生成以后自己改。


模型会跑回答。


跑完回答后,可以直接在模型回答里改,改到满意为止。


如果太复杂的问题,可以在下方添加到评测集里,多输出几个标准答案,可以帮助模型表现更好。


当然也可以批量上传评测集,评测完成后给所有的结果手动打分和输入评测标准。同理,评测标准可以自动生成,也可以手动改写输入。


然后AI会自动生成打分的分数,打完分以后可以让PromptPilot进行自动优化.


然后这个时候你才进入到PromptPilot核心能力的大门,也就是刚才提到的Prompt臻化联动仓(Prompt优化和联动精调)


如果不满意的话,可以重新再来一遍,然后模型会不断微调,把分数拉上去,表现不好的BadCase会被收录到“错题本”里,并导出一个智能优化的报告。


不要小看这个流程,它其实解决了独立开发者的几个头疼的问题:


上下文能力和模型评估能力。


案图示例里只有几十个case,但如果像agent创业者,动辄数千个case涌入进来,这套流程的威力就会显现出来了。这不是一个简单的prompt编写能力,而是帮助开发者直抵agent的核心。


我想甚至可以这么说:大模型+PromptPilot,其实就已经可以成为一个简单版的DIY生产力agent了。


所以在交流环节,有开发者站起来的第一个问题就是,这玩意儿能不能接到非火山云的场景里,比如他自己玩的端侧模型(其实我猜他可能想说阿里云、腾讯云之类的友商,但不太好意思)。


王铁飞立刻说是可以的,他们已经开了API接口,能力是完全开放的,开发者直接自己接就可以了。


PromptPilot团队至少在发布会上展现了很包容性的姿态,他们甚至可以支持所谓的“Repurpose”的功能——就是如果你使用了一个较大较强的模型,但因为各种原因需要降级模型能力,PromptPilot可以帮你在执行这个特定的任务能力方面,尽量拉齐到原先的水平上。


我个人粗浅的理解是:相当于你原本开奔驰大G跑高速,但120迈匀速有很多车,换飞度的性价比其实更高。但在上高速,驾驶员对路况不熟悉,宁愿先用大奔把成功率跑上去,然后慢慢再去探寻成本的边界,而PromptPilot在这个时候可以成为你换车的工具箱之一。


所以从这个角度来说,PromptPilot不是一个简单的prompt工具,而是大模型落地的桥梁。它既能通过对话和评分,把人的需求沟通明白,也能以此为抓手,再对模型能力进行规划和精调。


在所有的AI云厂都在布局agent服务能力的今天,PromptPilot未来会长成什么样,是一件值得期待的事情。

相关内容

热门资讯

优迅股份“闪电”冲刺科创板:十... 21世纪经济报道记者 彭新9月19日,厦门优迅芯片股份有限公司(简称“优迅股份”)将“闯关”科创板。...
中源家居:董事长曹勇拟减持不超... 9月15日晚,中源家居股份有限公司(603709,)发布股东减持股份计划公告。公告显示,中源家居实际...
谁在给银行股“站台”?股东高管... 近期,多家上市银行股东和高管频频出手增持。南都湾财社记者注意到,9月以来,已有多家银行纷纷宣布获股东...
当A股再度站在4000点门前 ... 文|锦缎整整十年,A股再度新高。资本市场的巧合,向来都是发生在不经意间。十年之期一到,A股就跃跃欲试...
汽车板块大涨,上汽、广汽、比亚... 记者丨李香香编辑丨叶映橙 金珊9月15日,汽车产业链板块走势强劲,朗博科技、天龙股份、迪生力、征和工...
“中国服贸”如何加速释放巨大潜... 走过13个年头的中国国际服务贸易交易会(简称“服贸会”),见证了中国服务业和服务贸易开放创新、蓬勃发...
谁在给银行股“站台”?股东高管... 近期,多家上市银行股东和高管频频出手增持。南都湾财社记者注意到,9月以来,已有多家银行纷纷宣布获股东...
当A股再度站在4000点门前 ... 文|锦缎整整十年,A股再度新高。资本市场的巧合,向来都是发生在不经意间。十年之期一到,A股就跃跃欲试...
汽车板块大涨,上汽、广汽、比亚... 记者丨李香香编辑丨叶映橙 金珊9月15日,汽车产业链板块走势强劲,朗博科技、天龙股份、迪生力、征和工...
你的净值曲线微笑了吗? 你的净... 如果你的投资在过去几年未能达到预期,不妨再给自己一次机会,也给“定投”一次机会。无论是选择一只基金开...
并购方案生变,慧博云通“迂回”... 21世纪经济报道记者雷晨一场原本看似常规的上市公司并购,四个月内陡生变局。9月14日,慧博云通(30...
同德化工逾期债务本息增至832... 9月15日,同德化工(002360.SZ,山西同德化工股份有限公司)披露关于公司及子公司部分债务逾期...
告别“代工合作模式”,蔚来江淮... IT之家 9 月 15 日消息,国家企业信用信息公示系统显示,江来先进制造技术(安徽)有限公司登记状...
连续7份财报“失真”!城地香江... 近日,上海城地香江数据科技股份有限公司(以下简称“城地香江”)因财务数据披露存在严重失真,被上海证监...
这一幕史上就出现过两次!华尔街... 财联社9月15日讯(编辑 潇湘)华尔街知名“大空头”大卫·罗森伯格(David Rosenberg)...
国家统计局:规范企业竞争秩序,... 【大河财立方消息】9月15日,国新办就2025年8月份国民经济运行情况举行新闻发布会。 国家统计局新...
V观财报|美凯龙董秘邱喆辞任 ... 【V观财报|美凯龙董秘邱喆辞任】美凯龙公告,公司于9月15日收到公司董事会秘书邱喆提交的书面辞任报告...
北交所上市公司锦波生物大宗交易... 每经讯,2025年9月15日,北交所上市公司锦波生物(832982,收盘价:302.6元)发生一笔大...
别玩概念了!吃点新鲜健康的就这... 文/妖小妖(识局微信公共账号zhijuzk)一9月10日罗永浩在微博吐槽“在西贝吃饭发现几乎全是预制...
向罗永浩道歉的华与华:与西贝合... 红星资本局9月15日消息,罗永浩与西贝的“预制菜大战”仍在继续,西贝品牌顾问华与华营销咨询有限公司(...
滇式小酒馆,只是一场喧嚣与躁动... 在过去两年中,云贵系小酒馆在全国范围内掀起热潮,酸汤鱼、洋芋焖鸡、乳扇拼盘、果酒与调酒轮番上阵,“山...
创业板指数新高!两市个股跌多涨... 在A股上市公司半年报密集披露、市场结构性机会凸显的背景下,私募机构调研频率明显提升。第三方机构获得的...
原创 第... 在全球航空战斗机的竞争舞台上,一条重磅消息如晴天霹雳般震撼了各方眼球:我国的歼-20隐身战斗机量产已...
极氪科技股东高票通过与吉利汽车... 据“极氪科技”公众号消息,9月15日,极氪智能科技控股有限公司召开特别股东大会,公司股东投票赞成多项...
越南至俄罗斯空运机构TOP3榜... 在全球贸易持续升温的背景下,越南与俄罗斯之间的跨境物流需求呈现显著增长态势。空运作为高时效性物流方式...
何氏眼科利润高增的B面:白内障... 国内眼科医疗连锁机构何氏眼科(301103.SZ)近日交出一份半年成绩单。2025年上半年,公司实现...
华杉发文称罗永浩是网络黑嘴!罗... 罗永浩今日微博发文称:华与华的老板已经跟我道了歉,这件事可以过去了,毕竟它只是一个跑题的插曲。严肃的...
证监会严肃查处东方通严重财务造... 聚焦01证监会严肃查处东方通严重财务造假案件,启动退市程序据证监会9月12日公告,近日,证监会对深交...
美国财政部-数字货币(中文版) 今天分享的是:美国财政部-数字货币(中文版) 报告共计:18页 美国财政部数字货币(稳定币)报告核心...