听完PromptPilot的发布会，发现他们想Pilot的竟然不止是Prompts_财经热点

听完PromptPilot的发布会，发现他们想Pilot的竟然不止是Prompts

创始人

2025-09-15 17:44:31

本文来自微信公众号：硅星GenAI （ID：gh_e06235300f0d），作者：郭海惟

9月13日，火山云的PromptPilot终于“正式”发布了。

这款产品最早在6月12日的火山引擎FORCE原动力大会上亮相，当时火山引擎智能算法负责人吴迪花了十分钟介绍了PromptPilot的特点和工作流程。

吴迪当时对PromptPilot推出的战略背景有三点总结：

模型越强，提出好问题的正向价值越大；

有很多高价值问题，没有标准答案；

提示词工程本质是一个搜索问题，一切搜索问题都长期都将由算法来解决。

这三个论断，或许可以被理解为当时火山引擎对PromptPilot业务战略逻辑的核心论述：

提示词是值钱的，而PromptPilot的价值，某种程度来自于个性化的场景需求与对prompt需求的个性化理解。正是因为场景是个性化的，所以prompt有被调整的需要；正是因为prompt本质是搜索，所以需要构建对用户的理解。

其实很多巨头都在做类似的事情。

比如，最近阿里巴巴财报会上，吴永铭将记忆能力称为整个agent应用突破的重要节点；Notion、飞书、IMA等应用，都在致力于构建一个服务于用户的知识库生态。

Prompt天然有以上的属性。

借用最近挺火的“十字路口”的比喻，Prompt既是人与智能的十字路口，也是当下以大模型为主的智能基础与未来以agent为主的智能生态的十字路口。

而在9月14日PromptPilot正式发布的沟通会上，面对台下的开发者和媒体，技术负责人许伟则对PrompPilot的战略价值给出了更多的论述角度，他在会议上给了几个很有意思的断，也是我印象比较深几点。

第一，他说，在垂直场景的打造过程中，场景定制化与基础模型能力的GAP会“永远存在”。

如果要解决好垂直场景的落地问题，最好的方式就是“将一些关键能力交到广大客户和行业专家手中”，从而“共同推动智能的进一步广泛和深度提升，实现大规模的落地应用”。

第二，其实也与第一中的解决方案相呼应。许伟称，如果AI上半场是互联网数据引领智能增长，那么“下半场的数据则源自行业和专家的脑袋”，而这会是“重要的区别”。

第三，与大模型训练类似，大量开发者在开发agent的时候，依然像是在炼金，将数据扔进黑箱里祈求获得黄金。这已经成为了agent开发中的痛点，同时也造成了一定的算力浪费。许伟认为，工程化的prompt能力，将不同的模块联动训练，可以一定程度上让agent的训练“可执行、可验证”。

从这个角度来说，PromptPilot对自己角色的定位算是很明确的。它应该就是一个辅助行业从AI上半场走向下半场的工具。

而作为工具，它自己要迭代、要scaling、要积累数据，同时要考虑一些“代码素人”的行业专家也可以使用。

而如果落脚到现实问题上，PromptPilot其实要解决许伟提出的三个“悖论”。

一个是用户“如何清楚表达需求”：

许伟认为，用户的意图从人脑，再到具象化的目标、结构化的表达，中间是存在鸿沟的。尤其是当场景越垂直、越专业，那就越难以用自然语言一次性说清楚，也越需要更精细、更结构化的prompt。

其次是如何摸清楚“模型的能力边界”：

而对于agent开发者来说，大模型能力的边界也是模糊的。（许伟没有展开讲，但我想这个观点其实也无需多言，因为大模型其实是一个黑箱，所以才会有各种各样对大模型的能力测评榜单，对榜单的评测结果才会有各种各样的争议）。

许伟说，“大模型应用本质是寻找定制场景的模型能力边界”。他指出，作为大模型开发者的工作，其实是在表达不清的需求和能力莫测的模型之间，试图搭建人与模型之间的桥梁。

第一和第二个“悖论”，其实呼应了之前的观点，即场景定制化与基础模型能力的GAP会“永远存在”。

而第三个悖论则是长上下文的动态适应过程。

许伟认为这是目前最难的挑战。一方面大模型本身是人类高级思考的替代品，本身是很开放式的（硅星人注：注意力不集中且容易有幻觉）；另一方面，上下文越来越长，越来越多样。这导致在开发过程中，很多问题是开发者想象之外的。

你很难想象PromptPilot能解决以上所有的问题，但他们给出了一个自己的工作流程，我也拍了一张照可以给大家参考——PromptPilot建立了一个与用户行为流程相匹配的SDK数据闭环回流，来试图形成一个不断改进系统能力的飞轮。

而在整个发布会中，最高频出现的词语大概是图中所示的评估标准和badcase。

在模型深入场景的过程中，可能最珍贵的就是如何评价的标准。与prompt一样，标准其实藏在专家的脑子里，它甚至不是一条条理论性的可以清楚描述的语言，而是存在相当程度“灰度”的。而后者则是很难用语言直接描述的。

许伟举例说，比如图片审核中，一些元素以不同的方式不同的程度出现，可能得出的合规与否的判断会完全不同。而PromptPilot能做的就是让模型在与用户不断交互的过程中个，把评估标准背后的意图给抽取出来。

在这个过程中，大量的case就显得非常重要。

火山引擎大模型算法工程师王铁飞，介绍了PromptPilot的四个模块，分别是：

数据智擎工坊（Data Engineering）、Prompt臻化联动舱（Prompt优化和联动精调）、Badecase洞察站（Badecase检测）和AI方案生成器（Solution）

这四个模块可以理解为SDK数据闭环回流图的细化。

从实操来看，整体的流程与8月份对外披露的升级版变化不大。整套系统给人的感觉是，在批量测试之前，人基本能改的地方，都开放给了人手动修改和评分；当然，相应的自动化能力也没落下。

测试下来的感觉有点像一辆汽车，既有手动挡又有自动挡。

比如一些媒体老师，拿官方的案例，闭着眼睛一直让自动化流程走到底，总体也能跑通，拿一个还不错的测试分数；开发者则喜欢一边让自动流程跑，每跑一步，就上手优化一下，再接着跑，编prompt甚至能玩出一点vibe coding的感觉。

如许伟所说，PrompPilot希望把能力“交给专家”，所以产品方面能明显看到给用户留了很多能力植入和交互的地方。

首先，用户在一键生成Prompt的时候可以提前加入知识库的文档。

用户可以导入简单的任务描述，也可以直接把领导给你的任务说明一股脑扔进去。

因为即便生成效果不佳，也是可以支持划线局部提修改意见，当然直接上手改也是可以的。

跳测试。

这里给数据集输入一个case（填写变量）

变量可以从数据集里随机抓，也可以AI生成以后自己改。

模型会跑回答。

跑完回答后，可以直接在模型回答里改，改到满意为止。

如果太复杂的问题，可以在下方添加到评测集里，多输出几个标准答案，可以帮助模型表现更好。

当然也可以批量上传评测集，评测完成后给所有的结果手动打分和输入评测标准。同理，评测标准可以自动生成，也可以手动改写输入。

然后AI会自动生成打分的分数，打完分以后可以让PromptPilot进行自动优化.

然后这个时候你才进入到PromptPilot核心能力的大门，也就是刚才提到的Prompt臻化联动仓（Prompt优化和联动精调）

如果不满意的话，可以重新再来一遍，然后模型会不断微调，把分数拉上去，表现不好的BadCase会被收录到“错题本”里，并导出一个智能优化的报告。

不要小看这个流程，它其实解决了独立开发者的几个头疼的问题：

上下文能力和模型评估能力。

案图示例里只有几十个case，但如果像agent创业者，动辄数千个case涌入进来，这套流程的威力就会显现出来了。这不是一个简单的prompt编写能力，而是帮助开发者直抵agent的核心。

我想甚至可以这么说：大模型+PromptPilot，其实就已经可以成为一个简单版的DIY生产力agent了。

所以在交流环节，有开发者站起来的第一个问题就是，这玩意儿能不能接到非火山云的场景里，比如他自己玩的端侧模型（其实我猜他可能想说阿里云、腾讯云之类的友商，但不太好意思）。

王铁飞立刻说是可以的，他们已经开了API接口，能力是完全开放的，开发者直接自己接就可以了。

PromptPilot团队至少在发布会上展现了很包容性的姿态，他们甚至可以支持所谓的“Repurpose”的功能——就是如果你使用了一个较大较强的模型，但因为各种原因需要降级模型能力，PromptPilot可以帮你在执行这个特定的任务能力方面，尽量拉齐到原先的水平上。

我个人粗浅的理解是：相当于你原本开奔驰大G跑高速，但120迈匀速有很多车，换飞度的性价比其实更高。但在上高速，驾驶员对路况不熟悉，宁愿先用大奔把成功率跑上去，然后慢慢再去探寻成本的边界，而PromptPilot在这个时候可以成为你换车的工具箱之一。

所以从这个角度来说，PromptPilot不是一个简单的prompt工具，而是大模型落地的桥梁。它既能通过对话和评分，把人的需求沟通明白，也能以此为抓手，再对模型能力进行规划和精调。

在所有的AI云厂都在布局agent服务能力的今天，PromptPilot未来会长成什么样，是一件值得期待的事情。

上一篇：传音控股股东拟转让2%股份，公司上半年净利同比下滑57% 传音控股2024下半年预计分红时间传音控股股票2025业绩预报

下一篇：东方修罗场：《K线成长记》照进现实涓滄柟淇綏涓滄柟淇綏瑙嗛

听完PromptPilot的发布会，发现他们想Pilot的竟然不止是Prompts

相关内容

热门资讯