机器人北京上学记
创始人
2025-09-21 13:45:19

本文来自微信公众号:经济观察报 (ID:eeo-com-cn),作者:周悦


导读


壹||与写字楼里的精密采集不同,北京人形更像一个沉浸式实验舞台。机器人在其中学习诸如开冰箱、倒茶、补货、上下货的操作任务。这些动作既要准确,还要尽量自然、接近人类习惯。


贰||8月,在北京世界机器人大会的展区里有一张“具身智能数据采集地图”。这不是一张概念图,而是北京亦庄正在进行的“具身智能社会实验计划”的一部分。


叁||正如人工智能被称为“有多少人工,就有多少智能”那样,具身智能的训练同样高度依赖人力。落到产业一线,承担教学任务的,是数以千计的数据采集员。


肆||行业共识已逐步明确:数据是具身智能的核心要素,但围绕什么样的数据质量高、如何采集、如何高效使用等问题,技术路线正在快速分化。


叠衣服,是千寻智能教机器人做家务的第一课。


在北京海淀的一栋写字楼里,采集员坐在机械臂前,夹起、对齐、折叠、放下——每个动作要重复上百遍,只为让机器人学会“像人一样”进行家务劳动。


在北京的不同区域,类似的训练正同步展开:向西,石景山人形机器人数据训练中心,上百台机器人在“九年一贯制”训练区与“机器人大学”场景区中,学习开门、拿取物品、插花等动作;向南,北京经济技术开发区(下称“北京亦庄”)的北京人形机器人创新中心(国地共建具身智能机器人创新中心,下称“北京人形”),则将厨房、客厅、超市、加油站等空间1:1复刻,打造沉浸式的采集工厂,整栋楼里分布着数百台左右数据采集本体,包括人形、轮式、机械臂等。


经济观察报走访发现,北京多家企业与机构已布局数据采集中心,包括智源研究院、银河通用、北京人形机器人创新中心、星海图与千寻智能等,规模从三四十人到上百人不等。


当前,具身智能正处于“百家争鸣”的技术探索阶段,路线多元,但一个共识日益清晰:高质量数据,是机器人能否走出实验室、真正进入社会的关键。


与大语言模型依赖海量文本语料不同,具身智能模型必须在真实或仿真环境中学习动作、语言、视觉等多模态数据,就像教小孩打球——不能只讲解,还要配合动作示范、纠错与强化,才能使得智能逐步涌现。


如今,高质量的具身智能数据也被赋予了明确的经济价值:它们可以被交易、获得政府补贴,甚至成为企业融资、拓展应用、带动整机销售的重要筹码。政府推出“数据券”等激励机制,企业则在数据生产、标注、模拟与合成的不同环节不断探索,试图通过独特的数据配方构建护城河。


更重要的是,这不再是某一家公司的突围战,而是一座城市的系统性实验。比如,北京正试图通过政策、场景、机制等多维协同,以数据为支点,撬动整个具身智能产业链,让机器人走进真实世界。上海、天津等地也在布局大型数据采集中心。


机器人的“学校”


千寻智能将整层空间改造成了一座秩序感十足的数据工厂。


没有格子间,也没有会议室,取而代之的是一排排机械臂和贴在墙上的操作规范。左侧墙面张贴着安全操作守则,右侧小黑板每日更新采集员的工时、完成进度和准确率。一块大屏幕上实时滚动着采集率、误差曲线与系统稳定性等关键指标。


基础动作由采集员完成,复杂操作则交由工程师佩戴VR设备远程控制,如模拟搬运、避障与放置等任务。


千寻智能的一位负责人告诉经济观察报,最早训练叠衣服这个动作时,光是跑通从布料识别到路径规划,就花了半年。过去,一个新动作的训练需要六七百条高质量数据,如今只需不到百条,训练效率提升了近七成,“机器人模型的成长就像从三岁小孩变成五岁,学得更快,也更稳”。


目前,千寻智能每天能采集上千条动作数据,按月形成可调用、可组合、可复用的能力库。这套“自采数据、自控硬件、自测模型”的体系,也成为其融资过程中的核心竞争力。


自2024年初成立以来,千寻智能已获得近6亿元融资,投资方包括京东、小米系、宁德时代系与中东资本。这些资本不仅提供资金,还开放旗下的真实场景——工厂、仓库、物流园区,供千寻智能部署和测试。


与写字楼里的精密采集不同,北京人形更像一个沉浸式实验舞台。两层楼被1:1复刻为厨房、卧室、会客厅、茶室,甚至还有加油站、超市货架、工厂生产线等生活和商业场景。机器人在其中学习诸如开冰箱、倒茶、补货、上下货的操作任务。这些动作既要准确,还要尽量自然、接近人类习惯。


北京人形具身数据负责人李广宇告诉经济观察报,以整理冰箱为例,任务被拆解为多个子动作:开门、识别、抓取、摆放、关门……不同品牌的冰箱构造略有差异,瓶装可乐可能放在冷藏室、抽屉,或门板储物格中,每一种位置都会影响机器人的操作路径,因此需要尽可能覆盖各种变体,确保模型具备泛化能力。


北京人形将采集任务分为两类:一类是高复用性的通用动作场景,优先覆盖厨房、客厅、办公等空间;另一类则是企业定制场景,如为家电企业采集冷柜操作流程,或为零售品牌记录补货标准动作。仅采集某品牌冷柜的标准作业流程(SOP)就可能需要上千小时。


在产能上,北京人形已实现月均超过上万小时的动作数据采集,跻身全国采集中心的第一梯队。李广宇表示:“我们关注的不是数据的总量,而是质量是否服务于智能涌现。同样是1万小时的数据,组织方式不同,模型效果差距可能极大。”该团队正在推进差异化补采,通过分析模型在训练中的弱项,定向优化,更高效地支持泛化训练。更有长期价值的,是围绕不同行业场景形成的“数据配方”。这是指根据企业的业务流程、操作标准和作业环境,完成定制化的数据采集需求,其中包含了行业企业的技术诀窍。


这也是头部具身智能企业争相让机器人进厂打工的原因,合作的企业类型越多,积累的数据配方就越丰富,训练出的模型也更容易具备落地性,成为与客户谈合作、与资本谈估值时的重要资产。


北京亦庄的“学区”试验


2025年8月,在北京世界机器人大会的展区里有一张“具身智能数据采集地图”,地图上有近百个真实采集点位,分布在药房、图书馆、酒店、物流园区等公共与商业空间,构成了一张动态运转的人机协同网络。


这不是一张概念图,而是北京亦庄正在进行的“具身智能社会实验计划”的一部分。在这项计划中,整个城区犹如一座具身智能的真实数据工厂。


7月,在北京亦庄的一家七鲜超市,北京人形的“具身天工”机器人正在货架间进行补货训练。它身旁站着两位工程师,一人手持遥控设备控制操作,另一人负责记录数据与动作表现。他们每天会采集20多个微任务,分成几十个子动作。人流密集会对采集作业产生一定干扰,一位工程师称:“拍照、围观的人很多,觉得机器人训练很新鲜。”


李广宇介绍,相比搭建场景,机器人在超市、酒店这类真实空间采集数据,有三个显著区别。首先是环境还原度最高,不需要复刻,直接按岗位SOP执行操作;其次是人流密集、围观者多,对机器人的稳定性提出更高要求;第三是现场安全管理要求更严,虽然没有划区设置作业线,但所有动作都必须可控、可保证,目前仍以现场遥操作为主。


类似的点位,已经陆续铺开。根据北京经开区管委会规划,实景场所将扩展至上千个,数据池建设达到PB(千亿字节)级。


与此同时,北京亦庄出台《推动具身智能机器人创新发展的若干措施》,将数据正式确认为重要生产要素,明确提出对认定的数据采集标杆实训场给予每场所10万元奖励;对企业构建的高质量数据集,最高提供200万元资金支持;每年发放1亿元“数据券”,企业购买数据产品(如数据集、平台接口等)可使用“数据券”按比例获得补贴,单个采购主体年度最高补贴不超过100万元。


这一机制的核心转变在于:从过去补贴机器人本体,转向以数据为激励对象,鼓励企业参与共建、共采、共用的公共数据生态。


企业也在进行响应。8月,落户北京亦庄的星海图科技,发布了国内首个开放场景真机数据集Galaxea Open-World Dataset,并同步宣布开源其自研模型G0。该数据集来自真实家庭、办公室等50个典型场景,总时长超过500小时,涵盖234种任务、1600余种物体与58类操作技能,发布一周后下载量突破8万。


过去十个月,清华大学交叉信息研究院助理教授、星海图首席科学家赵行几乎都在数据采集现场,亲自参与一线的数据工程,经常半夜还在调整参数。


他认为,具身智能发展最大的瓶颈在于缺乏高质量数据。与算法不同,数据采集不是灵光乍现,而是持续、琐碎、耗力的生产活动,从培训采集员、解决设备与网络突发问题,到数据的上传、清洗、标注,都需要亲力亲为。


赵行强调应在家庭、酒店、工厂、超市等真实场景采集,以覆盖尽可能广的任务空间。开源数据集的意义,一是推动行业形成统一标准,便于算法对比;二是构建开发者生态,帮助科研机构和企业缩短落地周期。


成立两年多,星海图完成近15亿元融资,获得美团、今日资本领投,北京机器人基金、亦庄国投跟投。


此外,一所面向未来的“机器人学校”在北京亦庄建成。这是由北京人形打造的具身智能数据训练基地,也是国内首个基于真实场景的具身智能训练平台。该基地计划年底前完成20余个真实场景布局,启动规模化数据采集。除生产功能外,还承担采集员培训与认证,探索职业教育体系,逐步建立行业人才标准,这一模式也具备在多地复制推广的潜力。


背后的人类老师


正如人工智能被称为“有多少人工,就有多少智能”那样,具身智能的训练同样高度依赖人力。落到产业一线,承担教学任务的,是数以千计的数据采集员。


这类工种如今被统称为具身智能训练师。听起来像数字时代的新贵职业,实际上却是最原始的体力劳动。他们每天要录入几十至几百条动作数据,任务场景包括折叠衣服、清理台面等,有时甚至需要模拟一个人在厨房里忙活一整天——来回走动、反复弯腰、搬物归位。


入职之前,数据采集员要测动作适应性,戴上VR设备,进行弯腰、搬抬、旋转等测试。这个环节很容易让人头晕目眩,很多人撑不过十分钟,淘汰率超过50%。


更隐性的门槛藏在招聘细节中。一位数据采集公司的人力负责人表示,他们偏好身高160—170厘米、动作协调性强、体型标准的应聘者——因为体态不稳定,会影响通用模型训练。有些招聘甚至明确写出限制条件:男性体重不超65公斤,无小肚子;女性不超55公斤。


即便成功入职,数据采集员的日常工作也不轻松。在多数采集中心,一条训练链分为三类角色:


最前线的是动作采集员,他们负责演示和录入动作,日均采集量在50至200条,熟练者可达千条;然后是数据审核师,每人日审核量上千条,一个小组年处理百万条。这两类人员多采用外包模式雇佣。


在此之上则是算法工程师,他们根据数据训练模型,并在现场反复验证、调参,学历背景多为计算机或自动驾驶领域。不少算法工程师同样需要懂得调试硬件,桌上一边是显示器,另一边则是不同种类的机械臂以及维修工具,随时可以将机器人大卸八块。


虽然都属于训练师,这三类岗位在工作性质、技能门槛与薪酬结构上差距明显。一线采集岗的月薪通常在5000—6000元;审核岗位年薪可达8万元;而参与模型训练的核心训练师,年薪则可达15万—20万元。算法工程师月薪起薪在2万元,精通数据合成等技术的可达10万元,还会有期权等薪酬激励。


为延长职业路径、减少人员流失,一些数据中心已在尝试从采集员中挑选“对数据有直觉”的员工,参与真机调参、流程设计,甚至晋升其为项目经理。这类招聘需求正以2—3倍的速度增长。


与此同时,技术也在不断拓展岗位的地域边界。在石景山人形机器人数据训练中心,远程采集系统已经上线,操作者无需在京,只需佩戴专业设备,即可异地控制机器人完成数据采集任务。三四线城市的年轻人,也能以远程打工者的身份加入。


这种远程机制,可进行海外部署,降低数据采集的运营成本,该中心目前已有100多台双臂机器人投入使用,主要使用外骨骼和VR遥操作设备——相较于动捕系统的数十万元价格,更具灵活性与经济适用性。


编写“教材”方式的分歧


行业共识已逐步明确:数据是具身智能的核心要素,但围绕什么样的数据质量高、如何采集、如何高效使用等问题,技术路线正在快速分化。


一种路径强调在真实世界中采集真机数据,积累通用经验;另一种路径则更侧重合成数据的效率与成本优势,以期在模型训练初期快速迭代。各类企业的发展阶段、资金能力与目标场景不同,对数据的质量、效率与泛化能力的要求也不同。


北京大学助理教授、银河通用创始人王鹤是合成数据这一路线的代表人物。他告诉经济观察报,真机数据采集本身太慢、太贵。以特斯拉为例,训练机器人完成电池分拣,需要40人的团队远程遥控数月,还只能完成一个技能。而现实中,机器人需要掌握成千上万种操作。


银河通用选择的路径是“虚实结合”的范式——以合成数据为主、真实数据为辅,实现模型训练效率与泛化能力的平衡。银河通用用10亿级合成数据进行端到端训练,仅依靠极少量真实数据进行泛化微调。


王鹤举例说,仅用200条真实数据,银河通用的机器人就在一个下午内学会了按顺序抓取饮用水,并能泛化到不同品牌的瓶装饮料。这一效率对比,是以月计的量级差异。


王鹤并不否认采集真机数据热潮的价值,但他认为问题的关键不是采了多少数据,而是这些数据能不能交付价值?能不能让机器人真的能干活?成本合不合适?


他判断,未来三年,人形机器人的量产速度与自主应用落地规模都将以两倍甚至三倍的速度增长,找到最适合场景、最具性价比的高质量数据生成方式很重要。


成立2年以来,银河通用获得两轮融资,6月完成11亿元融资,创下国内具身智能赛道最大单笔融资纪录。


李广宇提到,在实际训练中,北京人形也在使用合成数据。现在行业里普遍的比例大概是9:1,即仿真数据占9成,真机数据占1成,这样成本和产出更平衡。


除了真机数据之外,北京人形也在同步构建多元数据体系,包括高保真合成数据、人类视频数据,并在探索世界模型、人类在环训练、机器人自主学习等先进的训练范式,提高整体数据规模与训练效率。


京东集团高级副总裁、京东探索研究院副院长何晓冬告诉经济观察报,合成数据与真实数据结合的价值已有先例。在自动驾驶领域,最初不少公司试图依赖仿真平台批量生成数据,推动模型演进。特斯拉的实践表明,先从L2量产车入手,依靠长期运营积累的大规模真实驾驶数据,持续迭代模型,数据飞轮转动起来后,技术进步会更明显。仿真能加快验证,真实场景数据则能影响更远的性能问题。他认为,具身智能企业应当尽快让机器人走进现实世界,参与工作和生产。


这些声音显示,真机采集与合成模拟并非彼此对立,而是技术路径上的互补组合。对于不同任务、不同算力资源、不同商业目标的企业而言,找到自己的路更关键。

相关内容

热门资讯

街边大排档,涌进商场做“漂亮饭... 总第4345期作者 |餐饮老板内参内参君街边大排档摇身一变商场“漂亮饭”内参君发现,“大排档”这三个...
全国第二个提前还债的省份,出现... 本文来源:时代周报 作者:王晨婷继北京的探索之后,第二个明确提出提前偿还专项债的省份来了。9月9日,...
V观财报|5连板泰慕士:存在股... 【V观财报|5连板泰慕士:存在股价大幅上涨后回落的风险】5连板泰慕士公告,公司控制权拟发生变更事项尚...
V观财报|瑞丰高材:股东桑培洲... 【V观财报|瑞丰高材:股东桑培洲拟减持不超240万股公司股份】瑞丰高材公告,持有公司股份1301.1...
每3辆出口摩托就有1辆“重庆造... 文/陈昊星近些年,汽车逐渐成为居民家庭的主要交通工具,而摩托车产业在一定程度上被边缘化,市场份额和社...
有没有发现,女骑手越来越多了?... 作者 | 溪云最近不少人关注到一个现象,送外卖的女骑手,越来越多了。美团研究院的数据显示,从2022...
V观财报|仲景食品:董事刘红玉... 【V观财报|仲景食品:董事刘红玉拟减持不超15万股公司股份】仲景食品公告,持有公司股份61.83万股...
中际旭创:合资公司已正常运营 ... 新京报贝壳财经讯 有投资者在投资者互动平台提问:请问公司和瑞可达成立的合资公司是否已开始生产经营?主...
能建城发党委书记、董事长杨扬洋... 9月21日,澎湃新闻注意到,中能建城市投资发展有限公司(简称“能建城发”)党委书记、董事长杨扬洋的名...
刘强东“10年1元年薪”之约到... ▲资料图:刘强东与“奶茶妹妹”章泽天图源:视觉中国2015年,刘强东和“奶茶妹妹”章泽天领证结婚,一...
75岁刘晓庆回应胳膊受伤:是我... (来源:羊城晚报) 9月20日,75岁刘晓庆胳膊打绷带现身机场,步伐轻快,微笑回应:“胳膊是我踩空掉...
本周外盘看点丨美联储最关注的通... 来源:第一财经 市场正评估未来美联储降息节奏,密切关注本周多项经济数据;瑞士、瑞典和墨西哥等央行将公...
净利连降三年半、募投项目延期,... 深圳商报·读创客户端记者 梁佳彤 9月19日晚间,楚环科技(001336)发布公告称,公司股东浙楚投...
谁能想到,港务的房价赶上高新了... 这一周,西安新房市场价格战在继续的同时,也有纯新盘首次迎来价格公示。 有意思的是: 高新软件新城某盘...
金能科技:本次秦庆平先生解除质... 每经AI快讯,金能科技(SH 603113,收盘价:6.9元)9月19日晚间发布公告称,截至本公告披...
若羽臣冲刺港交所IPO:对线上... 2025年以来,“A+H”两地上市模式持续升温,近日,广州若羽臣科技股份有限公司(简称“若羽臣”)向...
泰慕士脱敏狂飙 泰慕士脱敏狂飙... 富凯摘要:始祖鸟事件会影响股价表现吗?作者|辛思路6月12日,泰慕士发布控股股东签署《股权转让意向协...
A股:再刷新历史纪录! a股交... 数据显示:自今年8月13日以来,A股市场成交额已连续28个交易日超过2万亿元,再刷新历史纪录。另外,...
A股:再刷新历史纪录! a股交... 数据显示:自今年8月13日以来,A股市场成交额已连续28个交易日超过2万亿元,再刷新历史纪录。另外,...
机器人北京上学记 本文来自微信公众号:经济观察报 (ID:eeo-com-cn),作者:周悦导读壹||与写字楼里的精密...
上海校园餐背后的供应商,越挖越... 上海校园餐巨头绿捷的业绩,让我想起了马兰德隆版《佐罗》的开场镜头:一个玉米小贩在广场上热情叫卖“猪能...
电力现货市场全覆盖倒计时 本文来自微信公众号:经济观察报 (ID:eeo-com-cn),作者:潘俊田9月初,江苏高电新能源科...
谁在掏空中国楼市?囤房1.3万... 谁在掏空中国楼市?囤房1.3万亿!中国最大炒房团要清仓走人? 一说谁在掏空楼市,大家第一反应是温州大...
沪电股份拟赴港上市,上半年PC... 9月19日晚,沪电股份(002463)公告,根据公司总体发展战略及运营需要,为进一步优化海外业务布局...
被网信办查处,快手回应:将完善... 来源:市场资讯 (来源:贝壳财经) 新京报贝壳财经讯(记者韦英姿)9月20日,针对网信部门依法查处快...
一句话,干掉586亿 一句话,... 来源丨财通社被香港证监会点名后,山高控股集团有限公司(0412.HK)股价19日大跳水。9月18日,...
中国婴幼儿奶粉行业发展趋势深度... 今天分享的是:中国婴幼儿奶粉行业发展趋势深度分析报告 报告共计:16页 该报告深度剖析中国婴幼儿奶粉...
为什么我建议你重读30年前的《... 上个月,当Google的Nano Banana模型发布时,我正埋头于一堆复杂的代码中。看着那些由AI...
两件大事刷屏!“924行情”即... 刚过去的交易周(9月15日至19日),A股市场在年内高位出现较大波动,似乎提醒所有股民:慢牛,也不是...
第九届人单合一模式引领论坛举行... 9月19日,由商业生态联盟(BEA)、海尔集团、加里·哈默管理实验室(MLab)联合主办的第九届人单...