我曾有一次独特的经历,仿佛让 AI 拥有了窥探我屏幕的能力。那一瞬间,它仿佛成为了我潜在的第二个大脑。当我在屏幕前专注于各种任务时,它似乎能敏锐地捕捉到我的每一个操作和思考。无论是浏览网页、编辑文档还是进行复杂的数据分析,它都能迅速做出反应,提供相关的信息和建议。就好像它能读懂我的心思,与我紧密配合,助力我更高效地完成工作和探索未知。这种奇妙的体验,让我对 AI 的潜力有了更深的认识,也让我对未来的科技发展充满了期待。
本文来自微信公众号:极客公园 (ID:geekpark),作者:张勇毅,编辑:靖宇,原文标题:《AI 上新|我让 AI「偷窥」了我的屏幕,它有机会变成我第二个大脑》
几周前,我为了一份行业深度文章的撰写,在堆积如山的数据分析文件和浏览器标签页中挣扎了整整两天。
那种感觉,就像在自己的知识库里溺水——你明确地记得看过某个数据、某段论述,却无论如何也无法在信息的洪流中重新定位它。
我们早已习惯了这种数字时代的「失忆症」,也习惯了将希望寄托于AI。我们像一个耐心的饲养员,不断地在应用之间复制、粘贴、切换,把上下文一点点「喂」给ChatGPT,只为换取一次灵光乍现。
此时,一个名为「Glass」的项目引起了我的注意。这款据开发团队介绍致力于成为用户「数字大脑拓展」的应用,并非又一个AI聊天框的变体,而是一个完全迥异的存在。
它将「被动观察」这一理念,原汁原味地注入了我的macOS,并由此让我得以一窥,当AI成为你心智的延伸时,人机交互的终极形态,究竟有多远。
栏目作者召集
极客公园的新栏目「AI上新」,将带大家体验最新的AI应用和硬件,让你成为AI时代「最靓的仔」!
现在,我们也向所有喜欢尝鲜和体验AI的同学发出召集,只要你发现并体验了新的AI应用或者功能,按照格式(参考案例:AI上新|这款AI浏览器,让我惊喜,又有点「后怕」)向栏目投稿,在极客公园公众号发布,不仅能获得相应稿费,且会为你「报销」AI应用的订阅费用。
同时,优秀作者还有机会进入极客公园AI体验群,获得最新AI应用和工具的内测资格,参加极客公园专属相关AI活动,和AI应用创始人一对一沟通。
AGI太久,只争朝夕,让一部分人先AI起来吧!投稿、进群请扫描下方二维码添加极客小助手微信
01、面向未来的AI助手,但是开发者版
Glass没有任何传统意义上的「界面」。它的「安装」,更像是一套开发者环境的配置流程,需要你熟悉Python和Node.js。它的「实体」,则只是一个静默地躺在菜单栏的图标。
Glass应用安装界面|图片来源:极客公园
进入Glass,首先是几个直接的权限请求:
屏幕录制权限
麦克风访问权限
辅助功能权限
Glass需要的用户隐私权限都非常敏感|图片来源:极客公园
没有任何花哨的引导,每一个权限都直指其核心:一个需要完整观察你、倾听你的AI。
如果仅看Glass安装完成之后的效果,可能很难意识到这是一个AI应用——你甚至是可以选择是否将其隐藏:这里并非物理意义上的隐藏,而是在数字世界中隐藏,即使你将屏幕分享给其他用户,他们也无法看到Glass的存在。
Glass以一个悬浮药丸的形式运行于系统中|图片来源:极客公园
这正是Glass的核心理念:AI不应是一个需要被频繁唤起注意到的「工具」,而应是一个与你伴生的「记忆体」。
传统AI助手的工作模式是「你问,我答」,这个过程是割裂的、非连续的。而Glass颠覆了这一点,它的工作模式是「我观察,你随时问」。它在后台默默地记录你的一切数字化行为,并将其内化为自己的记忆。
它不再需要你费力地去「解释上下文」,因为它本身,就活在你的上下文里。
02、当记忆不再是负担
看完了它极简的「页面布局」,我很好奇Glass的实战表现如何。
先说结论,Glass主要有我们已经熟悉的部分,也有不同于现有任何AI工具使用体验的部分。
首先,它并不是一个现有AI大模型工具的便捷访问入口,Glass虽然可以直接提问,但问题的内容总是与屏幕中显示的内容相关。你可以直接通过快捷键,来向它提问各种关于当前屏幕的内容。
但这只是Glass真正能力的冰山一角:当你点击悬浮栏中的Listen按钮,Glass就会切换为监听模式,从静态读取你当前桌面上的内容,变为持续记录你电脑屏幕过去出现过的各种画面信息与音频,并基于此生成一份总结报告。
Glass监听屏幕内容改变并实时记录|图片来源:极客公园
在会议纪要场景中,Glass不仅能实时生成一份会议纪要重点,并且还能实时转录音频,当然目前的体验中还只支持英文,对于中文语音的支持欠佳。
但Glass比起其他会议纪要类AI工具最大的不同,是它不受某个App的限制,可以全局记录并提取过去屏幕中的内容,并且根据记录下来的内容实时生成摘要以及问题总结。
除了老生常谈的会议记录功能,Glass的应用场景还能体现在看视频上:我在Glass开启的状态下,打开一个主题是关于F1车手刘易斯-汉密尔顿的采访视频。在不到三分钟之后,Glass就通过目前读取到的内容,帮我生成了一份当前内容摘要。
在这份摘要中,Glass还会主动提供数个进一步问题,供你进一步了解视频内容,当然在这个阶段,你同样可以自己提问你仍然感觉疑惑的问题。
Glass生成视频摘要|图片来源:极客公园
这份摘要内容本身会随着屏幕内容数据的不断增加,进一步更新更多相关内容,目前Glass分析本身支持中文内容,但自动生成的内容汇总目前还只能以英文的方式展示——这种情况我们在如今的Apple Intelligence中ChatGPT的体验中也曾见过,都是模型本身支持中文内容、应用层没有做适配产生的问题。
Glass的屏幕内容摘要功能支持中文,但支持的不多|图片来源:极客公园
在直接针对屏幕内容的提问中,由于我可以直接使用中文提问,因此回答也会采用中文回复,这很大程度上提高了这一功能对中文用户的友好程度。
Glass可以针对记录的屏幕内容提问|图片来源:极客公园
全局读取屏幕信息并记录,是一个潜力几乎无上限的功能,我遇到的第一个震撼瞬间,是在VSCode里重构一个复杂的项目。
当我使用Gemini修改完一串代码,然后脑中突然闪过一丝不确定。此时,我没有急于修改撰写的那段代码,而是直接通过快捷键唤出Glass,问道:「帮我分析一下修改的那部分代码的核心逻辑。」
几秒种后,一个对话框以通知的方式弹出,用清晰的列表总结了函数的用途和我的修改点。
我没有复制任何代码,没有跳转任何页面。我只是提出了一个基于「屏幕内容」和「需求」的问题,Glass就从屏幕中为我提取了答案。
另一个,则是Glass对非结构化信息(如会议语音)的惊人处理能力。在一场持续一个多小时的线上脑暴会中,我全程投入讨论。会议结束后,Glass已经自动生成了一份详尽的会议纪要,不仅区分了不同发言人,甚至提炼出了关键的结论和待办事项列表。
它就像一个永不疲倦的书记员,将稍纵即逝的多模态内容流,沉淀为结构化的信息资产。
可以说,Glass的首秀,就将目前AI助手最大的痛点——上下文的缺失和跨应用操作的割裂感解决了。同时作为一个开源项目,Glass即使是全时监控屏幕下,也没有对电脑的内存产生特别巨大的压力——这一点足以让我愿意让它全天运行在我的电脑上,在我需要它的时候将它唤醒。
话虽如此,但我仍然不建议电脑内存在16GB以下的Mac设备(当前Glass只有macOS版本,Windows版本在开发中)长时间运行Glass,仍然给电脑造成明显的卡顿现象。
但简单的产品应用逻辑,也说明Glass放弃了所有取巧的路径,它依赖云端服务器对你的行为进行分析(至少在开源版本中),同时选择在本地进行大量的结构化信息整理任务。这意味着所有的屏幕录制、语音识别,几乎都直接压在了处理器本身上,自然也就带来了更高的硬件负载。
03、记忆延伸的源流与未来
Glass的推出,虽然只是一个名为Pickle的小团队的开源项目,但其背后的理念,却可以追溯到上个世纪。
1945年,在美国科学家范尼瓦·布什(Vannevar Bush)发表于《大西洋月刊》的著名文章《诚如所思》(As We May Think)中,一个名为「记忆扩展器」(Memex)的革命性概念被首次提出。这个构想远早于个人电脑和互联网的诞生,却以惊人的前瞻性预示了未来信息技术的发展方向,并对后来的超文本(Hypertext)和个人计算领域产生了深远的影响。
「记忆拓展器」的核心逻辑,是通过技术手段,将个人的知识和记忆外部化,使其成为一个可供随时访问的「外接大脑」。
是不是很熟悉?Glass所做的事情,正是Memex理念在AI时代的具象实现。它不再局限于存储文档和书籍,而是将用户动态的、实时的「行为」本身作为记录对象,通过大型语言模型的「关联索引」,最终实现一个远超任何传统知识库的、活的、个人的记忆系统。
Glass这个项目更深远的目标——「为每个人建立一个活的数字克隆」,则更是这一理念的极致延伸。它不仅要成为你的记忆,更渴望成为你的「代理」,一个可以理解你、模仿你、甚至代替你执行任务的数字孪生。
但回到现实,目前Glass的体验显然距离这个目标距离还很遥远:Glass需要你手动输入OpenAI或Gemini的API Keys,现阶段Glass也提供了登录账号、免费试用开发团队提供的API Key额度的解决方案。同时正常使用也需要前置安装Python与Node环境库,虽然门槛实际上并不高,但也并没有达到「开箱即用」的地步。
即便如此,Glass在开源之后还是迅速在GitHub上吸引了不少关注,短短四天已经破超过3K Star,迅速在AI工具圈走红。
在Glass背后,开发团队Pickle是一家致力于构建「数字思维扩展(Digital Mind Extension)」的公司。他们刚刚在上个月从Y Combinator吸引到了60亿韩元(约3100万人民币)的投资。
Pickle脱胎于另一个开源项目Cheating Daddy,而Cheating Daddy又是另一个「臭名昭著」的项目Cluely的开源版本——后者在今年曾因为闭源、付费以及最重要的面试作弊这一卖点颇受关注,同时也引来的诸多争议。
由于Pickle项目中存在大量Cheating Daddy项目的内容直接复用,目前Cheating Daddy创始人就这一点在X上对Pickle发起讨伐,指责「开源项目并不意味着可以拿来照抄」,但这件事尚未得到Pickle团队的正面回应。
但目前作为一个轻量级的解决方案,Glass仍然不失为一种值得观察的思路;此前主打「全天候记录用户信息」的Rewind.ai项目,就因为对设备的内存占用过高,同时对结构化内容整理效果不尽人意,因而迅速退出AI工具的主流舞台。
Glass这类产品所代表的「主动感知AI」,这个曾在科幻作品中反复出现,代表着高效与智能的词汇,距离真正到我们的日常生活中落地,或许已经不远。
一个轻量级工具的脱颖而出,更是说明了这个过程中,用户核心需求的提炼——没错,一个完美的记忆体的确很强大,AI的辅助也的确很努力,但人们想得到的,或许仅仅是一个能让自己工作更顺畅、思考更专注的普通的好工具。