霸榜618之前,我们与顾嘉唯聊了「灵宇宙」的深度交互哲学
今年618,AI硬件销售榜成为备受关注的榜单之一。而其中有一匹刚推出市场不久的“黑马”—— 连续十 多 天登陆AI玩具热卖榜榜首,直播十分钟销售过百万 ,那就是LING灵宇宙“AI 伴学小方机”。此前,这款AI硬件终端也获得了 2025德国红点设计大奖 。
在AI应用的商业化依旧为人所热议的时期, 「灵宇宙」今年618亮眼的销售数据无异于一剂强心剂,展现出 AI加持下消费硬件的无限可能性。
但对于「灵宇宙」的创始人顾嘉唯而言,这并非是他做的第一个“爆款”。 这位 连续创业的“技术天才” , 曾在28岁入选百度“少帅计划” ,深度参与包括BaiduEye、DuBike等在内的多个等重大创新项目。他后来亦 创办了物灵科技 ,其代表产品儿童绘本阅读机器人Luka卢卡全球销售近千万台。 还作为投资人,投资了包括全球最知名陪伴机器人 Jibo、 Rethink Robotics、KnightScope在内的多个产品。
穿越过消费硬件的周期,2023年顾嘉唯又开始了他的再次创业, 其创立的 「灵宇宙」半年内完成了来自 线性资本 、 耀途资本、清华SEE Fund、银杏谷、 商汤科技 、 三七互娱 、学大教育 等机构和产业方的三轮融资 ,最新一轮正在与多家头部投资机构进行 交割 。
在小方机618霸榜之前,线性资本曾与顾嘉唯进行了一次深度访谈,他向我们详细聊了他做「灵宇宙」的底层思考逻辑。 于他而言, 真正的交互革命不是让设备更智能,而是让设备“消失”在生活中 。 “AI伴学小方机”只是一个良好起步,「灵宇宙」未来希望可以 “重新定义人与世界连接方式” 。
人类与工具相伴百万年,创新浪潮始终推动文明前行。从石器时代的肢体延伸,到工业革命的动力辅助,如 AI 正推动第三次质变—— 我们有幸见证从“使用工具”到“与其成为伙伴的”的智能时代。
无论是在微软亚洲研究院、百度IDL深度学习研究院,还是以创业者身份深耕产业,聚焦人与机器的交互,我始终思考一个命题: 未来十年,机器如何主动适应人类,而非人类迁就技术? 大模型AI技术的突破给出了答案: 当AI具备长短期记忆、主动推理与拟人交互能力时,人机关系的底层逻辑正在重构 ,这正是灵宇宙诞生的时代背景。 以大模型为开端的技术跃升打开了一个全新的世界,在今天 人与AI、与真实世界的连接正发生根本性变革,这种变革将彻底颠覆我们熟知的交互模式。
通过对过去两年大模型技术的深入观察与研究,我们洞察到一个显著的趋势。 生成式 AI 时代, 从过去的“推荐算法”进化成为新一轮的“关系算法”,引发内容生产的「极致个性化 」:
这不仅是 将过去的用户画像标签升维成基于长期交互4D时空序列(时间、空间、行为、情感)的高度精准刻画 ,实现“更懂你”、“当下只为你而作”,例如,灵宇宙的AI学伴能记住孩子三天前在公园问过的植物问题,并在今日路过相似场景时主动延伸知识链,这种“记忆-关联-启发”的交互模式,超越了传统“关键词匹配”的被动服务。
更 叠加了 Agent交互 智能体 ,具备关系链网络化属性,实现交互载体的「去平台化」 。 传统原先依赖内容创作者生态的PUGC内容平台正在衰落,而AIGC技术实现了“内容平权”——技术公司可通过Agent直接生成适配场景的交互式内容。比如灵宇宙AI小方机里的“达尔文”能实时将眼前的树叶转化为科普剧本 ,这种“场景-内容-交互”的闭环,让AI硬件终端成为独立的内容生成与交互中心,而非平台流量的附庸 。交互体验的跃迁与内容的技术平权化,使人机交互公司提供了重新调整 “交互与内容” 杠杆的契机,全新的AIGC交互式内容平台正在崛起。
我希望带领灵宇宙把握这一机遇: 让AI陪伴智能时代原住民更好地成长 。 AI和机器人技术将深刻变革下一代与内容和服务与真实世界的交互关系 ,我们希望通过灵宇宙的技术和产品创新,给这个新时代创造一些美好的改变。依托 Agentic AI(赋予AI学伴“角色人格”) 和 Physical AI(通过视觉识别、语音交互与空间感知,将现实世界转化为“可交互的知识库”) ,打破虚拟与现实的界限,让用户在真实场景中与AI智能体自然交互,激活物理世界的知识与体验, 使AI真正成为用户探索世界、学习成长的伙伴,重塑人与内容和服务、人与真实世界的连接方式。
将会讲故事的屏幕里的AI带入到物理世界,是让AI成为孩子探索世界的“感官延伸”,正如Luka从“读万卷书”到小方机“行万里路”的进化,本质是从“知识搬运”到“认知共建”的升级。
灵宇宙的核心目标,是成为下一代人与世界连接的“ 操作系统 ”。
在AI技术从 “工具属性” 向 “伙伴属性” 跃迁的浪潮中,灵宇宙正以AgentOS为支点,撬动人机交互的第四次革命—— 从 “人适应机器” 转向 “设备适应人”和“机器理解真实世界” ,最终实现Physical AI“万物有灵”。
我们是一家做交互 OS 的公司,去“定义 人机交互 规则”,而非制造硬件设备 ,这是灵宇宙的目标。 通过「物理世界AI-OS」,我们正在构建一个类似iOS/Android的生态系统,即 4D时空交互智能 操作系统 LingOS —— 硬件是载体,交互是灵魂,数据是燃料 。 具体体现在:
- 空间建模(3D环境理解) :通过摄像头与传感器识别物体(如植物、建筑),构建实时「世界知识库」。例如小方机拍摄一朵花,自动关联植物学知识并生成互动问题,将现实场景转化为「可交互的教材」。
- 时间序列(成长记忆沉淀) :基于Luka卢卡时期积累的千万级儿童交互数据,LingOS记录用户从幼儿到少年的认知轨迹。如孩子3天前问过“蚂蚁如何搬家”,系统会在今日路过蚁穴时主动推送延伸实验方案,形成「历史记忆-现实场景-知识拓展」的闭环。
- 行为预测(主动交互触发) :区别于传统语音助手的被动响应,Agent智能体(如李白、爱因斯坦)会根据用户状态主动发起交互。例如孩子在公园写生时,「李白」角色会以FaceTime形式介入,结合眼前风景即兴吟诗并引导创作,实现“交互找人”的主动服务。
- 情感共鸣(关系算法驱动) :通过4D时空数据训练「关系算法」,AI不再是工具,而是具备“角色人格”的伙伴。如「白泽」角色能识别孩子语气中的低落情绪,主动发起故事分享或情绪疏导,这种「情感-行为」的关联响应,超越了传统推荐算法的标签化逻辑。
我们正在通过 “点物赋灵”技术,让物理世界成为交互界面。其核心逻辑在于 让物理实体本身成为智能载体,用户无需通过手机、电脑等中间设备,直接与环境中的物体(如绘本、玩具、家具)进行自然交互 。 从Luka卢卡一开始的无屏触控技术在桌面上形成的绘本阅读及桌面交互场景,到Ling!小方机 将世界变成课堂 , 这种“无设备感”的交互体验, 本质上是将整个物理世界转化为可交互的界面,实现“世界即课堂,世界即教材” 的愿景。
AI会在人的身边持续关注人看到的物理世界。 无论是Always on的全天候设备还是Instant on的设备,记录人每天周围发生的事情;但在短期可见的时间内, 更可落地、可商业化的是我们这种带着摄像头、较高交互密度信息输入的产品 ,就像在“肩膀上的鹦鹉”一样,以第一视角记录人的生活。
今天AI跟用户的互动方式是搜索框,是对话,但这都是阶段性的。智能体Agentic AI时代,我认为 AI跟用户的互动形式应该是类似“Facebook的形式” , AgentOS的互动对象是多智能体构建的智能体宇宙,以及这些智能体跟用户共同创建的内容feeds流构建的内容宇宙,共同构建了有灵魂的灵宇宙。
没有AI之前,即便有很好的记录,也无从找到和这些真实空间数据的交互方式,现在可以是实时的交互场景,比如我们的产品里有一个角色是「李白」,他发起一个和你的FaceTime的视频通话,可以第一视角地看到你身处的世界并写成诗,跟你直接在物理世界里探索和持续交互。
在Agentic AI时代之前,对于效率提升靠原有设备通过AI升级改造,而这些AI升级的PC、手机等已无法满足「机器适应人」的交互需求,所以显然会出现AI Native新物种的机会。 每一代交互方式的出现,相较于上一代,其切入的年龄层越来越低。 所以我认为现阶段想要找到AI Native独立计算终端的正确切入点, 就不要第一天就想要替代手机,因为家长其实本能上排斥孩子过早接触手机。
对于从出生就与AI共生的这代人来说,与AI角色对话如同与真人聊天一样自然。 那灵宇宙就要为他们的这种“新社交直觉”打造基础设施—— 让每个物理场景都能激活智能伙伴,让每次探索都成为“结识新朋友”的旅程。 我们想要切入的是 专属于AI native人群的第一款AI-OS设备 ,能够提供「即时场景化交互」,并基于硬件不断产生持续的交互数据。
人机交互的“圣杯”是找到手机之后的下一代交互。 我们都希望能找到下一代类似手机这样的独立计算设备终端,但这么多年过去了,依旧没有能替代 GUI(Graphical User Interface,图形用户界面)成为主流交互范式的产品。因此,手机中心的地位牢牢不可撼动。我认为可能在未来5-10年里,手机这个设备中心位置仍很难被替换,上一波智能眼镜公司就常常讲替代手机,但其实它目前还很难脱离手机配件的角色。
因此, 我们思维的起点并不是要做一款硬件,核心切入点是由软件交互来定义硬件设备 。 我们的做法是先定义场景、定义软件,然后看如何将AI与人的交互嵌入进场景。 通过场景驱动的交互创新,将灵宇宙小方机打造成全天候的学习载体。
想象一下,最早的学习是依赖书籍,直到浏览器时代才有了稍方便的信息检索,但仍然需要人去过滤筛选信息。通过不同Agents实现主动交互,我们称作 主动交互,把世界变成交互界面,让AI在物理世界的空间中发挥作用 ,在各类生活场景中激活多角色智能体,提供个性化学习与互动体验。
乔布斯早在40年前就在斯坦福有一个分享,让我感触很深。他讲到想做计算机,举了一个例子,说我们可能看到过亚里士多德的书,但是当我们读书的过程中有问题想和先哲探讨的时候,如何让这位先哲给我们反馈?有没有可能通过什么方式来让当代人和亚里士多德对话? 在那个时代乔布斯就已经在畅想这件事情了。
Ling!小方机的AgentOS主动交互——让智能时代原住民孩子通过和不同的Agents对话,找不同的人帮他们答疑解惑, 我认为“找人解决问题”是第一性的。 找人的方式,一种是像以前的通讯软件或Facebook上找到一个真人,通过所谓六度人脉找到人。
我认为 AI和人的交互是要找到合适的、有趣的、熟识的多个角色去解决问题 ,比如当孩子去游玩岳飞庙,这时候就会激活岳飞角色,亲口给他讲一段岳飞的历史典故;孩子在小区的花园里可能激活一个达尔文角色,根据他拍下来的树苗,和达尔文聊生物知识等等。我们在产品的设计里做了许多游戏化的设定,基于地点场景激活AI Agent角色,可以参考以前Pokeman Go的玩法。
以 AI Agents网络重构交互模式,实现“找人 + 做事”的一体化,使交互更贴合人性直觉与实际需求 。我们尝试构建出Agents网络,让这些原生的Agents去完成以前APP执行的工作。回顾2014年我提出的 “APP已死,智能永生”概念,移动互联网时代,用户需要下载大量APP来满足细分需求;而AI时代,智能体应通过自然语言、场景感知主动提供服务——无需打开“天气APP”,AI会根据你出门时的着装提醒带伞;无需搜索翻译工具,看到外文标识时AI Agent角色会实时解读。 这种 “去APP化” 的交互,本质是让技术回归 “服务于人” 的初心,而非让人适应技术的规则。
我们最近都关注到李飞飞创办的WorldLabs。早年我在百度研究院工作时,曾与余凯、吴恩达共事,也与李飞飞多有交集,当时在百度美研这边与Stanford AI Lab也有很多互动。如今许多技术通过3D映射,将人类对世界的感知能力呈现在图面上,在游戏、MR/XR、机器人等领域, 重新诠释了未来理解世界的能力,优化了原有方法,而非单纯依赖不可控的技术涌现。
第一是对于空间交互智能 AI 的认知与实践积累。 当时BaiduEye就是第二个大脑、第三只眼。当然那时候承载的硬件设备的软件算法不够成熟,上个AI时代也没有大模型能完成主动式交互,即便这样我们也用CV小模型定义了很多BaiduEye在博物馆、商场等场景有趣的功能。
那受益于今天大模型带来的全新机会, 我坚持选择的是基于下一代年轻人的第一视角进行迭代路径 。 这与我早年在百度的尝试息息相关,当时BaiduEye的核心思考在于探寻一种方式,以第一视角高密度陪伴人们的生活,引入第一视角的 “直播” 数据。
十多年前,MobileEye的创始人 Ziv Aviram 在为特斯拉构建的大尺度物理空间上的数据后,建构了Oracam固定在眼睛腿上作为弱视和盲人群体的助视器,来构建以人为尺度的生活空间的数据。这个想法当时就深深影响了我, 那一年都没有scale-law这一说法,对于数据涌现智能的思考却已经深深埋在了我的脑中。
这些经历或多或少都为后来Luka卢卡的诞生埋下伏笔。常有不少人询问我们做灵宇宙的灵感来源,其实皆源于过往长期的积累。 从BaiduEye到十多年后的灵宇宙小方机,都源于对于人类同源第一视角的视觉、听觉、语音等感知到处理的数据,随时随地获得细颗粒度信息。 从pocket-in到instant-on再到always-on,小方机里的多角色智能体Multi-Agent 能看到孩子看到的世界,成为用户的第二大脑、第三只眼睛 ,持续获取实时的交互数据。
第二是找到我们的用户 ,并做真正具备PMF的应用。 在商业上,这些年来我学会了换个视角来看问题,观察不同公司思考问题的方式,给自己带来很多启发。例如 Facebook两次要收购Snapchat,显然是后者带来了威胁——后者抓住了年轻用户。这一次AI的发展,在年轻人中的渗透非常快。 越小的孩子越没有学习成本和习惯包袱,他们更容易接受新技术,从触摸屏开始,到语音交互,再到大模型、Agent,越来越接近人最自然的交互方式这是必然趋势。
只不过如今作为连续创业者, 在选择赛道时我会保持谨慎的乐观,而非盲目乐观。 在判断一项技术的发展前景时,无论是 瞄准垂直人群 ,还是如刚才所提及的 探寻大厂尚未察觉的盲区 (就像Snapchat刚出来时候撼动Facebook的案例),将这两个维度相结合,我认为这是创业公司较为理想的切入方式。
每一代信息产品到智能终端,都是从更年轻的人群市场起始,这些年沉淀下来, 发生在智能时代原住民群体(2010年后出生的人群,即Alpha阿尔法世代)里的重大颠覆式创新会创造大的新机会 ,因为这个人群对新交互的接受度很高,反过来甚至会影响主流人群。
另外,之所以从下一代年轻人群体开始做,还有两个重要方面, 第一是壁垒。 在中国做类似AI眼镜这类硬件的门槛不低,但可能面临手机厂商也会去跟进。我们作为一个创业团队已经在上一个周期里积累了非常强的软硬件一体的经验,我认为最核心的就是来自软件的壁垒—— 垂直人群所积累的垂直数据 (文本语言、空间图像、成长轨迹) ,数据不断内化到LingOS并迭代 。比如和儿童的交互,有独特的基于数据迭代的技术挑战;安全类的电子护栏也和普通的AI产品不一样;内容层AI Agents作为我们内容最直接的内容分发载体,积累更多和小朋友的 真实交互数据和有趣的内容 。这是通用大模型不具备的垂直能力。
第二是考虑用户付费以及相应的商业模式。 教育本身是投资,不是单纯的消费。 家长有对教育付费足够强的动力,比起过去填鸭式的“应试教育”,在今天,小朋友们已经可以在玩、在交互中、甚至在室外场景中学习。家长买单的并不是一个“玩具”。市面上一些融资的 AI 玩具是没有讲清楚家长付费、孩子去用的核心价值。 对比各种各样的兴趣班、线上课等这些有明确付费点的教育产品, 今天的AI Agents带来了10倍不止的体验,但价格可能只是1/10。 说到这也讲下我们的商业模式, 硬件只是第一步,后面会有大量基于软件、基于内容付费的持续性收入 。也因此我们要做到最好的体验。
总结来说,我觉得 小方机并不是基于功能的产品,而是一个容器,每个人基于这套界面,可以是主动也可以是被动地和角色互动, AI 也会反过来跟你进行交互 。它带领你基于时间、空间来找到“人”,这一层能力,我们做了一套中台,我们称之为 造人、造境、造记忆。
我的终极愿景是 打造「能真正理解人类」的家庭机器人 ——这需要解决当前机器人领域最核心的痛点:让机器实现「言出法随」,即精准理解意图并即时响应。但现阶段,我们离这个目标仍有巨大鸿沟,核心瓶颈在Physical AI具身物理智能数据的缺失。
我们的长期战略是构建家庭机器人的「智能基石」,构建一套覆盖真实生活场景的空间交互数据集,为家庭机器人研发提供核心「智能组件」。
我一直在讲「万物有灵」这个词,现在是和这个目标比较遥远,核心原因就是数据的缺失。 长期来看, 我想推进的是让数据输入这个事情到下一个阶段,把Physical AI 的数据集构建起来,成为真正的懂人类的AI 。 这件事要实现有非常长的路径,不同公司都在做也有不同的方法,这也是创业的乐趣。我始终认为要让AI理解人类,需要真实的交互数据的构建, 垂直人群的真实数据会是我们越做越厚的护城河。
我们的短期策略是用Personal AI随身终端铺量,搭建人机交互闭环,积累数据。 为实现长期目标,我们需要一个「数据采集 + 商业验证」的切入点,这就是正在推进的Ling!小方机,打造「个人AI伙伴」爆品 ,在阿尔法世代的年轻人中高频使用,实时积累「人与物理世界交互」的数据,比如扫描植物时的提问、博物馆中的探索行为,形成「用户需求-AI 响应-数据反哺」的人机协同(Human-in-the-loop)闭环。
短期目标不仅是销量,更要通过规模化用户验证技术可行性。 类似特斯拉 Tesla 先通过电动车铺量积累真实的驾驶数据, 我们需要 Ling!小方机商业化快速铺量,获取千万级用户行为 ,为后续家庭机器人的场景理解能力提供训练素材。
避开通用人形机器人的红海,聚焦差异化是我的思路,我们明确不涉足运控类技术(如机械臂操作、双足运动控制研发),这类硬件技术一旦成熟,如大模型能力溢出,行业会快速共享成果。 我们的核心目标壁垒是「让机器看懂空间、理解人类」的具身大脑智能,聚焦交互感知和空间智能 ——这才是家庭机器人能否「有灵魂」的关键。
家庭机器人的研发注定是一场十年磨一剑的远征,行业内各有路径:有人主打硬件形态创新,有人聚焦算法突破。但我们坚信, 真实场景中的「人机交互数据」才是通往AGI的燃料。 短期的小方机是铺路石,长期的家庭机器人是目的地,而中间的每一步,都是在为「让机器拥有理解人类的灵性」积累拼图。
正如我常说的, 创业的乐趣,就在于选择一条少有人走的路,然后坚定地走下去。