科技

人机交互新纪元:具身智能曙光初现,面壁智能布局大模型光刻机战略

新浪财经4.7万 阅读
人机交互新纪元:具身智能曙光初现,面壁智能布局大模型光刻机战略

面壁智能联合创始人李大海与清华大学刘知远教授指出,新一代人机交互正迎来突破拐点。全模态模型作为连接数字与物理世界的具身大脑,将推动机器人、智能终端向拟人化交互演进。具身智能或在两三年内实现快速迭代,但手机等终端仍需突破功耗与隐私难题。面壁智能提出'密度法则',致力于打造高能力密度大模型,为AI产业提供持续创新引擎。

人机交互新纪元:具身智能曙光初现,面壁智能布局大模型光刻机战略

共2412字 AI帮我划重点
  1. 2月2日,面壁智能联合创始人李大海表示,新一代人机交互方向已现曙光,但需伴随云端与端侧模型能力的持续提升逐步实现。
  2. 清华大学教授刘知远指出,全模态模型是连接数字智能与物理世界的具身大脑,拟人化交互能力是机器人、智能终端的关键一步。
  3. 具身智能的快速迭代可能在两三年内实现,但当前手机交互仍受限于模态数量与资源消耗,需突破功耗与隐私保护难题。
  4. 面壁智能定位为“做大模型的光刻机”,强调持续产出高质量模型,提出“密度法则”以提升模型能力密度与降低成本。
  5. 李大海认为,创业公司仍有机会在AI领域竞争,需在广阔赛道中占据份额或在细分市场争取头部位置。
  6. 刘知远预测,未来一两年内模型专业能力与交互能力将爆发,多智能体协同与群体智能将在未来五到十年实现。
内容由松鼠AI生成,仅供参考

每经记者:可杨 每经编辑:陈旭

当人工智能开始从屏幕走向现实世界,人机交互正经历一次升级时刻。

无论是手机、汽车,还是正在加速落地的机器人与可穿戴设备,过往以你问我答为核心的回合制交互,正逐渐暴露出响应迟缓、感知割裂、上下文中断等问题。这种交互方式的先天缺陷,正在成为AI进入物理世界的关键瓶颈。

2月2日,面壁智能联合创始人兼CEO李大海接受包括《每日经济新闻》记者在内的媒体采访时表示,新一代人机交互的方向已经出现曙光,但真正的跃迁不会一蹴而就,而是伴随着云端与端侧模型能力的持续提升逐步发生。在这一过程中,全模态模型是否能够成为连接数字智能与物理世界的具身大脑,正在成为产业关注的核心问题。

配图

全模态不是功能叠加,而是交互范式变化

随着AI开始进入物理世界,当其驱动机器人或可穿戴设备时,传统的人机交互模式开始显现弊端。

清华大学计算机系长聘教授、面壁智能联合创始人兼首席科学家刘知远认为,对人类而言,听、说、看本身是多通道并行的,人可以在说话的同时继续听、继续看,这些过程并不会彼此阻碍。但在人机交互层面,此前的大多数模型都很难具备这种能力,"一旦你开始说,就没有办法看了,有这样那样的问题。"

这种交互方式的缺陷,限制了AI走向具身智能的深度。在刘知远看来,拟人化、高度自然的交互能力,是让机器人、智能终端更像人的关键一步。"它(全模态模型)和让我们未来的机器人、智能终端能够像人一样去进行自然交互,可能离得更近。"

依照这一判断,具身智能并不是一个独立分支,而是对模型交互能力提出了更高要求的应用场景。刘知远强调,在具身、智能终端等场景中,其实同样需要类似的模型,才可能让它更好地服务人类。刘知远在采访中判断,具身智能在能力层面的快速迭代,可能并不遥远。"如果说还有多久,我估计可能也就是这两三年时间。"

落到产业层面,端侧模型与AI硬件的结合,正在成为一个现实而复杂的命题。

在李大海看来,随着大厂下场、智能体进入手机等终端形态,新一代人机交互的形态已经看到曙光,但这也并不意味着拐点已经到来。他判断,这一跃迁不会是一次性完成的,"大家会在这个方向上不断地探索,这个要伴随着云端模型和端侧模型的持续提升。"

即便在当前被广泛讨论的手机场景中,技术本身仍存在明显约束。李大海表示,像豆包手机背后依托的是目前行业里最优秀的模型之一,但它对人类复杂任务的完成率其实也没有完全达到可用的理想状态。

李大海进一步分析称,一方面,纯云端方案难以绕开隐私问题;另一方面,端侧资源的算力等消耗,使得全模态能力在手机上的落地需要更长时间。李大海直言,模态越多,资源消耗越大,这决定了不同终端形态的节奏差异。

手机目前的交互仍主要以语音和触控为主,模态相对受限。李大海介绍,以豆包手机为例,其核心突破是让智能体可以像人一样操作手机,代替用户完成复杂任务,这相当于解决了像人一样输出的问题。而下一个重要的演进方向,则在于输入方式的变革。

"目前手机与人的上下文同步,依赖人在屏幕上的主动操作。如果未来手机能直接聆听、观看真实世界,它就能更好地与主人同步、共享上下文。"李大海认为,这是手机迈向真正智能体的关键一步,但也将直面功耗与隐私保护的双重挑战,对产品设计提出了更高要求。

相比之下,汽车、机器人等场景,由于资源条件更宽松,也被李大海认为是全模态模型更具潜力的落地方向。而在具身智能领域,他认为,当前的瓶颈不在本体,而在大脑,一旦模型能力出现突破性进展,具身智能很可能迎来类似"ChatGPT时刻"的跃迁。

行业将快速见证模型专业能力与交互能力爆发

刘知远教授指出,未来一两年内,模型专业能力与交互能力将实现爆发式增长。这种增长将推动多智能体协同、群体智能等更复杂形态的出现,为AI技术在工业、医疗、教育等领域的深度应用奠定基础。

面壁智能提出的"密度法则",正是应对这种技术爆发的重要战略。通过持续产出高质量大模型,提升模型能力密度,为AI产业提供持续创新引擎。