小鹏弃用 DeepSeek 背后:技术路线与战略适配的深度考量

春节期间,当 DeepSeek 掀起一阵热潮,众多本土车企纷纷宣布将其深度融入车机系统时,小鹏汽车却选择了另一条道路。如今回望,小鹏的这一决策并非偶然,其背后是对智能座舱技术路线的深刻洞察与战略布局 —— 当时的小鹏正全力研发端侧 VLM(视觉语言模型)这一核心技术。

技术路线的本质分野

若抛开细节,聚焦核心差异,不难发现:采用 DeepSeek 的车企多走 “端云结合” 之路,而小鹏则选择了 “端侧全链路” 方案。前者在本地完成感知后,将结果上传至云端,依赖部署在云端的 DeepSeek 进行决策,再将指令下发至车端执行,类似自动驾驶领域 “分模块方案” 的逻辑;后者则在本地同时实现感知、决策与执行,堪称座舱领域的 “端到端方案”。

这种差异带来了显著的性能鸿沟。正如端到端范式让自动驾驶系统性能实现数量级提升,小鹏的端侧 VLM 方案在效率上远超传统的端云结合模式。一方面,分模块方案在本地感知与云端决策间存在因人工定义结构化数据导致的大量信息损耗;另一方面,根据汽车数据安全规范,人脸、表情等多模态感知的关键信息不允许上传至云端,这使得云端的 DeepSeek 即便具备强大能力,也因 “无米之炊” 难以充分发挥。

实际应用的刚性需求

技术的价值终究要体现在解决实际问题上。智能座舱的核心诉求是 “自然交互”,这包含多模态融合与实时响应两大关键点,而这恰恰是依赖云端的 DeepSeek 难以满足的。

在多模态交互层面,人类与座舱的沟通涉及声音、文字、图像、触控等多种信息源。云端 DeepSeek 以文本能力为核心,与本地多模态感知之间存在天然的信息鸿沟,加之数据安全限制导致的细节丢失,很难精准识别用户意图,更遑论提供 “千人千面” 的服务。

实时性方面,人机交互对响应速度有着严苛要求:触控延迟需小于 100 毫秒,手势与眼动识别需小于 150 毫秒,语音响应需小于 300 毫秒。显然,只有不依赖网络的端侧本地模型才能满足这种实时性,而依赖云端传输的 DeepSeek 难以达标。

此外,端侧部署还为全球化战略扫清了障碍 —— 无需在海外建设云端运营中心,有效规避了数据跨境流动的合规风险,这对致力于出海的小鹏而言至关重要。

战略伙伴的资源适配

小鹏放弃 DeepSeek 的另一重原因,在于其与阿里巴巴的深度战略合作提供了更优选择。尽管阿里巴巴减持了小鹏股份,但双方在 AI 基础设施与大模型领域的合作从未中断。

小鹏座舱 VLM 的基模型极有可能源自阿里巴巴 2024 年 12 月开源的 QVQ-72B-Preview—— 这款业界首个开源多模态推理模型,与小鹏用于座舱的 720 亿参数云端基座大模型在规模上高度匹配。相较于后起之秀 DeepSeek,阿里巴巴在大模型领域布局更早,多模态处理能力更为成熟。

QVQ-72B-Preview 的核心能力与智能座舱需求高度契合:既能同时处理语音、视觉、文本等多模态数据,通过跨模态对齐解析用户意图;又具备动态视觉推理能力,结合物理常识推断行为逻辑,可支撑从被动响应到主动服务的升级,还能应用于疲劳检测、儿童遗忘预警等安全场景。当然,小鹏并非简单 “拿来主义”,在模型微调、数据训练顺序等方面仍需大量定制化研发。

从技术路线的前瞻性到实际应用的适配性,再到战略资源的协同性,小鹏弃用 DeepSeek 的选择,本质上是对智能座舱发展规律的深刻把握。随着端侧 VLM 成为行业趋势,这场技术选择或许将成为智能座舱升级的重要分水岭。


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注