采访嘉宾 |袁东
编辑 | Tina
每次技术革命,无论是个人电脑、互联网还是移动设备,总是从硬件开始,然后演化到软件层。而操作系统是计算机系统的核心,没有它,计算机就只是一堆硬件,无法运行任何程序。
微软 CEO 萨蒂亚·纳德拉曾将生成式 AI 带来的转变比作从蒸汽机到电力的转变。“你不能简单地把电动机放在蒸汽机的位置,而其他一切都保持不变,你必须重新布线整个工厂。”这一两年,“围绕大模型重建操作系统”一直是一个热门话题,产生了各种将大模型作为操作系统或引入操作系统的想法,进而又出现了各种场景下的 AI OS。
不管是手机还是全新的 AI 终端,操作系统都是贯穿其中的灵魂,如今手机厂商的“AI OS”角逐也正在上演。苹果在 WWDC 上宣布了“Apple Intelligence”,为 iPhone、Mac 等设备提供一系列 AI 功能。随着苹果正式进军“AI 战场”,生成式能力加持的 AI 手机显然有加速发展的趋势。
实际上,国内 AI 手机起风更早,vivo 去年发布了自研 AI 大模型矩阵“蓝心大模型”,以及面向通用人工智能时代自主研发的蓝河操作系统 BlueOS。BlueOS 的系统架构选择了用 Rust 语言编写,减少安全漏洞,并引入大模型的能力,支持复杂的意图识别和声音、图片、手势等多模态交互方式,还并为开发者提供了自动编码等应用开发新范式。
大模型会给操作系统带来什么变化?7 月 27 日,vivo 在北京举办了首场蓝河操作系统技术沙龙,我们在会后也邀请到了 vivo 技术规划专家袁东参加 InfoQ 的“极客有约”直播,为我们详细解读了蓝河操作系统的设计理念和技术细节,以下是采访整理。
大模型时代,我们到底需要一个什么样的操作系统
InfoQ:最近一两年,我们有了各种关于大模型操作系统的说法,举例来说,传统意义上的 OS、AI-powerd OS,还有 Andrej Karpathy 提出的 AIOS/LLM OS 等各种定义。与传统操作系统相比, AI-powerd OS 和 AIOS 各呈现出哪些新的架构特征?蓝河操作系统比较接近哪一种?
袁东: 从最近大模型代表的 GenAI 的火爆,到最近 WWDC 和 Google IO 对公众越来越多的披露,从业者意识到,每天我们朝夕相处的操作系统在这个时代将会有非常大的革新。
目前业界对 AI OS 或者 AI-powered OS 没有明确的概念或者界限,但可以确定的是,技术架构层面,端侧模型原生入驻操作系统提供系统级别的智能能力,这将在人机交互、技术架构和生态方面会有很大影响。
在技术架构方面,端侧模型原生入驻操作系统,提供系统级别的智能生成能力。
蓝河操作系统原生集成蓝心大模型,意味着 App 可以基于大模型进行内容构建,后续随着 AI 系统的进一步强化,除了架构的革新外,会有更多的符合 AI 时代的特性推出。例如,普通人可以利用系统创造出符合自己风格的内容。
InfoQ:大模型热了后,“围绕大模型重建操作系统”就成了一个热门的话题,可能大家一开始希望大模型更具颠覆性,希望能给底层也带来革命。这让我想起了不久前 Rabbit R1 翻车事件,我认为其中一个关键原因是它的宣传策略。Rabbit R1 宣称其操作系统与之前的安卓系统不同,它是一个全新的系统,能够运行大模型。这种宣传可能给消费者带来了误解或过高的期望,因为实际上它可能并没有达到所宣称的创新水平。那么您认为大模型时代,我们是否有必要重建一个跟安卓不同的操作系统?另外,您认为大模型到来后对操作系统的发展产生了什么样的影响?
袁东:Rabbit R1、Ai pin 等在我看来是行业对于 AI 时代大胆的尝试,希望探索出更适合 AI 时代的消费电子产品。目前来看,手机依然是最重要,AI 受益最多的个人产品之一。操作系统在 AI 时代需要明显的升级,借助 AI 智慧化提升用户体验。
我认为操作系统会因为大模型在人机交互、架构、生态,三个方面会有很大影响与改变。大模型产的智能涌现,类比移动互联网之于手机。 操作系统会围绕着交互范式、生态范式的改变,相应的做出很多调整。例如,为了打造个性化的系统,需要尽可能获取用户关乎自身的数据,相应的会有系统级别的方式(比如通过系统 App,用户操作)来获取这些私人数据,同时基于这些来给出更贴近用户的行动建议。
交互范式的变化,意味着服务类 App-Agent 之间的关系与形态慢慢发生变化。Agent 成为一个系统级别的超级 App,随之而来的是 生态发生变化。
架构方面,AI 大模型入驻操作系统,其提供了智能的能力,除了自身生成的内容要保证安全,同时我们需要在操作系统中原生地集成安全检测机制,以防止用户遭受不必要的损失。
InfoQ:在面向大模型的发展过程中,操作系统面临的挑战和机遇是什么?
袁东:
从用户角度来看,需要考虑如何设计好交互入口(智能助手):
即交互方式,多模态智能化交互;
用户的意图理解,用户主动发起 - 系统主动发起对用户意图的理解;
用户需求拆分后的任务分发,系统级 App 的 AI 升级 到 第三方 App 都可以被智能调度。
从开发者生态角度来看,需要考虑如何建造一个共赢的 AI 时代的开发者生态。AI 时代新的 AI 生态架构策略,即围绕智能助手展开的智能生态:
三方程序向系统级别的智能助手提供 App 的能力描述、App 的应用数据;
这类改变类比于 2008 年,App Store 的提出,再次改变了 App 的分发策略,与商业策略。
从架构角度来看:
软件系统架构:持续迭代 AI 系统的设计
硬件架构:个人觉得不同时代的硬件也会有相应的革新,图形的兴盛带动了 GPU 的产生,神经网络的计算如果越来越重要 NPU 的发展也会有很大需求。
从原生 AI 硬件角度来看:
人类的五感——听觉、视觉、味觉、触觉和嗅觉——是我们与自然界交互的主要方式。在这些感官中,视觉和听觉是获取信息的主要途径。随着 AI 技术的发展,未来可能会出现原生的 AI 硬件,这些硬件将根据新的交互逻辑和形态进行设计。
InfoQ:刚您提到了交互方式的改变,之前也有一个“No App”的概念,但有人认为“No App”是不现实的,对此老师您对此有什么看法?
袁东: 我个人的观点是,从满足用户需求来看,用户更多可能希望与系统级别的智能助手交互来满足譬如点外卖、打车等服务类需求。这对于 App - Agent 助手来说,清晰的调用架构 +App 直达服务可能是未来用户更期望的组合形态。
但是,对于像游戏、视频和企业级办公这样的应用,它们各自有着特殊的需求,比如对隐私的严格保护、对高性能显卡的依赖,或是对特定功能的高度专业化。这些应用很可能会继续以独立的形式存在,但同时,它们与智能助手之间的互动也将成为增强用户体验的关键。通过智能助手与这些应用的智能联动,我们能够为用户提供一种更加完整和连贯的操作体验。而这种整合不仅对用户来说是一个体验的增强,对于整个技术生态系统和系统发展同样积极的影响。
InfoQ:谷歌和苹果开发者大会也提到了它们已经打通了一些 App,这个难度主要在哪里?
袁东: 这个问题的核心在于 Agent 与应用程序之间的协同。Agent 需要与两类应用程序进行交互:一类是自有生态的应用程序,另一类是第三方应用程序。 自有生态的应用程序可能包括办公、系统管理、用户行程安排和出行服务等。而第三方应用程序,尤其是长尾应用,在移动互联网时代积累了大量关键用户数据,这些数据可以被用来产生商业价值并提供服务。
以苹果和谷歌为例,谷歌的 Gemini 在演示时主要展示了其与自有生态应用程序的整合,如 YouTube 和日历应用。Gemini 内部使用了类似于 Web 应用的 Firebase 扩展,通过自有生态来实现 Agent 与应用程序之间的跨域交流。苹果则更为激进,它通过意图理解和 APP Intents(应用程序增强)的概念,允许 Agent 与第三方应用程序进行交互。在发布会上,苹果展示了如何通过捷径(Shortcuts)和桌面小组件与第三方应用程序进行整合,基本上就是将应用程序的行为能力描述注册到苹果的意图系统中。Siri 会根据用户需求,调用不同的第三方应用程序功能来完成用户的需求,类似于 OpenAI 之前提出的函数调用能力。
无论是苹果、谷歌还是国内的厂商,他们都希望未来的服务能够更加便捷。最关键的是充分理解用户的意图和需求。生态建设比技术本身更需要长远发展。技术方面相对清晰,但生态建设,尤其是服务类需求与智能代理之间的交互和交流会很快推进。对于一些社交类或更长尾的应用程序,可能还需要更多的时间来实现整合。
InfoQ:有人认为未来操作系统会朝着用 LLM 替换所有或部分 Linux 内核的方向发展,您认同这个观点吗?能否完全取代 Linux 内核?我们应该如何将 LLM 的能力有效融入或嫁接到操作系统内核中?vivo 的操作系统,融入了哪些大模型能力?
袁东: 操作系统内核的核心作用是,管理和协调计算机硬件资源,为应用程序提供一个统一的抽象接口,实现硬件与软件之间的高效交互。
行业有人提出 LLM Kernel 但其架构与内核是并存的。
首先我觉得,在短期内还是一个并存的状态,因为对于现在我们做产品开发,更多需要的是一个通用的操作系统。
对于通用的操作系统,由于要满足用户不同的场景需求,LLM Kernel 不太可能替代操作系统内核。
特别是有人提出来 LLM kernel 不光是包括这个 LLM,它甚至也会有一些 Agent 的调度,还有内存管理、Tool Management 等等,但它还是把它放在了跟 OS kernel 并列的一个状态,它甚至不属于 OS kernel 层的一个 kernel,所以这个 kernel 不是真正的 OS kernel,而是一个抽象的 kernel。
然而,在某些垂类产品中,主要通过 Agent 来满足用户的需求的情况下,如果它仅仅是通过 Agent 来满足用户需求,比如说我们看到有一些很有意思的视频分享,展示了有一两个桌面级的小机器人,或者一个小的机器宠物。它其实只要一个生成式的能力就可以满足,背后 OS Kernel 可以只服务与之对应的 LLM,或者 LLM 与 OS Kernel 融合也是有可能的。
vivo 的蓝心大模型支持多模态,云 + 端服务于用户。比如用户可以在手表上基于语音交互生成表盘。
InfoQ:面向未来发展,哪些 OS 组件需要 AI 化?您们心目中的智慧 OS 应该是怎么样的?
袁东: 操作系统正在经历一个明显的 AI 化趋势,个人观点, 这在服务卡片等组件中表现得尤为明显,它们正朝着智能化方向发展。在我看来,有两个主要的发展方向:
AI 能力的提升:AI 的加入使得操作系统的组件具备了生成能力,比如能够提取和翻译文本、图像的二次生成等。这种 AI 化的能力提升,使得组件不仅仅能够执行基本任务,还能够进行更复杂的处理和创造性工作。
系统级别的 AI 调度:AI 技术开放给系统级别,可以被 Agent 进行调度,成为智慧调度的一部分,以满足用户需求。这意味着操作系统能够更主动地与用户交互,理解他们的意图,并提供个性化的服务。
智慧 OS 的特点主要体现在以下几个方面:
主动交互:智慧 OS 能够理解用户的意图,并主动与用户进行交互,这种交互方式更加人性化和主动。
拟人特性:与以往的多模态和自然交互相比,智慧 OS 通过大模型和 Agent,展现出更加智能和拟人的特性。
需求化解:智慧 OS 能够帮助用户将复杂需求简化,例如,通过智能代理帮助用户完成一系列相关任务,如打车、订餐厅、导航等,而不需要用户逐一打开不同的应用程序。
将大型模型整合到手机中需要考虑的改进包括:
安全:保证端侧模型生成内容的安全,还要时刻兼顾用户使用手机的场景安全。例如,监测 - 抵御外来通过不法手段对用户的诈骗。
存储:存储也需要改进,尤其是在容量方面。未来操作系统可能会将更多用户数据存储在本地而非云端,出于安全性和隐私性的考虑。用户的数据可能会被持续记录,关键信息如微软的“Recall”和苹果的“On Screen Awareness”(屏幕理解能力)可能会将用户在应用程序级别的操作数据进行拆解和存储。长期来看,这些数据将占用大量内存空间,未来可能会考虑将这些数据存储在特殊的内存位置,类似于苹果发布 Touch ID 时存储用户指纹数据的方式。
计算:模型的能力依赖神经网络计算的能力,神经网络计算能力的发展是一个新需求。如何在端侧保证模型能力越来越强的同时,还能兼顾内存、耗电等资源的占用是需要取舍。
大模型生成能力与操作系统的融合方面,我们之前有推出一个智能表盘,我们发现大家使用智能手表很喜欢按照自己的喜好去自定义表盘,所以根据这个需求,我们开发了一款可以通过对话自动生成壁纸的智能表盘,用户只需要描述自己想要什么壁纸,就能直接生成。未来我们还会有更多更令人兴奋的功能和产品持续推出,敬请关注。
InfoQ:大模型对开发者会带来什么样的变化?对 App 开发会产生什么样的影响?
袁东: 大模型背后代表的是一种智能的产生,这种智能元素可以类比于开发中的新基础元素,就像水和电一样是基础设施的一部分。这种变化首先会 改变开发范式。传统的开发方式是程序员通过输入、存储、计算数据,然后输出确定的数据,使用计算机语言进行编程和运算。未来,编程可能会转变为使用自然语言进行交互,计算将变成一种概率性的计算。开发流程将包括数据的收集和整理、学习、预训练后的模型校验,直至模型能够满足用户需求并生成内容。开发者将利用这一流程,对程序进行相应的变化。其中最关键的是如何提高准确度。有许多方法可以提高准确度,包括结构化输入输出和优化提示工程等技术手段。
生态系统也在发生变化。开发者不仅开发满足用户需求的功能,还需要考虑如何获取商业价值。比如开发 AI 原生应用,例如 ChatGPT 就是一个 AI 原生应用的例子。尽管 AI 原生应用具有一定的风险,因为模型或智能能力尚未完全成熟,存在很大的不确定性,但短期内在特定垂直领域开发 AI 应用仍有其价值。例如,某些专注于短期内开发垂直领域的黏土图片生成的 AI 应用,通过精准定位用户需求,短期内可以获得收益。
长期来看,Agent 应用可能成为更超级的应用程序。如果行业内有 Agent 的规范,开发者可以在生态系统中遵循相应的规范,结合各种 Agent,从而满足用户需求。例如,苹果的 Siri 提出了一些生态系统规范,开发者可以在这些规范下进行开发,既能满足用户需求,也能实现商业变现。
InfoQ:我个人对当前应用开发的趋势还有一些疑问。例如,我们观察到一些应用,比如之前提到的黏土风格图片生成应用,它们实际上可能并不需要开发成一个完整的应用程序。这引发了一个问题:在大模型时代,是否意味着我们之前讨论的快应用以及小程序等轻量级应用形式会具有更广阔的发展前景?
袁东: 在 AI 时代,应用程序的形态,Web App 可能会更加适应 AI 技术的发展。Web App 的优势在于它不需要用户进行安装和升级,始终能够保持最新状态。这种即时更新的特性意味着 Web App 能够与 AI 模型保持天然的兼容性,因为 AI 模型可以不断地进行训练和优化,而 Web App 可以即时利用这些最新的模型。
随着 AI 技术的发展,Web App 甚至可能与 Agent 进行更多的交互,逐渐演变成插件形态,不再需要传统的图形用户界面。这种形态的应用程序在 AI 时代将有很大的发展空间。更多的内容请关注 8 月 8 号,快应用大会。
vivo 蓝河操作系统的演进和迭代
InfoQ:蓝河应该是在 ChatGPT 热起来之前就已经开始规划的项目?是否能分阶段介绍下它的发展历史?另外,蓝河操作系统在发展过程中遇到的最大挑战是什么?
袁东:2018 年伊始, vivo 建立了 AI 研究院,自研操作系统团队,并且在当时我们就认为 AI 时代 Web App 是天生适合 AI 时代的 App 形态。历经 6 年我们研发并发布了蓝河操作系统。
ChatGPT 代表的大模型带来了智能涌现,我们在 2023 年顺势而为发布了蓝河 OS。天生更智慧,天生更安全,天生更流畅。智慧是核心,安全、流畅是基石。
它从一开始就融入了大模型技术,而且在安全性和流畅性方面也进行了全面的重新架构。特别是在架构方面,我们采用了 Rust 语言来实现系统架构,这种语言不仅能够确保用户操作的流畅度,还能在内存安全方面提供强有力的保障。埃隆·马斯克(Elon Musk)也曾提出:“Rust 是实现 AGI 的最佳语言”。目前,Rust 也被尝试用于实现模型推理等任务,例如可以在模型分布式推理中使用。
我们认为在这个 AI 技术迅速发展的时期推出蓝河 OS 是非常正确的决定,它具有重大的意义,不仅代表了技术的前沿,也预示着操作系统未来发展的方向。
InfoQ:在大模型技术流行之前,你们就已经决定使用 Rust 语言进行开发,这个决定背后的逻辑是什么呢?有没有一些明确的数据可以证明 Rust 对用户体验带来的正影响呢?
袁东:Rust 语言的开发与大模型技术并没有直接的硬性关联。Rust 最初由 Mozilla 提出,旨在解决操作系统中的内存安全问题。C 和 C++ 虽然在实现操作系统内核方面非常高效,但它们在内存管理上存在一些挑战,一旦出现问题,排查成本和时间都非常高。相比之下,Rust 语言在保持与 C++ 相当的运行效率的同时,其编译器能够在编译时就避免很多内存错误,从而减少运行时的内存问题。我们选择使用 Rust 开发操作系统,是出于提供更流畅、更安全系统的考虑。
Rust 的优势方面,更多还是处于对安全性的考虑,比如像最近的 Windows 蓝屏事件,可能我们看到的一个原因是它的内存在 unsafe 状态下指向了一个别的地址,导致它崩溃,最终对行业造成了非常巨大的损失,内存安全的重要性不言而喻而这块也是 Rust 的优势。
InfoQ:蓝河操作系统的技术迭代的规划是怎样的(包括 AI 能力,以及编译器、编程框架、编程语言、IDE 等工具)?
袁东: 蓝河操作系统主要从智慧、安全、流畅等三个方向持续保证技术迭代。
智慧:
蓝河操作系统做了智慧的架构设计,重点架设了 AI 能力,实现了更复杂的意图识别和推理决策能力。蓝河操作系统带来了多模态输入输出,模拟人与人的交互方式。它打破了应用和设备边界,让用户不用在各个 APP 和设备中来回切换。同时,AI 的多模态能力将拓宽输入和输出方式,语音、文字、图片、音乐、视频等 AI 都能理解和生成。
蓝河操作系统,从系统、应用、到工具链全面突破,通过 VCAP 能力实现对推理决策的支持,基于大模型能力实现了 AI 服务引擎和多模输入子系统。同时,基于 AI 能力打造了诸多智慧操作系统的新型应用。Copilot 提供代码生成、图文生成等能力,带来应用开发的全新生产力工具。
蓝河操作系统结合 AI 大模型的能力,探索出了应用开发的全新范式——它可以理解你的需求,自动编写代码,生成专属于你的应用、主题或壁纸,满足你对个性化的需求。
安全:
安全与隐私是操作系统的基石,行业数据中操作系统大约 70% 的严重安全漏洞都和内存使用不当相关,修复安全漏洞治标不治本,难以彻底解决。
蓝河操作系统从性能和安全两个维度选择了 Rust 语言作为系统开发语言,Rust 语言的所有权模型、生命周期等一系列安全特性,保障了代码在编译阶段就可以发现内存使用不当导致的安全问题,进而保障系统安全。
流畅:
蓝河操作系统从全栈技术视角出发,对多个技术方向进行探索,例如编程语言、运行时 Runtime、系统调度、显示和内存。充分发挥软硬件资源的利用效率,高性能系统架构实现了一系列关键技术,虚拟显卡框架、超级协程机制、Runtime 等,提升了计算、存储、显示的资源效率。
系统框架的编写我们创新性的采用了兼具高性能和高安全的 Rust 语言;应用开发还要考虑开发效率和生态兼容,目前采用了 js。
Runtime 执行引擎,将前端框架下沉,针对应用使用场景,没有采用传统虚拟机机制,而是直通调用接口,一步直达内核,进一步降低运行时的开销、提升性能。
在线程和进程之下,实现了超级协程机制,无论是滑动屏幕还是打开应用,都可以优先响应当前操作,实现丝滑流畅的使用体验。
蓝河实现了虚拟显卡框架,在虚拟显卡框架上,创新实现了超级渲染树、并行渲染、异构渲染,解决了丢帧、掉帧、帧同步的问题,保障蓝河操作系统的显示天生更流畅。
对于内存管理,设计了全新的内存管理双向动态调整算法,按照算法来分配不同的内存,减少应用启动时间。
InfoQ:您能否详细介绍一下蓝河在构建开发者生态系统方面的具体策略和计划?对于蓝河的开发者来说,您认为他们的机遇在哪里?
袁东: 蓝河在构建开发者生态系统方面的策略和计划是多方面的,旨在创造一个智能应用生态解决方案,同时为开发者提供丰富的机遇。
我们认识到每个生态系统都有其特色,蓝河生态中用户的场景与其他生态不同,特别是在阅读和服务类应用方面。蓝河寻求在这些场景中进行智慧升级,以提升用户体验,使他们更加喜爱这些场景。长期目标是将蓝河操作系统打造成这个时代的智能应用生态解决方案,更加智能地满足用户的各种需求场景。
为了鼓励开发者,蓝河的运营团队持续进行各种活动。例如,去年蓝河 OS 举办了一场比赛,吸引了 300 多支队伍参加,奖金池达到 75 万。赛题包括利用 AI 技术将操作系统内核从 C 语言转换为 Rust 语言,以及生成智慧应用。比赛中涌现出许多有潜力和创意的 App 和系统级解决方案。今年,蓝河将继续举办符合这个时代特征的创新比赛,并进行线上和线下推广,同时邀请专业团队为开发者提供指导。不论比赛结果如何,蓝河都会发掘有潜力的选手,他们有可能成为蓝河团队的一员。
总的来说,未来蓝河的大模型和操作系统将持续朝智慧化方向迭代。传统应用服务的生态将得到重塑,包括原子化服务、个性化定制、智能分发、跨设备协同以及更拟人化的多模态交互等新设计。
对于开发者而言,蓝河生态中的机遇在于 AI、大模型和操作系统的升级。开发者应关注 AI 和大模型能力的提升,以及新操作系统变革带来的影响。我们一方面会从开发效率上帮开发者去减负,包括提供更智能的代码生成、校验、单元测试等能力;另一方面,我们也在探索未来 AI、Agent 跟 APP 之间的新交互方式,去满足 AI 时代的用户的需求,从而获得更大的商业变现机会,这是我们持续在做的一些事情。
评论