写点什么

微软韦青:狗尾巴的故事—数智时代的第一性原理

数智时代的第一性原理

  • 2022-04-29
  • 本文字数:17203 字

    阅读完需:约 56 分钟

微软韦青:狗尾巴的故事—数智时代的第一性原理


亲爱的朋友们,大家好!


我是韦青,一名工程师,现任微软中国首席技术官,很高兴可以跟大家共同交流全球数字人才发展的话题。

首先我想强调的是,今天所交流的内容都是实证之后的经验总结,其实与其说是经验,倒不如说更多是教训。在巨变的时代,在确定性消失的时代,从错误中习得的知识,远大过从成功中习得的知识。


同时还要说明一点,今天交流的内容远远没有能够上升到理论的高度,是在不断摸索中对所有固有思路、经验和流程的重新审视,是我个人和我的同事们共同与客户、合作伙伴在实践中的一些体会。


我们在实践中发现这个时代已经没有所谓的大师、专家,大家都是在无人区内的实践者。说它是无人区,是因为这是一个全人类从来没有面临过的时代。


所有已知的经验或者理论,如果未经重新审视与验证,已经无法默认能够作为现在的行事指南,这大概就是人们所说的百年一遇,甚至千年一遇的大变革吧。


当在说我们进行的是数字化转型或者第四次工业革命时,要小心我们是不是有可能把这个即将来临的时代的范畴说得略微狭窄了。从种种实践中迹象表明,虽然说我们的确是在用数字化技术改造我们的一切,但它不仅仅是技术的,也是社会的、商业的和人文的,它更像是一场以数字化技术赋能的改革。


虽然这场改革是由数字化技术而推动,但真正起作用的是电子化信息,关于信息被电子化之后对于人类社会产生的巨大影响已经在五、六十年前被马歇尔·麦克卢汉、尼尔·波兹曼和他那个时代的思想家与科学家们做过深刻的讨论,信息的电子化所产生的效果已经可以比拟于六百年前古登堡印刷机的出现对于信息和信息所承载的人类知识的效果。


我们已经知道那一次信息技术的进步对人类社会产生的巨大影响,那么这一次到底是以工业时代的视角而言的第四次工业革命呢,还是因信息革命而造成的又一场复兴与启蒙运动呢?如果无法肯定地回答,倒不如把它称作是一个未知的时代,因为如果想在一个未知的状况下获得新的知识,我们只有通过做中学、学中做,不断地探索与实践,像盲人摸象一样集众力越摸越像,才能渐渐知道这是一个怎样的时代。


同时又要靠小马过河的方式,自己下水去实证,不能道听途说。每个人都有自己的体验、自己的成长路径,其他人的经验对自己会有借鉴意义,但“尽信书不如不读书”,今天介绍的内容不是答案,其作用是提出问题,帮助我们回归“第一性原理”,从而走出一条适合自身特色的发展道路。我觉得这才是这个时代的特征,也是我希望和所有实践者共同走的一条道路。


如果不能本着盲人摸象的愿景去摸索,不能像小马过河一样实干实操,在这个巨变的时代大概率会走很多弯路。


在实践过程中我们自己就走过很多弯路,有时也会因为过于强调技术的先进性而忽略了技术是以人为本,为人所用的。比如在描述技术的应用时,我们习惯于说我们需要“有用的技术”,但是中文博大精深,“有用的技术”实际上指称的是两个层次的状态,先是“有”,然后是“用”。但有“有”不等同就能“用得起来”,“用得起来”也不能够自动等同于“用得好”。


我们在应用技术帮助我们的合作伙伴和客户时,就是在让大家“拥有”能够“用得起来”的技术,然后通过不断的学习、迭代,最终能够“用得好”已经拥有的技术。这说起来容易,实际做起来是非常困难的。


曾经有一位前辈跟我讲“真正用起来的技术都不是高科技”,就是说当一个技术能够为大众所用时,很神奇的技术就已经平民化了,这种平民化的技术才是对社会真正有冲击性的技术。


我在后面会介绍,能够用起来的技术最终都是消失于无形的技术,百年前在电气时代的早期,人们认为电就是用来点亮灯泡的,当时的人们是无法想象现在每一个家庭、每一个工厂、每一间公司的墙壁里都不为人们所察觉的布满具有上百伏电压的电线,其中流动的电流正在默默无闻而又无时无刻不在驱动着我们的时代。

好,开场白之后让我们进入今天的主题《狗尾巴的故事 — 数智时代的第一性原理》。


通常来说搞 IT 的人做事情都要先有一个约束前提,所以开始分享之前先把时代特征做一个约束。下图这段话源自戏曲《阿卡迪亚》,是我特别喜欢的一句话,无独有偶,这段话也放在了现在很流行的书《主权个人》的封面上。


这句话的基本观点是不要简单地认为现在进入了第四次工业革命、进入了伟大的时代。现在是一个巨变的时代,按照预言了地球村和互联网时代来临的麦克卢汉那个时代的思想家和科学家的说法,信息的电子化开启一个全新的时代,这种全新的程度类似于六百年前古登堡印刷机的流行所引发的一系列社会发展进程,其中包括文艺复兴、宗教改革、启蒙运动、科学革命以及后来的工业革命。信息的力量是巨大的,它既可以是能力,也可以是权力,使用不当,还可以是暴力。


经过电子化之后的信息,或者说经过数字化之后的信息,它的实时传播能力和对物质与精神世界的巨大影响有可能促使整个人类社会进入一个再次复兴与启蒙的时代,其结果有可能远大过工业时代所理解的工业革命。


就像现在人类已经知道宇宙的构成要素包括物质、能量和信息,在农业社会人们关注的更多是物质,到了工业社会人们开始理解到能量的力量以及能量与物质的互相转化,那么再加上信息之后,大概率事件我们不会停留在工业社会。其实过去的几十年已经不断有所谓的后工业时代、后现代的概念,信息开始成为与物质和能量等同的宇宙构成之后,人类社会很有可能即将进入的是一个智能时代。它会很伟大,但是在伟大之前,要去探索,就像几百年前人类进入科学时代。


人类社会的发展始终伴随着人类与机器或者工具共同发展的历程,现在的机器能力解决的不只是人类的四肢力问题,还开始帮助人类解决一些我们并不擅长的重复计算问题,或许可以这么讲,我们即将进入的是一个“数智时代”,是一个机器利用数据来帮助人类的时代。


“数智时代”的含义不像其名词表面那么简单,是有来历的,源自后面会详细介绍的 DIKW 信息论金字塔。在实践中,我们常常过于关注表面如浮云般的名词,这些新概念是新酒装在新瓶中,还是旧酒装在新瓶中,或者是本来是新酒,无所谓瓶子长什么样,这会影响我们对事物发展的判断、投入与回报。


科学讲究的是探索,技术讲究的创新,但真正落到工程实践上,我们却经常被新概念所束缚。比如,利用“概念验证”(POC)来表现出技术的先进性,虽然不容易,但不是最难的;最难的是以最高的效率、成本优势以及可使用性、可重复性、可维护性、可升级性和可持续性的工程方法实现。


在这个思路下,不妨借鉴一下百年前发生的事情。现在经常提的新概念,如物联网、人工智能、区块链、元宇宙等,真的那么新吗?其实大部分概念在二三十年前,前辈们写的论文中就已经定下来了,但为什么现在才流行呢?因为在那个时候工程无法实现。比如现在很火的元宇宙,今年是发明了“元宇宙 Metaverse”和“阿凡达 Avatar”名词的科幻小说《雪崩》出版 30 周年纪念年,在微软 CEO 萨提亚的书《刷新》中就提到 1992 年出版的《雪崩》和《镜像世界》两本科幻小说在当时让好多工程师兴奋不已,很多人就因为看了这两本书之后,坚定不移地加入计算机产业,并为之奋斗终身。努力了近 30 年之后,才开始被大众所谈论。


以电气时代的百年史为例,在百年前有科学家、工程师非常兴奋地说电是伟大的,电网建立后可以做任何事情,但这里任何事情指的是“点亮灯泡”。仔细想想,这跟现在非常相似,很多概念被提出来,但大部分是以技术的形态出现,其应用领域还很狭隘,无论被称作互联网、物联网、区块链、人工智能还是元宇宙,有可能仅仅是百年前那盏“灯泡”。


不是说互联网、人工智能或元宇宙话语体系下的“灯泡”不伟大,只是都没有脱离人类现有思维范式的束缚,还没有将关注点从纯粹的技术术语转向由新技术赋能、跟人类生活息息相关的“衣、食、住、行”,这是技术提升人类福祉的终极目标。


下图这个设备是百年前的电烤面包机,它的插头像一个灯头,因为那时候的科学家、工程师能够畅想电的好处的终极目标就是点亮灯泡。当时对于电力的最大争议是“交流直流之战”。争的就是怎么发电,怎么输电。


随着人类对于电的应用潜力认识越来越丰富,终于发现电不止用于点灯,还可以做很多需要利用能源来完成的事情,比如用电加热电热丝来烤面包,比如用电驱动马达来洗衣服。但是当时的“现代化”家庭至多设计安装了用于照明的灯座,不像现在有随处可用的墙上电插座。人们只好将电烤面包机或者洗衣机的插头设计为灯头形状插在灯座上,结果就是点了灯就不能洗衣,洗衣就不能点灯,明明可以全天候的工作只能在白天做。

那么之后我们的前辈们就想清楚未来的伟大而产生真正的远见吗?后来又有“伟大”的工程师出现,在灯头上设计了插座和开关(如下图),但仍然没有随处可见的墙上插座。我认为这个大概可以比拟成当下类似于 web 3.0、元宇宙概念满天飞的时代,不是不好,而是局限,还没有理解到智能时代等同于“电力”的计算力使用是无时、无刻、无处不在的,是不需要被关注的。


其实真正伟大的技术,如在上世纪九十年代初就提出了“无处不在的计算 Ubiquitous Computing”的施乐公司帕洛阿托研究中心(PARC)的首席技术官马克·维瑟(Mark Weiser)所言,都是看不见的技术,不需要被关注,只需要被使用。

后来有了插座,再后来又开始有了网络,就有了下图的插座。

接着人类正式进入电气化的时代,有了“电”视和“电子”计算机,墙上开始装了有线电视和有线网络插座无线网。但是这种插座仅仅十多年就没有用了,因为大家都用无线网络了。直到现在像一个轮回,在“交流直流之战”百年后,我们回到了交流和 USB 5V 直流共存的时代。

因此,当我们还在大谈技术术语的时候,大概率还没有摸到这个技术所赋能的本质。有什么样的征兆可以让我们知道技术已经为人所用了呢?就跟电力时代一样,当我们不谈怎么发电了,也不谈我的工具是用电来驱动,只谈使用由电驱动的工具来做什么事情,我们就进入了一个真正的由技术赋能的新时代。这时候谈什么呢?人们会在言语中默认具有时代特色的技术是泛在的,也就是无处不在的,是消失于无形的,大家谈的只是人类的“衣、食、住、行”和人类的“工作、生活、学习、娱乐”。


技术一定是拿来用的,是用来提高人类生活的,在机器学习的应用时代,工程师们思考的是拿算法来做什么,帮助人类解决什么问题,而不是想着比赛最先进的算法超越多少人,这时候人类可能就真正进入新时代了。


包括现在的电动汽车,其实最早的时候汽车就是电动的,但是为什么没有普及呢?就是因为工程实现不够高效,成本不够具备优势,不够方便,但是一旦技术发展到一定程度,能够被工程实现,自然就转变了。这其中是技术进步了,还是技术所赋能的生活场景变成可以实现了呢?这是一个问题供大家思考。


历史上已经出现过,大家信誓旦旦地说当时的技术很先进,结果从今天的视角来看并不是这样,刚刚讲的“电灯泡的故事”是供我们所有人思考,不要让未来的人嘲笑我们说“我们的前辈当时看着很牛,但是目光短浅,还特别会发明新名词,没有认真思考与实践先进的技术到底可以为人类带来什么样的福祉”。


上下文


刚才说了软件工程师做事情首先需要明确约束前提,这样才可以被认为有完备的行事逻辑,这种约束前提也叫上下文。但是现实中,又很少人愿意坚持遵循“因人、因时、因地…”制宜的方法,很容易陷入照搬教条的窘境。就好像有人说这个时代流行一种病,每个人都会得。但是在不同的时间和成熟度阶段,并不是每个人都得同样的病,因而也不可能所有人都吃一种药。就算每个人可能最终都会的某种疾病,在不同阶段也有不同症状和需求,原因不同、阶段不同、形式不同、程度不同,不可能用同一个方法解决。


数字化转型也是一样的,有些企业刚开始并不需要做特别高大上的数字化转型,可能只是把公司内部的名词术语统一,把数据清理出来就可以了。但是,很多企业没做这些最基本的工作,一上来就做数据驱动、人工智能,反而会耽误时间。


01

破题

本次分享的标题有背后的故事。首先要破概念,我们真的不能再追概念了,要回到第一性本源,要回到数学,回到算法,甚至回到最早的信号处理,自动化原理。傅里叶变换、PID、LQR 等如果能够用起来,反而能够解决当下的问题,同时能够为未来更好地利用机器学习做准备。


软件工程学者杰拉尔德·温伯格写了一本历久弥新的《系统化思维导论》,其中有一个故事——如果把狗的尾巴称作腿,狗有几条腿?据说这个故事源自于林肯。林肯认为人类天天造新概念有什么意义呢?与其说天天追新概念,还不如先明确哪些是变的哪些是不变的。


据说他有一次也很烦恼,可能也是有人在问他类似于“元宇宙是什么?”、“web3.0 是什么?”、“区块链是什么?”、“NFT 是什么?”之类的问题,他就反问对方:“如果把一条狗的尾巴叫成腿,那么这条狗有几条腿?”,据说当事人小心翼翼又不十分确定地回答说:“五条腿?”,林肯斩钉截铁地回答道:“不!还是四条腿。”不管你把狗尾巴叫做什么,它还是狗尾巴,狗尾巴不会因为你叫它不同的名字而改变它的属性。


这个故事与我们现在的情况很相像。当然这不是新的现象,人类历史上这是一个永恒的争论话题,就像中国历史上有关“离坚白,合同异”之争类似,一百多年前的林肯时期出现过,三、四十年前当电子信息、计算机和通讯技术发展的时候也出现过。


我们的目标是尽量不要被后人说我们还是这种情况,但很不幸现在这是普遍现象。当下的趋势似乎是谁会说更多新概念谁就更厉害,尤其以说别人听不懂的新概念为至上心法。我们要警醒,“不是什么”和“你认为这是什么”或许更重要,更能帮助到我们。


02

能指 <—> 所指

人类发明并使用计算机语言来推动计算机做人类想让计算机做的事情,那么语言的本质是什么呢?中华文明有“仓颉造字”的故事,据说仓颉造字后“天雨栗,鬼神哭”,意思是说粟米像雨一样从天而降,鬼害怕的在夜里哭,形容造字是非常重大的事件。


同样的,在西方,人类发明语言之后出现了巴别塔的故事,语言比我们想象中深刻得多,它永远是第一位的,它也是人类包括机器能够理解的最本源的东西。现在人们对语言不是很讲究,随便拿来就用。


举个例子,我原来做产品经理时,分类学和命名法是必修课。在软件行业,无论是什么调研,对程序员来讲,如何给计算机程序中使用的变量命名永远是排在首位的难点。


这种学问可以一直回溯到林奈分类法的时代,比如 Domain Kingdom Phylum Class Order Family Genus Species,当了解其来历后就会更清晰的理解这些名词之后所代表的逻辑。“Kingdom ”大家可能知道有 Animal Kingdom, 它是“动物王国”的意思吗?不是,理解它来历就知道它是“动物界”的意思,在生物两界系统划分方法中对应的是植物界。


所以“Domain Kingdom Phylum Class Order Family Genus Species”愿意是“域界门纲目科属种”。这些看似无关,但是对于体会由英文翻译过来的计算机术语有莫大的帮助,在计算机领域常用的 Domain 和 Class 的原始初衷就源于此。

微软全球 CTO Kevin Scott 最近采访了《当下的启蒙》的作者史蒂芬·平克,平克出版的新书《理性》中专门强调语言和理性的作用。书中认为人类对于信息,尤其错误信息、片面信息、伪造信息的盲目认同,不加思索地认知,已经造成很大的影响。作为技术人员要扪心自问,我们会不会对于一些新的技术概念也在盲目认知,这会影响人类社会的发展。所以,今天讲的是三段论——想清楚、说明白、做得到,三者缺一不可。其中的逻辑思维、理性思维、实践论、矛盾论缺一不可。


想清楚

首先要知道这个时代的特征,这是个复杂性的时代。21 世纪复杂性科学将会是一个重要的学科,包括系统论、混沌原理、分型、涌现、融合、协同理论等等。这其中我将介绍一下原 IBM 的科学家斯诺登提出的肯尼芬框架(Cynefin Framework),这个框架讲的就是针对简单→繁复→复杂→混沌的不同复杂性程度而建议采取的不同应对方法。


在简单和繁杂状态下,虽然其复杂度略有不同,但起码还是有原来的经验可做依托进行决策;到了复杂的阶段,已经没有陈规可循,需要不断小步尝试,慢慢摸索出新的方法,这种被称为探针(probe)的复杂环境应对方法,恰恰是数字化技术帮助人类应对复杂性挑战的本意。


微软有一个被俗称为“蝴蝶图”的数字化反馈链框架,就是利用数字化技术,无论是用于办公的计算机,还是各种传感器,针对人类社会系统的每一个“人、事、物”单元嵌入数据采集点,在这种情况下,一台计算机或者手机,也可等价为一个传感器。以一个企业为例,通过数字化技术实现的数据“生成-采集-传输-存储-计算-应用”功能可以被内嵌至企业的员工、客户、产品和经营流程的每一个管理节点,由于硅基传感器和电子信息通讯的特征,这种系统可以随时随地不断产生与分析数据,这种计算而得的数据洞察,就可以帮助人类进行高效与技术的决策与行动。

根据各类决策机制对于决策时效性、准确性与安全性的不同要求,就可以设计出不同成本结构的数字化信息系统,强化人类的生存能力。


以管理学为例,现代工业时代的管理学大致经历了以下几个阶段:一百多年前泰勒的科学管理法,是以简单的测量和线性计算管理工人、生产线,到后来彼得·德鲁克提出了针对 Knowledge Worker(知识工作者)的管理范式,上一世纪末,彼得·圣吉的《第五项修炼》和戴夫·斯诺登的肯尼芬框架,开始把复杂系统放在其中进行管理。通过这些方法让我们在不确定时代中,用相对确定的手段,用探索的方式,以可接受的成本和安全性,解决复杂性问题。


复杂性管理的核心理念是复杂适应性系统(Complex Adaptive System)前提下的学习能力。现在机器学习方法正在普及,人类也可以借鉴机器学习的方法。


例如,机器学习为了避免过早陷入本地最优解而错失全局最优解,它在算法参数初始化时尽量利用概率分布,尽量不让它在一开始就有明显特征,目的就是为了尽量避免在优化过程中过早停留在本地最优解,从而以最大可能性找到全局最优解。如果进入复杂性时代,大概率不会一开始就能知道答案在哪个方向,如果不能广泛的试错,很可能很快找到在个人与组织舒适圈内的最优解,这很有可能只是本地最优解,这往往离变革的初心相去甚远。


从一线的实践过程中我总结了一个“三错法”——认错、知错、改错,它与最小可行性产品(Minimum Viable Product,MVP)方法相结合,可作为依托于复杂性时代管理理论之下的的具体工程方法。当你知道复杂社会的特征之后,首先要承认做任何事情都会犯错,错并不稀奇,无论怎样精心计划,在复杂性年代,错误一定会出现,关键是能否尽快改错。


因此,复杂性时代做事的默认评估就是一开始一定出错,也就是一开始就认错,然后尽量放下害怕犯错的负面心理暗示,先在心理上坦然接受自己即将出错的默认状态,迅速将有限精力专注于如何最快知错和高效改错,借鉴肯尼芬框架针对复杂和混沌状态的应对方法,着重行动力,少些空谈空想,也不能完全不带批判思维的照抄照搬,在学中做,做中学,知错-改错不断地循环迭代,这是软件工程的 MVP 方法,也是自动控制工程的 PID 方法,也与肯尼芬框架中试探后再行动的方法不谋而合,而以数字化技术表现出来的信息化能力,恰好是最能够帮助人类实现知错-改错的高效工具,也属于系统论、控制论和信息论的范畴。


要实现想清楚的目标,就需要认真的去想,这看似一句废话,但实际上当我们特别热衷于名词的创新时,就要小心我们是否真的认真想过新旧概念的异同。上个世纪,我国以钱学森先生为代表的科学家们,提出了系统论(老三论)的观点,其中包括系统论、控制论、信息论,不过要澄清一下,钱老当时并不赞成老三论的提法,就是系统论,只不过是更为复杂的复杂巨系统论。


另外香农的信息论只覆盖了信息的通讯理论,他在《通讯的数学理论》论文中明确表示他的理论不包含对于信息含义的研究,这一点很重要,因为对于信息含义的研究需要参考罗素、索维尔、乔姆斯基、麦克卢汉等学者对于信息、语言和符号以及相应的口语、书面和数字化表现方式的研究成果。从信息内容的作用而言,信息是一把非常锋利的双刃剑,既可救人,也可杀人;可以使大家齐心协力努力前行,也可以使群体成为“乌合之众“,有兴趣的读者可以继续深入研究。


现在所有跟计算机相关的理论,都没有跳出所谓广义的“老三论”范畴,包括机器学习的范式,与其说是人工智能,还不如说是又回到了控制论。


人们一直在说 1956 年的达特茅斯会议,殊不知之前的梅西会议上,控制论创始人诺伯特·维纳等科学家早已把人工智能的框架搭建起来,只不过他们不认为这种技术可以被称为人工智能,当时有一种说法,还是 AI,只不过是 Automation Of Intelligence,意思是“智能的自动化”,而不是人工智能,这些技术的演绎史,都值得我们深思。


谈到系统论,自从贝塔朗菲提出一般系统论思想的近百年来,系统论已经从早期的系统整体性、协调性、有序性、目的性、连接性等一般系统观,发展到现在包括涌现、融合、协同、突变、混沌等概念与应用的复杂系统观,也是钱学森先生一直强调的复杂巨系统理论。


其中应对现实生活中复杂变化的重要观点就是要关注短板效应,即不仅要关注技术的先进性,也要关注工程实现的实用性,如果只是片面追求所谓的新技术,而在工程实现上做不到成本、效率、应用、体验、维护、更新、换代的综合考虑,就像水桶容量不由最长板决定,而是由最短板漏水的程度而决定,那么技术再好,没有系统工程的实现也是徒劳。


香农的信息论作用也很大,现在机器学习中损失函数的评估就是香农信息论的具体应用。工程界一直在用的诸如傅里叶变换、拉普拉斯变换、SVM、CNN 也都是很早就有了,只不过现在应用更加广泛。如果把线性代数、微积分等数学知识学好了,就会发现目前机器学习的思想并没有超出这些范畴。


并不是说机器学习不先进,它们在工程实现方面很先进,但是其基础科学理论在几十年前就已经成型,只不过随着计算能力的提高和数据量的增加,现在更容易以工程的方法实现原来实现不了的目标。再比如,钱学森先生的《工程控制论》中将控制论工程化,早在上一世纪五十年代就风靡全球,至今仍然指导着自动控制与优化工程领域的实践。


北大王选教授那一代科学家们早就知道芯片、计算机语言、操作系统三位一体方能有核心竞争实力,而且已经成功地实现了一些在当时就已具有全球先进性的方案,比如北大方正的激光照排系统就是一个很好的例子,在上一世纪八十年代一经推出,就占据了文字数字化处理的全球制高点。关于“数据为王”或者“数据是石油”的概念,微软科学家吉姆·格雷早在 2007 年的论文中就阐述了科学研究第四范式的主张,提出由数据驱动科学发现,但数据驱动也需要人类的智慧。


同时数据虽然是石油,但这种比喻已经给出答案,即石油需要被提炼方可为人类应用;同样的,经过计算而“提炼”的数据才可成为信息以具备可用的价值,对信息的进一步加工可以产生作用更为强大的知识。这些都是现在火爆的技术术语之后的本质核心,如果这些基础不打牢靠,光靠专注于新概念的推出,容易陷入“竹篮打水一场空”的窘境。


当然,我们不必否定以“离坚白”的方式表达技术的进步,但同时也不要忽略“合同异”的方法让我们注重不变的基础,这种“离坚白、合同异”共进的逻辑思辨方式能够帮助我们更完备地“想清楚”。因此,我们在欢呼技术名词不断推陈出新的同时,还是要冷静地区分技术的真正进步与踏实的工程实现之间的异同。


提到信息论,我想再说说 DIKW 模型——数据、信息、知识、智慧。这其中是有分工的,有些需要人来做,有些需要机器来做。这也会牵涉到信息含义的作用,要想深刻理解这一点,大家还需要去了解卡尔波普有关物理世界、精神世界和知识与信息世界的“三个世界”理论,以及信息最终产生作用的语法、语义和语用的异同,这里先不做展开。


现在经常在朋友圈中看到有人说自己的企业说已经完成信息化,要开始做数字化了。其实名词上的信息化和数字化只是一种“能指”,真的就是数字化比信息化更先进吗?还是更基础?仔细想想,过去几十年做的信息化应该还远未实现信息化的初衷,以我们的实践体会,大部分企业实现的是办公无纸化和工厂里面的生产自动化,信息的力量远未挖掘殆尽。我们现在强调数字化,非常及时,但数字的作用并不一定比信息化更先进,而是更基础,我们做的工作更像是在补信息化未完成的数据基础设施的功课,通过深入的数字化工作把每一个组织的数据基础打得更加扎实,之后做什么呢?还是信息化。


对于企业而言,由于很多公司、工厂连最基本的身份管理和企业数据字典都没有统一,也就是企业级的“书同文,车同轨”还没有实现,何谈信息化呢?一个公司、一个行业,如果没有实现信息化领域的“书同文、车同轨、行同伦”,是极其危险的,看似只是身份与数据没有打通,但这就是分裂和混乱的征兆。数字化时代是用信息驱动一切的时代,如果字典不统一,就像巴别塔的隐喻,整个机构就没有统一,也无法让整个团队在一个共识的基础上协调一致、共同有序前行,做不到这一点,企业效率和竞争力就得不到保障。


但是大家又不要误解这会产生僵化的组织,恰恰相反,这是有秩序地灵活,是依靠数字化信息能力形成的统一中央系统,并以此为前提,建立起韧性、灵活的分布式边缘机动能力。比如由微软全球首席财务官 Amy Hood 在微软的《现代化财务》报告中总结的微软转型经验,其中一条管理宗旨是“纪律的核心,灵活的边缘”(Discipline at core, flexible at edge),纪律与灵活,在数字化信息技术的赋能下,不是矛盾,而是统一。


而要做到这一点,恰恰是基于微软过去几十年认认真真、脚踏实地的企业信息化基础建设,其最基本步骤就是通过“动态目录”(Active Directory, AD)实现的企业级统一身份管理,进步到当下“无处不在的计算”或者称其为云的时代,本地部署的“动态目录”也同时进化为“云动态目录”(Azure Active Directory, AAD)。


动态目录类型的产品极不起眼,就像”真正有效的技术都是低科技“说法一样,其实看似低科技的技术有可能是最高科技的技术,因为它是地基,不为非专业人士所关注,但却决定了整幢企业大厦的高度,是企业“书同文”的基础技术保障。这种信息化的基础工作才是数字化的目标。


介绍到这里大家可能就更容易理解为什么说我们现在做的数字化不比原来做的信息化更先进,我们还是在弥补过去信息化时没有做好的短板,即数字化的基础,也就是统一的数字化基础设施,最基本的表现就是一个企业是否有统一的身份管理和统一的企业术语字典。


很多企业过去几十年的信息化进程中,由于过于重视上层功能的建设,往往忽略了耗时、耗精力又看不到即时产出的数字化基础,做了若干年的信息化,结果连最基本的身份与名词统一都没有做到。


那么后续的应用开发、部署、管理与升级看似热闹风光,但是碎片化的。企业在投入了大量金钱、人力与时间后,还是无法享受到信息化带来的真正好处。


当然,这也是我们为什么现在要坚定不移地努力实现真正的数字化,不是因为它多先进,而是因为它太基础,基础到没有它就无法实现信息化。真正进入信息时代后,机器能够帮助人类处理数据,计算信息,再进一步产生知识,人就能够升格到用智慧做人应该做的事情,一方面可以是注重与精神领域的享受,或者更加高端、更加复杂的分析和判断。

再往下讨论“说明白“之前我们需要再次强调说明白的前提是想清楚,这个时代是每个人、每个公司都进入无人区的时代,如果大家没有产生共识,很难合作共同实现目标。首先需要达成的人类共识是技术“以人为本”,而不是唯技术论。


1991 年 9 月,马克·维瑟(Mark Weiser)在《科学美国》上发表的论文 “The computer of the 21st Century”,提出了“无处不在的计算”,认为人类社会未来的发展目标就是要让具有计算能力的设备无处不在而又消失于无形,“伟大的技术都是看不见的技术”,就像百年前的人类无法想象承载上百伏电压的导线会被埋在每一个建筑的墙壁内,随时随地的为人类的工作与生活提供能源而不为人所关注。


在此前提下,微软或者任何一家科技公司,现在做的被称之为云计算、边缘计算、末梢计算的技术与服务,其愿景并不在于修饰名词的形容词,就是计算本身,只不过是不为人类所关注而无时无刻不在使用的计算能力。


也就是说,“以人为本的技术”,会由云计算、边缘计算等各种计算所承载,最终实现“无处不在的计算”和”无处不在的智能“,最终为人类福祉带来利益。


微软首席执行官萨提亚·纳德拉(Satya Nadella)对微软 Azure 云计算的定义不只是云计算。在萨提亚初任微软首席技术官时发出的一份公司邮件就指出微软要打造的是一个 Cloud OS,即云操作系统,在 2008 年之后他又进一步明确微软 Azure 云计算平台的愿景是“世界的计算机”。


操作系统的核心就是管理计算、存储和网络资源与提供人机交互能力,再结合 Mark Weiser 的前瞻远景,大家没有必要过于纠结云计算与边缘计算或者集中式计算与分布式计算有哪些区别,要抓住计算的本质,操作系统只要还是在冯诺·伊曼的框架下,管理的就是计算、存储、网络,而微软搭建的 Azure 云计算平台,无论多么复杂,最终可以抽象为一台计算机,为人类提供“无处不在的计算“,实现”无处不在的智能“,所以我们把它称为“世界的计算机”。


微软首席执行官萨提亚·纳德拉(Satya Nadella)对微软 Azure 云计算的定义不只是云计算。在萨提亚初任微软首席技术官时发出的一份公司邮件就指出微软要打造的是一个 Cloud OS,即云操作系统,在 2008 年之后他又进一步明确微软 Azure 云计算平台的愿景是“世界的计算机”。


操作系统的核心就是管理计算、存储和网络资源与提供人机交互能力,再结合 Mark Weiser 的前瞻远景,大家没有必要过于纠结云计算与边缘计算或者集中式计算与分布式计算有哪些区别,要抓住计算的本质,操作系统只要还是在冯诺·伊曼的框架下,管理的就是计算、存储、网络,而微软搭建的 Azure 云计算平台,无论多么复杂,最终可以抽象为一台计算机,为人类提供“无处不在的计算“,实现”无处不在的智能“,所以我们把它称为“世界的计算机”。

因此,讨论再多边缘计算、云计算、末梢计算,集中式、分布式,要明白这些只是一个表达“所指“的”能指“符号。没有任何概念是绝对的,连这句话本身也不是绝对的,上述这些名词的内涵,会在不同前提条件下互相转换,过去被称为云计算的能力,现在可能在边缘即可实现,而现在的边缘计算能力,有可能在几年后会遍布每一个人类所能及以至于不能及的末梢节点;


同样的,集中式与分布式不是绝对对立的关系,而是矛盾统一的关系,不存在一个没有前提约束的断言,集中式与分布式架构会在不同的应用场景与技术成熟度的限定下体现出各自的优势与劣势,单独讨论这些名词概念不是没有意义,就像被争论了几千年的”离坚白,合同异“一样,都无法完备,尤其在着这巨变的时代,还不如先坦承每一个人都是在”盲人摸象“,然后大家一起通过实证来验证各自的观点,一起摸索出时代的真相。


在“无处不在的计算”、“无处不在的智能”的前提下产生了实时数字化反馈链,通过反馈的方法实现系统的目标是控制论的核心理论。有反馈就有纠偏,负反馈能够是系统的输出不断修正而接近目标,正反馈则使系统的偏差不断放大而达致系统极限。数字化能力的控制论表现就是利用机器实现无处不在的精准感知、计算与反馈,让负反馈无处不在,或者说在必要的“人-事-物“节点上嵌入数字化能力,就形成了一个依靠机器优点来强化人类的新型”人-机关系“的社会,在我看来,这是数字化技术最能够产生效果的地方。


当然,但凡兴一利必有一弊,我们既不能因为“弊“而不去兴利,但也不可因为明显的利益而忽视弊端的影响。对于数字化技术而言,最核心的就是信息系统的安全性与信息传播的可靠性与真实性,由于时间关系我们在这里先不展开,留待以后专题讨论。


但是当今全球动荡的局势,尽管有各种各样的原因,我们也已经清楚看到因信息系统的安全性对企业以至于国家造成的冲击,以及因错误、误导或者虚假信息对社会共识与稳定产生的巨大负面作用,希望大家将信息的理性应用予以最大的重视。


下图是以微软为例搭建的云智能框架,该框架从底层最基本的身份管理、合规、安全等到云计算、到开发,再到生产效率提高、到行业应用等。虽然以微软的框架举例,但这是一个通用性框架,把这个框架学透了,再结合自身的情况,可以变化出各种适应不同需求的变种。


我认为所有框架都只是概念,没有本质区别,关键不在于框架做得多漂亮,而在于如何根据实际情况机动灵活地实施与在实施过程中的实时学习与纠偏能力。实施过程中需要很多工程窍门,而这些不是靠框架能解决的,需要韧性能力的构建。

说了这么多,我认为在“云-物-大-智”的基础上,一切都将是服务。比尔·盖茨在 2005 年写过一个备忘录中提到“未来的一切都是服务”,因此就没必要说哪些是服务,也没必要去背什么叫 Iaas、PaaS、SaaS,就是 Everything as Service,XAAS。系统工程中的 IPO,即 Input-Process-Output,再加上 Feedback Loop,以及 Software defined everything, SDX,支撑起了物理世界和虚拟世界人、事、物的统一,这就是人类要实现的未来愿景。


说明白


“说”是有技巧的,当把上面提到的内容都考虑清楚后,“说”起来就有逻辑、有方法了。所有的结论都是以前提为约束的,因此做技术方案前一定要加约束,但是现在很多对于技术方案的吹捧都不加约束,看似百搭,其实哪里都不搭,就像以为大家都得了同一种病,用一种药就够了,这是不可能的。就像卡尔·波普尔对于科学“可证伪性“的解释一样,永远不会错的技术路线大概也就是难以实现的技术路线。


图尔敏论证模型很好地实践了每一个理性完备的论证都由前提条件“约束”,该模型认为结论需要靠逻辑推理和事实约束实现完备。这个模型的好处是,一方面给你一个空间继续加支撑体系,同时更精准地约束,更重要的是每一个论证想真正完备,需要有额外出口,也就是要有例外。用这种方式论证任何判断、逻辑都会比较完备,而且技术人群在推出某些观点、建议时,用这个模型会考虑更加全面,不会丢三落四。

说清楚是一个发展极其完备的学问,从亚里士多德的《修辞学》,到图尔敏的论证模型,还有门罗序列说服法,以及基于通讯原理的高效传播方法,再加上由麦克卢汉一代前贤开创的媒介环境学,建议大家可以参考何道宽教授翻译推介的有关“媒介环境学“的理论与实践,相信会对如何高效的传播有更加深刻的洞察与体会。


做得到


每个人都不可能将所有知识都学完,因此很多人做事情采用第一性原理,不是一味地向上追新概念,而是向下学习数学、物理、化学等基础知识。现在流行的人工智能、机器学习,离不开微积分和线性代数;AI 芯片优化,最终都是优化 MAC,也就是 乘法、加法的并行与序列相结合的异构计算。


几个星期前,微软的以为技术大咖 Raymond Chen 在他的博客上写到如何做加法和除法,(a + b) /2,在业内引发热烈讨论。为什么这个时候还在说加法和除法,因为做算法优化到极致时,不同方式的加法和除法会影响到计算的速度、效率和成本,人类能够看到的绝大多数数学计算都是经过抽象后的理想数学符号,但到了最本源的晶体管层面,具有众多优劣各异的实现方式,更不用说现在正在尝试的量子计算。


如同埃隆·马斯克在采访中多次强调的工程实现的第一性原理,他屡次强调实现一个概念验证不是最难的,难的是大规模工程实现。好走的路都已经走完,如果不能回到原子和比特级别实现创新,也就是在第一性原理层面的创新,只是站在别人的肩膀之上,片面强调不要重新造轮子,在这个高度竞争时代,很难把握住自己的技术命运。


数字化改革是一个复杂的巨系统工程,需要从思想、流程、文化、组织、评估标准等一体化、系统化的范式改变,其中包括硬核能力和软核能力。

硬核能力:包括科学、技术、工程和数学。其中科学讲究的是突破,技术讲究的是创新,但是非常重要且丝毫不可忽视的是工程实现能力,如系统工程,软件工程,在应用上远比追求技术的先进性更为根本。


比如,美国毅力号火星车的芯片是二十前的 PowerPc 技术,NASA 不会没有或者用不起最先进的芯片技术,但是 NASA 所考虑的是可靠的实现。在外太空,比人们认为的快速计算更重要的是芯片是否可以抵御宇宙粒子的干扰,在各方面,恰好有二十年历史的 PowerPC 芯片可以更好地满足要求,这就是工程实现,不求单纯的技术最先进,而是全面的系统观,首要关注的是影响系统输出的短板,然后再综合考虑长短板的结合。系统工程不仅考虑系统目标的实现,还要全面平衡成本、效益、使用、维护、升级、换代等各个利益诉求点的需求。


软核能力:包括人文能力、管理能力、经济能力、博弈能力、运筹能力。


早期,机器学习跟运筹学是同门兄弟,但为什么现在提到运筹学好像不是很牛,提到人工智能就很牛,如果把人工智能说成机器学习又不牛了呢,到底“能指“跟”所指“的关系是什么呢?明白这个道理可以少走一些弯路,但是不能减少努力的投入,学习、探索、实操一个都不能少。

最后举几个例子,这些例子并不是多么完备、正确,只不过能够促进大家思考、探索,来反省我们对技术和业务的评估是否像我们想象中的样子。


首先我想强调的是技术是拿来用的,不是拿来吹嘘的,更不是拿来炒的。比如,数字时代的“云原生”真的是“云原生”吗?或者说“云原生”这个词有那么重要吗?还是其本质是无处不在的计算?这时候就可以深究“计算“到底给人类带来的什么样的助力,如果真的说“云”很重要,那么原来的马、蒸汽等能力在当时对人类社会的助力不会比云小,那是不是应该叫“马原生”、“蒸汽原生”呢?我想强调的是云原生的确很重要,但其本质是解决无处不在的计算问题,它叫什么没有那么重要。


本质决定概念,而不是概念决定本质。以下通过“数据孤岛”和“中台建设”两个常见例子来解释一下这个道理。需要注意的是,名词本身是没有对错的,它的所指也没有绝对的对错,一般需要在特定的前提下进行判断,这是讨论这个话题的本意。


也就是说,在没有明确前提约束的情况下,我们无法判断概念的可行性,或者说适用性,更无从谈及对错。我们需要做的是认真思考无论是哪个概念,它在什么前提下是可行的,在什么前提下是不可行的;以及当什么前提在什么条件下发生变化之后,原来不可行的概念又变成可行的,或者原来可行的概念变成了不可行的。


01

数据孤岛

我们经常说数据孤岛,但是数据孤岛是技术问题吗?精确地讲,有技术含量在其中,但是以我们的观察与实践,发现其实大部分公司的数据孤岛是由于部门之间的矛盾和部门墙导致的。信息是一种权利、一种力量,统一数据看似是打通数据,但实际是打通部门墙,是在夺取某些既得利益者手上的权力,怎么会那么容易呢?如果没有一个勇于决断的人物,“书同文,车同轨”统一起来,那么公司想要做到数据的统一没那么容易。当然如果有这样的人物,你会发现技术本身没那么难,对于组织结构的重视就是“康威定律”所要表达的重点。

02

中台建设

中台本身是当时提出这个概念的公司最需要解决的问题,也是当时发展阶段能够解决的问题。在这个前提条件下,中台的概念顺应了时代和个别公司发展的需求,也因此完成了它的历史使命。但同样的方法是否适用于所有公司是值得商榷的事情。大家都知道平台的概念,所谓中台,也是技术平台中的一部分,是一间公司在某一个发展阶段根据实际需求需要强化的那一部分技术,我们姑且称这一部分叫做中台。在大概率情况下,每间公司同时也需要强化包括通常被称之为后台的数据库体系,或者称之为前台的应用体系。其实从企业 IT 架构的角度而言,前台、中台、后台都是平台建设在不同发展阶段的不同体现。


根据每间公司数字化成熟度的不同,以及业务的不同发展阶段和组织的结构特征、人员的水准和财务的状况,同时也包括市场与用户的发展阶段,公司会有不同的重点和不同的痛点。也就是说,所谓中台,应该类似于传统文化中有关的“活子时“的说法,它不是一个死板、固定的概念,是一个随着各个公司在不同发展阶段的权宜之计。


在这个前提下,中台本来就可以建,也可以拆,很多公司由于发展阶段不同,可能最重要的是解决后台数据库结构的问题,也可能刚刚到了要开发前端应用的阶段。只有在前台与后台都发展到无法再进一步优化,以及由于公司的组织复杂度造成无法轻易统一规划前台与后台时,通常会采用所谓中台的方法,对组织、业务与技术进行一个复杂度的约束和管理。但就像人们经常说的“分久必合,合久必分”,当把一套体系通过约束的方式管得井井有条之后,有时候也会丧失掉应对外部复杂世界挑战的灵活性和机动性;有时在完善中台技术同时,发现后台的数据库结构跟不上公司发展的需求,或者前端的应用落后了,那么一个具备有韧性发展能力的公司,一定不会像刻舟求剑一般死守着一个概念不放,更不会死守着一个名词不放,而是根据自身的特点、自身的需求和自身的局限性,选择最需要优化的领域。


理解了这个概念之后,就会发现中台的“中“有可能是个伪命题,不是不对,而是由于过于具象,不仅不能反映业务与技术发展痛点的全貌,还会束缚住公司的发展。其实,对每个公司而言,本来就是个平台,本来就是基于不同时间、地点、人物和场景的不同业务发展需求,我们本就可以放下名词和概念的包袱,一切方案以问题为导向,以业务目标为导向,让技术成为公司业务的赋能者,而不是约束者。公司的问题是随时变化的,把它收束为“中”没有意义。


它就是平台的不断迭代、优化、再造,是流程再造、系统再造,何必要约束住是“中”呢?过去几年,我们花了多少精力去学习、理解什么叫“中”。把它当作是平台,知道它要解决的问题就可以了,很多 CIO、CTO 看穿了这个问题就天高任鸟飞,海阔凭鱼跃了。

《雪崩》的作者斯蒂芬森在接受采访时曾说“AI 一旦成熟之后就变成软件了”。AI 就是一个函数,所谓的“黑盒子”就是封装好的函数,放进变量,出来结果,我们可以把它称之为函数,也可以把它称之为算法,甚至还可以把它称之为服务,其在抽象层面没有什么不同,都是一个输入、计算和输出。悟出这些道理之后,就知道没必要慌张,路就在那,用成长性思维去探索,不断用新的观察纠正、优化我们的理解,去年没有成功的事情并不意味着今年用同样的方法也不能成功,也许去年时机还不成熟;同样去年做对了某件事,今年未必一直成功,因为今年的成熟度和业界情况不同了。


用成长性思维,用技术赋能数字化反馈链形成的能力,可以真正实现具有强大韧性和应变复杂社会的技术能力。归根结底,既要有逻辑性地想清楚、又要有逻辑性的说明白,但更要的是脚踏实地,不怕犯错地用前面介绍的“三错法”一步一步实施到位。


这是一个伟大的时代,所有原来认为对的事情都有可能是错的,需要重新审视、重新实践,把对的部分留下来,把错的部分丢掉,在此基础上不断前行。


人类可能进入的不是一个人工智能的世界,不是一个第四次工业革命的世界,也不是一个互联网的世界,而是一个被技术所赋能的未知新世界。在这个世界,人类最基本的“衣、食、住、行”将被机器的行动力和计算力强化,人类的生活更加方便、富足,当然永远不要忘记”知其雄,守其雌“的辩证方法。这是很多实践者对未来的畅想,今天借机分享给出来,希望大家在这些借鉴中,通过实践找到自己的路。


预祝我们共同努力,共同探索,共同成功!


谢谢大家!


2022-04-29 11:162427

评论

发布
暂无评论
发现更多内容

数据库的那些事

数据社

数据库 大数据

什么是死锁?如何解决死锁?

古月木易

死锁

Django如何编写自定义manage.py 命令

BigYoung

Python django manage.py

报警不响,黄金万两的“稳定性成熟度”干货

滴滴普惠出行

聊聊数据库

数据社

数据库 大数据

只加两行代码,为什么用了整整两天时间?

程序员生活志

编程 bug

35岁腾讯员工被裁员感叹:北京一套房,存款700多万,失业好焦虑

程序员生活志

程序员

一周信创舆情观察(8.3~8.9)

统小信uos

架构师训练营 week10 summary

Nick

第十周作业

方堃

架构师训练营第十周作业

一剑

数据中台建设方法论

数据社

大数据 数据中台

凉了!张三同学没答好「进程间通信」,被面试官挂了....

小林coding

操作系统 计算机基础 进程

week10 学习总结

任小龙

Flink 支持的重启策略有哪些

奈学教育

flink

微服务和DDD总结

周冬辉

微服务 DDD

Jira 和 Confluence 企业最佳部署方式

Atlassian

项目管理 敏捷开发 Atlassian Jira

华章科技好书5折优惠,满99再减10元

华章IT

Python AI 数字化转型 Java 25 周年 计算机科学丛书

什么是死锁?如何解决死锁?

奈学教育

一文了解greenplum

数据社

数据库 greenplum MPP

架构师训练营 week10 homework

Nick

微服务架构的思考

Season

Kubernetes 网络通讯模型解析

ninetyhe

微服务

石刻掌纹

Flink 支持的重启策略有哪些

古月木易

flink

央行清算总中心与三家银行签署区块链福费廷交易平台合作协议

CECBC

区块链技术 人民银行

django-admin和manage.py用法

BigYoung

Python django django-admin manage.py

CDH部署指南

数据社

大数据 CDH

关于微服务架构的思考和认知

任小龙

解决 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED

邵俊达

Linux SSH

anyRTC 4.0 以心铸造,以梦相承

anyRTC开发者

anyRTC 4.0 官网升级

微软韦青:狗尾巴的故事—数智时代的第一性原理_文化 & 方法_极客时间企业版_InfoQ精选文章