“前方 100 米请直行……”毫无疑问,在大数据时代,地图导航的出现方便了人们的出行生活,可以引导人们去任何想去的地方。回想 20 年前,想从北京 CBD 前往海淀中关村,对很多人来说还需要凭借个人的经验才能轻车熟路。这些碎片化的经验存在于不同开车人的脑中,很难被复制和使用。而地图导航的出现,表面上带来的是出行方式的改变,背后其实是一个数字化知识体系的构建。
企业数字化转型的进程中,面临着远比出行场景更加复杂的问题。在大数据时代下,社会正在发生着前所未有的变革,企业的产品、工作流程、商业模式、组织架构都在被打碎、被重构。伴随这一变革的是各类资源的重新组合与试错,企业在这个资源重新匹配的过程中面临着前所未有的困惑与挑战。比如,如何寻找企业成长的“第二曲线”?如何构建和利用数据资产打破效率、效果、效能三者之间的“不可能三角”?
为了解决以上的问题,企业需要对市场各类技术、产业、资本、人才资源做精准的识别、有效地评估以及高效的匹配分析,并用各类相关数据做辅助决策。简单讲,企业要有一张能够描述各类市场资源的“地图”,对碎片化的产业知识做整合、对各类资源的匹配做系统化的“路由”分析。
这里所说的产业资源“地图”,并不是地理意义上的地图,而是产业资源之间相互关联、相互合作的“高维度”空间地图。
那么,这个“高维度”的地图是什么?面对这样“高维度”的地图,用户如何才能理解、调用、形成自己的洞察并辅助决策?带着这些问题,InfoQ 日前采访了中数智源创始人滕放,和他探讨了产业图谱的来龙去脉。
产业图谱是实现产业资源高效匹配的“数据基础设施”
“ ‘产业图谱’这个概念最早是我们 2015 年在做产业链分析时创造出来的,最初提出这个概念是为了描述构建‘产业节点之间基于潜在合作关系所形成的复杂网络’的。后来,市场上使用的人越来越多,大家逐步把它理解为——由一些产业节点名称以及其相对应的代表性企业的图谱化展示。”滕放在解释什么是产业图谱时说道。
他表示,中数智源如今挖掘出的产业节点颗粒度已经足够细致,量级上达到了 2800 万,所构成的复杂网络的边数也达到了几十亿条。
为什么要把产业节点颗粒度做得这么细致?滕放认为,主要是出于两个原因:“第一,我们希望构建一个产业分析的‘元系统’,尽可能地把人能够理解的技术概念、产业概念都包括进来,这样才能满足用户对产业、对世界“千人千面”的分析视角;第二,随着科技的发展,越来越多的新技术、新能力融入到商业模式中,从而创造出新的产业机会。我们需要对这些新的概念,新的技术形成有效的识别能力。”
事物的发展并不是一蹴而就的,产业图谱的创建也不是突发奇想的。滕放告诉 InfoQ:“我们能够走到这个方向,还要感谢北京三板,也就是现在的北交所。在 2015 年和当时的‘三板’接触时,对方就提出过需要一个针对新经济的企业分类体系。因为企业的估值、评估在很大程度上和分类有关,而原有的分类体系并不能很好地体现科技型企业所处赛道的差异性。所以,在深度挖掘这个需求的过程中,让我萌发了要构建产业分析‘元系统’的想法。”
如今回头再看,产业图谱的推出既是一个偶然,也是一个时代的必然产物。当大家都在被这个时代的不确定性所困扰时,滕放一直在寻找这个时代确定性的问题,并把它作为商业的切入点。
“在经济转型和数字化发展的大背景下,我们看到所有的资源都在进行重新组合,以求得价值的最大化释放。而数据作为新的生产要素,它的加入使得这些组合逻辑变得更加复杂。资源组合的成本,并没有因为数据时代的来临而降低,这是制约我们所有企业发展的共性问题。”滕放表示。
“一方面,资源的组合存在着试错的成分,很多新技术、新模式并没有前车之鉴,所有的市场参与者都是在实践中学习成长的,试错成本不可避免。另一方面,资源的分布也和之前大有不同。原来大型企业更容易产生突破与创新,而如今新的技术、新的模式往往存在于百万级的科创企业中。因此,市场上的每次资源匹配都伴随着巨大的搜索、沟通、分析,以及交易成本。”滕放解释道。
用他的话说,产业图谱就像是一张描绘产业资源分布的“地图”,产业节点对应的是地图上的每个 POI、每个楼宇、每个饭馆、每个公园等等,不仅如此,POI 之间的“距离”也是需要度量的。
滕放说到:“在‘地图’上,我们为每家企业、每个专利、每个投资机构都做了向量化处理和映射。这样就可以系统化地解决快速查询,以及任何两个产业节点、两个企业之间合作匹配的问题。”
围绕“概念”和“关系”,构建共性知识底座
针对产业图谱的构建,市场上也有着不同的理解和路径。其中一种做法是基于市场上已经有的研究报告来挖掘。滕放最早也尝试过这条路径,但是很快就否定了这种做法。
滕放以新能源汽车举例道:“当我们每个人看待一个产业时,往往受限于个人的主观认知。比如:当我们谈论新能源汽车时,会有‘电动车’和‘燃料电池汽车’的区别。由于每个人的知识结构不同,对于相同的概念所理解的深度和广度也会不同。虽然市场上各家机构的研究报告有一定的权威性,但是他们对概念的定义不一定符合每个人的需求和统计口径。研究的目的不在于‘求同’,而是找到属于自己的个性化洞察。因此如何有效地区分‘事实’与‘观点’是我们做产业图谱时首先要考虑的问题。”
“产业图谱的价值是为用户提供了一种最大化地满足个性化产业透视需求,并组织相关的数据,形成个性化洞察的能力。这种能力本身是产业分析所需要的共性知识底座。”滕放说道。
当然,最关键的问题还是:如何确才能构建这种“共性知识底座”?
“我们当时读了很多哲学相关的数据,就是要思考知识到底是什么?后来,受罗素的原子论的启发,我们创造了‘产业原子’这样的概念。我们认为,一个知识体系本质上只包含两部分——概念和关系。所有的知识都是基于概念和关系构建的。我们正是按照这个思路,逐步构建了反映产业之间关系的‘共性知识底座’。”滕放解释道。
所谓产业原子,在滕放看来,它是一个概念,是一个技术节点,或者是一种商业模式,它来源于很多背景语料知识,如专利文献、企业描述、产品描述、商标、软件著作权等信息。
“我们将一个产业词所涉及的所有信息都抽离出来,通过词法/语法分析模型、实体识别模型,深度挖掘等方法形成人们可以理解的概念,这就是‘产业原子’,然后通过计算任何两个概念之间能够合作的可能性,以此形成的网络,这就是‘产业图谱’。”滕放说道。
让产业图谱的价值最大化,要理解“人机共生”
值得注意的是,在产业图谱的构建和使用过程中,企业还需要更深刻地去理解什么是“人机共生”。
产业图谱的目的不是取代“人”,而是辅助用户做决策。形象地讲,就是要给人提供一个数据+智能的“导航器”。市场在理解这个定位时,往往会落入一种是简单的“二元论”思维,把人的智能和机器智能对立起来。在商业智能领域的实践中,他们彼此更多是相互支撑,相互成就的关系。
在产业分析领域有三个核心的问题,其中两个问题的答案是机器智能远远强于人的智能,另一个问题则是机器智能不如人的智能。具体来看,在对各类产业、技术、资本资源的识别以及匹配方面,机器智能有明显的优势;而在评估资源好坏性质方面,人则更能有效地做综合的评估。机器智能可以把评估所需要的数据做好整理,等待“人”做最终的判断。
“我们在知识的最低层面进行勾画,这种勾画带来的是‘高维度’的数据,我们会把每个企业、每个专利、甚至是它们所涉及到的概念之间的关系都放在一个‘高维度’的空间里做映射,这种数据放在机器里,机器很容易理解,但是人脑不行。”滕放强调。
因此,为了有效地实现“人机共生”,滕放在产业设计中进行了大量的数据降维和个性化处理。对此,他总结了三个经验:
第一,高效的可视化展示。用数据和图例来表示知识,让用户对数据内容能够做到一目了然;
第二,给用户提供个性化的知识探索路径。每个用户探索知识的入口和深度都不一样,好的产品需要给用户足够的个性化选择能力;
第三,把高维度的数据降维。需要针对使用场景给高维度数据做降维处理。不管是用可视化做降维,还是把中间分析结果提炼出来做降维,用户需要一个利用低维度数据重新构建个性化知识的过程。
总之,“人机共生”是人工智能未来的一个重要的发展方向。我们既要能把智能装到机器里,又要能够把智能装到人脑中。在滕放看来,产业图谱是目前解决产业资源匹配效率问题的一个起点,而未来,在这张“地图”的基础上,一定会产生更多更好的智能应用产品。
嘉宾介绍
滕放, 中数智源(北京)科技有限公司创始人兼 CEO;北京因果树网络科技有限公司创始合伙人;长期价值创造者,连续创业者,拥有中美科技公司创业及成功退出经验;产业图谱/产业大脑/金融科技领域引领者;作为大数据和知识图谱专家参与 2019 年国家自然科学基金项目“基于产业图谱的区域产业关联效应趋势预测研究”;作为大数据和知识图谱专家参与 2019 年国家自然科学基金项目“我国产业链战略安全研究”; 北京欧美同学会理事;中信改革发展基金会金融实验室专家;2016 年“全球创新青年导师”;2017 年 “中关村十大年度人物“;MBA + CFA + xGoogler。
评论