报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

DeepSeek 冷思考: 从技术迷恋转向技术的实用化

谢孟军

  • 2025-02-28
    北京
  • 本文字数:7188 字

    阅读完需:约 24 分钟

DeepSeek 冷思考: 从技术迷恋转向技术的实用化

本文整理自 InfoQ 策划的 DeepSeek 系列直播第八期节目。在直播中,极客邦科技创始人 &CEO 霍太稳对话积梦智能 CEO&TGO 鲲鹏会荣誉会长谢孟军,主要探讨了两个方面的问题:第一,DeepSeek 爆火背后,作为创业公司如何更好地打造差异化竞争优势;第二,作为普通人如何借 AI 之力成为“超级个体”。


谢孟军强调,在全民 AI 的时代,技术人尤其要避免陷入“技术自嗨”的陷阱,无论是个人还是企业,都需要从技术迷恋转向技术的实用化,从产品思维转向用户价值思维。技术本身并不重要,重要的是技术与场景的结合。  


下文为直播部分内容精选,完整直播回放可点击链接查看:https://www.infoq.cn/video/f7lcXthfXX0mNhyfAEaI


以下为谢孟军的分享实录部分(经编辑):

DeepSeek 现象级突破的技术解码


DeepSeek 无疑是一个具有“国运级”意义的现象级产品。它的技术突破主要体现在三个方面:低成本训练范式革新、国产算力适配突破和场景化模型蒸馏技术


首先, DeepSeek 采用了极简架构,能够以 3% 到 5% 的行业成本实现模型训练,大幅降低了资源占用。这种低成本训练模式加上开源的方式,极大地降低了模型开发门槛,让众多企业和研究机构能够参与其中。


其次,国产算力适配突破是 DeepSeek 带来的另一个重要影响。此前,国产芯片一直在努力适配国外框架,而 DeepSeek 的出现让国产芯片找到了用武之地。特别是华为的昇腾芯片,与 DeepSeek 的适配性非常好,推动了国内 GPU 厂商的发展。昇腾 910B 等产品与 DeepSeek 深度合作,实现了从硬件到技术链路的全面国产化,加速了国产化进程。如今,许多企业都在咨询如何私有化部署 DeepSeek 模型,这也为国产算力的发展提供了新的机遇。


最后, DeepSeek 不仅推出了 671B 的满血版模型,还通过蒸馏技术开发了多种轻量级版本,32B、18B 和 7B 等。这种从满血版到轻量版的跨越,为企业提供了灵活选择的空间,能够根据不同场景的需求进行适配。例如,企业可以根据自身业务蒸馏出投资版、制造业版、化工行业版或汽车零部件版等专属模型。同时,DeepSeek 在动态部署方面也具有优势,能够在复杂决策场景中使用满血版模型,在高并发交互场景中使用轻量级模型,实现混合式部署。

DeepSeek 爆火背后的“冷思考”


在 DeepSeek 爆火的当下,每个人似乎都在谈论它,仿佛不参与讨论就显得自己与 IT 圈脱节。朋友圈里每天都在刷屏,某某产品接入了 DeepSeek,仿佛不接入 DeepSeek 的产品都成了“垃圾产品”。而最引人注目的还是股票市场——DeepSeek 概念股的兴起确实带动了整个经济氛围的活跃。与此同时,我也发现,最近很多人在交流中对经济的信心似乎又回来了,这不得不说是一个非常积极的现象。


在 全民 AI 的时代,DeepSeek 如此火爆的背后,我们也需要进行一些“冷思考”。真正的问题是:DeepSeek 到底能用来做什么? 作为技术人,我们尤其需要避免陷入“技术自嗨”的陷阱。如今,很多人都在分享 DeepSeek 背后的技术实现逻辑,但 关键在于我们如何将它真正应用到实际场景中


在短视频平台上,大家都在宣传如何部署 DeepSeek,搭建个人 AI 知识库。但当你在自己的电脑上搭建起这样一个知识库后,你会发现它的能力其实非常有限。因为电脑本身的性能有限,你最多只能运行 7B 或 8B 的模型,而这些小模型的能力是远远不够的。搭建一个简单的 AI 知识库并不难,但当你的文件数量超过两三千份时,多路召回的效果会变得极差。在文件数量较少时,知识库的效果可能还不错,但要让它真正产生价值、提升生产力,还有很长的路要走。


另一方面,很多新媒体人在宣传所谓的“DeepSeek+”,比如“DeepSeek+ 王炸组合”,声称可以成倍提升功能效率。确实,DeepSeek 在办公效率方面,比如写作(如 Kimi)、图像处理(如剪映、PS)等工具的使用上,确实能带来一些帮助。但对我们技术人来说,更重要的是如何将 DeepSeek 更好地应用到更多实际场景中去,而不仅仅是停留在表面的效率提升。

如何打造差异化竞争优势


在当前 AI 技术快速发展的背景下,无论是个人还是公司,都需要思考如何打造差异化竞争优势。随着 AI 的兴起,作为技术人需要结合自身优势和经验,找准定位。拿我本人来说,有近 20 年的开源经验,同时也有七八年的创业经验,因此我希望将开源与商业化相结合,分享 AI 技术的同时,探讨如何提升决策能力。于是,我将自己的公众号从“Asta 聊工业”改为“AI 进厂的 Asta”,专注于分享 AI 在编程、开源和商业化方面的内容。在内容创作上,我尝试用 AI 辅助写作,提纲和核心内容仍需自己撰写,完后再让 AI 优化,这样既能保持个人写作风格,又能提升效率。


个人工具的全面 AI 化是提升效率的关键。我目前常用的 AI 工具包括以下几种:

  • Cursor:我每天都会用它来编写代码,尤其是前端开发,效率提升显著。

  • DeepSeek 和 Claude:将两者结合使用,Claude 在长文本创作上更符合我的写作风格,而 DeepSeek 则用于联网搜索技术报告。

  • Grok 3:其 Deep Search 功能非常强大,我正在不断尝试。

  • Ideogram:这是一个类似 Midjourney 的文生图工具,生成的图片设计感很强,我经常用它来生成图片。

  • Napkin:它可以将文档一键生成脑图或 PPT 格式的图表,非常适合快速制作 PPT。

  • Notion:我用它来收集各种想法和计划,同时也会将 Claude 生成的内容整理到 Notion 中。

  • 即梦 AI:我用它生成海报,效果不错,尤其是中文显示效果很好。

  • 创客贴:主要用于海报设计,其 AI 设计功能非常实用。

  • Gamma:用于快速生成 PPT,设计简洁且支持导出 PDF 和 PPT 格式。


我从 2009 年开始接触 Go 语言,而 GopherChina 也是从 2015 年开始举办,至今已经十年了。这十年间,Go 社区不断成熟,技术话题也逐渐趋同化。比如,大家讨论的大多是云计算、K8S 容器、微服务、监控等热门领域。这些内容在过去十年里已经被分享得非常充分,社区的成熟也意味着技术发展进入了一个稳定阶段。


随着 AI 时代的到来,技术人不能固步自封,必须勇敢拥抱变革。因此,我决定将 Go 社区全面升级为一个 AI 社区——ThinkIn AI。这个社区目前还处于起步阶段,但已经展现出巨大的潜力。在这个过程中,我们做了以下两件事:


第一,开发了一个 DeepSeek 模型兼容性检测工具。这个工具的灵感来源于朋友的提问:他们的电脑配置能否部署某个型号的 DeepSeek 模型,比如 1.5B、7B 或 8B 等。基于这个需求,我利用业余时间用 React 写了一个网页工具,通过显存和内存的检测,自动判断用户电脑能够部署的最大模型。这个工具开发过程非常高效,仅用了一个晚上的时间,而且完全通过对话式编程完成,我没有手写一行传统代码。推出后,这个工具受到了广泛关注,很多人反馈企业也有类似需求,希望了解服务器配置如何满足不同模型的部署要求。因此,我们又开发了一个企业部署服务器配置计算器。用户可以根据自己的需求选择模型大小(如 70B、671B 或 14B)、量化类型、序列长度、批次大小等参数,工具会计算出所需的显存、CPU 配置、模型参数占用等信息,并推荐适合的硬件配置,包括 GPU、CPU、内存和网络等。同时,我们在工具底部宣传了 ThinkIn AI 社区,目前社区已经吸引了大量用户,14 个群几乎都满了,这说明大家对 AI 的热情非常高涨。


第二,我们开始探索 DeepSeek 部署后的应用场景。目前,虽然已经有 Chatbox 和 Open Web UI 等客户端可以连接 DeepSeek,但我们认为 DeepSeek 客户端可以实现更多功能,尤其是对于企业私有化部署来说,需要更强大的智能体开发。因此,我们决定自己开发一个开源的客户端——DeepChat。这个项目完全开源,采用 Apache 协议,今天刚刚发布了 0.02 版本,支持联网功能,可以通过搜索引擎结合 DeepSeek 进行更强大的处理。我们的目标是将 DeepChat 打造成连接强大 AI 与个人世界的智能助手。未来,人们会越来越多地通过终端设备处理各种事务,包括电脑、平板和手机。我们希望在终端设备上开发更多小应用,比如下一个版本将支持文件上传和内容总结功能,用户可以上传多个文件并输出自己想要的格式。DeepChat 不仅可以连接企业的大脑,也可以连接个人电脑,用户可以选择连接本地的小 AI,也可以连接公网上的满血版 AI。我们还计划全面对接 MCP 协议,将个人智能体的功能整合进来,充分发挥终端设备的潜力。我们希望通过开源的方式,像 DeepSeek 一样,毫无保留地分享技术,打造一个全球知名的 AI 应用生态。


对于我们企业而言,从个人到社区,再到企业层面,我们的差异化优势其实非常明确。比如,我们将 Go 社区转型为以 DeepSeek 为核心的 AI 社区,这一转变本身就体现了我们的独特性。我们始终以开源项目为驱动,围绕 AI 编程、开源项目、DeepSeek 工具链以及 MCP 社区的终端应用展开工作。这种以开源为基础、以技术为核心的发展路径,是我们区别于其他社区和企业的关键所在。


在企业层面,我们面临的挑战是 如何在 DeepSeek 私有化部署这一竞争激烈的市场中找准自己的定位。如今,许多企业都在涉足 DeepSeek 的私有化部署,但我们必须思考:用户为什么选择我们?如何在众多竞争者中脱颖而出?这正是我们需要解决的问题。


我认为,实现差异化的核心在于“行业 Know-How + AI”。我们需要找到自己真正擅长的行业领域,并深入理解该行业的核心数据和业务流程。只有当我们清楚地知道行业数据的价值和业务流程的关键节点时,才能将 AI 技术精准地嵌入其中,从而发挥出我们的差异化优势。这种结合行业深度知识与 AI 技术的能力,才是我们能够在市场中立足的关键。

AI 技术商业化落地的“道”与“术”


所谓“道”,是指我们对场景选择和用户痛点的深刻理解。首先,我们必须从用户的真实痛点出发,这是商业化的基础。其次,商业模式的验证至关重要,需要从一开始就设计好盈利模式,思考如何持续赚钱。用户痛点的发现并非孤立的,而是通过与不同行业人士的交流逐渐明晰的。例如,有医院希望部署 DeepSeek 的私有化方案,但面临技术选型和硬件适配的难题;还有企业希望通过小模型解决特定业务问题,需求千差万别。这些痛点背后,反映出行业对 AI 技术的迫切需求,也凸显了我们作为技术提供方的机会。


仅仅发现痛点还不够,我们需要结合行业 Know-How 与 AI 技术,找到数据和业务流程中的关键点,将 AI 嵌入其中,实现差异化价值。比如,金融行业可以通过 AI 优化风险控制,医疗行业则可以利用 AI 提升诊断效率。这种结合行业深度知识与 AI 技术的能力,才是我们能够在市场中立足的关键。


在“术”的层面,我们则需要关注技术的成熟度和数据的积累。选择成熟的技术可以降低风险,而数据的积累和算法的优化则是持续迭代的基础。AI 技术的快速迭代要求我们不断优化模型,以适应市场的变化。

小结

在 AI 时代,每个人都有机会成为超级个体,无论是个人创业还是小团队创业,都需要 从技术的迷恋转向技术的实用化,从产品思维转向用户价值思维。技术本身并不重要,重要的是技术与场景的结合。同时,从单打独斗转向生态协同也是必然趋势。AI 的商业化落地需要构建完整的生态,包括技术提供方、数据支持方和应用场景方。


以下为对话实录部分(经编辑):

InfoQ:DeepSeek 出现之后,对积梦智能目前的业务以及所服务的客户带来了哪些直接的价值?


谢孟军: 虽然我们的传统业务还在继续推进,但我们也要更好地拥抱 AI 时代带来的变化。为此,我们专门开辟了一项新业务,开始 着手 DeepSeek 的私有化部署相关工作。这包括帮助客户梳理知识流程、清洗数据,以及构建高效的数据库和知识库,并协助他们将这些内容整合到业务流程中。


我们有几家制造业用户正在推进 DeepSeek 的私有化部署。其实这个思路源于去年底,当时我们服务的一家客户是做橡胶轮胎助剂的。他们内部积累了大量研发资料,研发部门有大约五十人,但这些数据不便外流,所以他们希望在内部建立一个研发资料知识库。去年,他们就已经开始与我们对接,探讨如何实现这个目标。当时我们告诉客户基座模型还在迭代,建议他们再等等,但千问 2.5 其实已经可用。然而,今年春节当 DeepSeek r1 发布后,客户过完年就立刻联系我们,表示一定要采用这个技术。他们希望通过 DeepSeek 赋能内部的研发资料库,提升研发效率和知识管理能力。

InfoQ:有观众提问:如果自己的公司想本地化部署、搭建自己的知识库,应该选择 DeepSeek 的哪一个版本,或者有没有其他更好的解决方案?


谢孟军: 我觉得搭建公司知识库的关键在于明确用途。如果只是搭建一个简单的知识库,我认为 32B 的模型其实就足够了,效果也不错。关于具体的硬件配置,大家可以访问 ++DeepSeek 模型兼容性检测 ++,通过这个工具检测一下自己所需的硬件配置。


私有化部署选什么版本的 DeepSeek 其实取决于具体的应用场景。如果条件允许,满血版当然是最好的,但成本确实很高,至少两三百万起步。如果需求没那么复杂,比如 7B 或 8B 的版本,我建议大家可以考虑买个 Mac mini,七八千块钱就能搞定,或者自己配一台台式机,大概一万元左右就能部署起来了。像我现在用的 Mac Pro,本机就能部署 14B 的模型。


我看到还有同学问满血版需要多少张显卡。这要看具体用什么型号的显卡了,比如 H200 还是 H20,不同显卡的数量要求是不一样的。如果是 H20 的话,大概需要 14 张到 16 张。现在大家在部署过程中确实会发现有不少问题,尤其是满血版的部署,并没有想象中那么简单。推理模型的优化参数和配置都需要仔细调整,过程中有不少需要注意的地方。

InfoQ:有观众提问:问题怎么转成向量去匹配相应的知识库?


谢孟军: 这个就是 RAG(Retrieval-Augmented Generation)技术。它的核心机制是这样的:当一个文档输入进来时,系统会将其分解为一个个小块,然后通过 embedding 模型将这些块转化为向量并存储起来。当你需要查询时,问题也会被转化为向量,然后在向量库中进行相似度搜索。不过,RAG 目前面临一个很大的问题:当文件数量很多,比如达到 5,000 个时,多路召回的结果会非常多,相似度匹配的结果也很多,这就很难确定到底哪个是最相关的。因此,上下文的重要性就凸显出来了。现在,大家开始转向一种新的模式——Graph RAG,也就是将知识图谱的概念与 RAG 结合。这样可以更好地处理上下文信息,提升检索的准确性和效率。

InfoQ:有观众提问:运维该如何提升效率,有什么建议?


谢孟军: 我建议使用 Cursor 写运维脚本,效率提升非常明显,因为运维工作本身就涉及大量脚本编写。我个人最大的感受是,我们的学习模式可能会因此改变。比如,我以前对前端开发不太熟悉,尤其是 TypeScript 和 React,但现在很多都能轻松上手,写得很快。为什么呢?因为我采用了“干中学、学中干”的方式——通过与 Cursor 对话,利用它强大的代码生成能力,它会根据你的需求生成代码。我们程序员已经掌握编程基本逻辑,比如如何管理包、下载和运行代码,而且 Cursor 生成的代码语法基本正确,只需要稍作检查即可运行。更重要的是,Cursor 会帮你生成目录树和文件结构。因为它已经学习了大量开源代码,所以它能合理设计目录架构。我觉得这种方式特别适合每一个 IT 人,因为它不仅提高了效率,还帮助我们在实践中学习新技术。

InfoQ:国内的代码开发工具你有用过吗?可以点评一下吗?


谢孟军: 国内目前我还没用过类似的产品。现在唯一值得期待的就是字节跳动的“Trae”。之前也有一些产品,比如百度的 Comate(文心快码),它们都是对标 Copilot 的。但 Copilot 其实是上一个年代的产品,体验非常差,如果国内的产品只是对标 Copilot,我觉得那还是上一代的东西。听说字节跳动的“Trae”可能会对标 Cursor,它在 3 月份应该会发布国内版。

InfoQ:你怎么看待 AI 领域里的创业新机会的?对于普通人来说,又如何借助 AI 成为一个超级个体?


谢孟军: 现在很多人都在提“一人团队”的概念,如果你创业的话,一人团队其实是个很好的选择。TGO 鲲鹏会的会员开设了“一人出海”的课程,值得去学习一下。我觉得一人团队的核心在于,现在各个细分赛道中确实出现了很多 AI 场景应用的机会。以前我们可能需要一个大团队来完成这些工作,因为涉及到各种协同和分工。但现在,借助 AI 工具,一个人就能搞定很多事情。比如我之前提到的 cursor,我有一个朋友,他以前完全没有编程基础,甚至不是计算机专业出身,但最近迷上了 cursor,天天在用它写小程序,甚至还成功上线了。当然,我会慢慢给他普及一些基础知识,因为他需要补充的地方还有很多。但这就是 AI 时代个体创业的魅力所在。不仅仅是 cursor,我很多时候有了一个想法,就会让 AI 帮我写草案,比如文章、设计文稿、API 文档,甚至针对 API 的测试用例,这些都可以通过 AI 快速生成。

InfoQ:比如你早上 9 点坐在办公室里,晚上 9 点离开办公室,在这 12 个小时里,你会用到哪些 AI 工具来提升工作效率?


谢孟军:Cursor 大概占了我 50% 的时间,我主要用它来辅助编程和生成代码。另外,我还会用 Claude,它能快速帮我把一些想法整理成初稿,完善成具体的方案。第三个用得比较多的是 Notion,我会把所有的东西都记录在里面。偶尔会用到 Napkin 和 Gamma,它能把文字内容快速转化为 PPT 格式。当然,还有一些小工具,比如即梦,会用来做海报,比如 AI 自动生成海报这类功能。

InfoQ:AI 帮助我们提升工作效率,未来也可能会改变我们的工作方式。AGI(通用人工智能)出现后,可能会取代我们 80% 甚至 90% 的工作。从你的角度来看,未来怎么去定义人在其中的价值?我们该如何更好地适应 AI 时代,或者迎接 AGI 的到来?


谢孟军: 我没有很深刻地思考过这个问题,只是有一些肤浅的看法。但我一直觉得,目前 AI 还只是一个辅助工具,它还无法完全替代人类。在很多场景里,AI 仍然做不到完全取代人的工作。人的认知很重要。现在很多时候,关键在于你的思维方式和视野有多宽。比如,就像刚才提到的,用 AI 去写东西,你需要先想清楚自己想写什么,以及这个东西能产生什么价值。这些需要人去思考。你不能让 AI 帮你完成整个闭环。比如,你让 AI 设计一个“利润率能达到 50% 的产品并上线”,这种要求实现的可能性并不大。

2025-02-28 10:1410241

评论

发布
暂无评论

2020年文章合集

Rayjun

架构师训练营 -week13-总结

大刘

极客大学架构师训练营

六度空间系统APP开发|六度空间软件开发(现成)

系统开发

测开之数据类型· 第4篇《迭代器、生成器》

清菡软件测试

测试开发

Swift函数调用逆向分析

ios swift

Netty RPC Demo 实现

Java RPC Demo

流动性挖矿DAPP软件系统开发

系统开发

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?

我们新四军不拿群众一针一线

海量小文件存储系统HOS探索与实践

Galaxy数据平台

大数据 OSS 对象存储 HBase GEEDGE NETWORKS

阿里9年老开发终于总结出微服务架构设计模式PDF了

小Q

Java 学习 编程 架构 面试

懒人神器——新手必备的图片后期处理软件

懒得勤快

图片后期 修图 滤镜 ps

世界之书:《人类简史》与想象中的共同体

lidaobing

28天写作

生产环境全链路压测建设历程13:淘宝网稳定性近十年发展历程 2009年-2019年

数列科技杨德华

全链路压测 七日更

如何透彻理解 Redis 核心原理?怎样才能形成 Redis 系统观?

Java架构师迁哥

DeFi流动性挖矿系统APP软件开发

系统开发

面试阿里被质问:ConcurrentHashMap线程安全吗

Java架构师迁哥

盘点2020 | 寒门难出贵子,我当程序员让爸妈在老家长脸了

爱笑的架构师

Java 程序员 程序人生 编程之路 盘点2020

冰河,能不能讲讲如何实现MySQL数据存储的无限扩容?

冰河

MySQL 分布式存储 海量数据 mycat 可扩展

Himly TCC Dubbo 程序示例

Java 分布式事务 dubbo TCC Himly

03-week4-homework

J

极客大学架构师训练营

区块链落地应用开发- 珠宝溯源,不当“冤大头”

13828808769

区块链技术 区块链落地开发 珠宝溯源

第四周 系统架构 学习总结

胡云飞

极客大学架构师训练营

Week 13

黄立

互联网架构总结

J

极客大学架构师训练营

光知道SpringBoot,不用thymeleaf就太不对了

小Q

Java 学习 编程 面试 Spring Boot

第四周 系统架构 作业 「架构师训练营 3 期」

胡云飞

极客大学架构师训练营

架构师训练营 -week13-作业

大刘

极客大学架构师训练营

智能合约Dapp系统开发,区块链智能合约技术

薇電13242772558

区块链 智能合约

Java渣渣外包开发3年,4面终揽下美团面试官,含泪拿到22koffer

比伯

Java 编程 程序员 架构 面试

字节首发Redis笔记,基础+原理+应用+源码+拓展五大核心模块

Java架构追梦

Java redis 编程 架构 面试

面试必问系列,源码解析多线程绝对不容忽视得问题:线程活性故障

小Q

Java 学习 架构 面试 多线程

DeepSeek 冷思考: 从技术迷恋转向技术的实用化_AI&大模型_InfoQ精选文章