大模型让我们成了“提词狂魔”，未来开发者核心竞争力在哪里？| QCon 晚场激辩

嘉宾 | 丁雪丰、傅奎、黄闻欣、马根明

审校 | 蔡芳芳

策划 | QCon 全球软件开发大会

在人工智能的浩瀚宇宙中，大模型技术如同璀璨的星辰，引领我们探索未知的领域。在刚刚结束的 QCon 全球软件开发大会（上海站），我们举办了“智能之夜：大模型的星辰大海”晚场圆桌论坛，专为 AI 领域的研究人员和开发者、对大模型技术感兴趣的企业决策者和技术管理者设计，旨在深入探讨大模型技术的最新发展、在不同领域的应用和挑战及未来发展趋势。

大模型步入大家的视野里已有一段时间，从一开始的惊叹，到各家公司纷纷炼丹，再到大家开始关注垂直领域的应用场景；从一开始的上手玩玩，到现在的在业务和工作中用起来。大家的感受区别很大，实际情况如何？大模型的发展是否已经进入下一阶段？本论坛带您深入剖析大模型技术的核心价值，分享行业领袖的洞见，探讨如何将这些强大的工具更好地融入我们的工作流程和决策过程中。

12 月 13 日 -14 日，InfoQ 中国旗下的 AICon 全球人工智能开发与应用大会将在北京举办，AI Agent 技术突破与应用、大模型行业落地实践等精彩专题正陆续上新，欢迎关注。查看大会日程解锁更多精彩内容：https://aicon.infoq.cn/202412/beijing/schedule

以下是晚场论坛实录（经 InfoQ 进行不改变原意的编辑整理）。

大模型发展进入下半场？

丁雪丰：首先让我们来探讨一下大模型技术的最新进展，这无疑是我们所有人都非常关心的话题。我们看到了像 OpenAI 这样的公司，以及 O1 这样的项目，还有最近非常受欢迎的 Google Notebook LM，这些都是大家耳熟能详的例子。然而，如果我们从一个专业从业者的角度来看，我想请教马老师，作为文心智能体的负责人，您是如何看待当前大模型技术的发展的？您认为我们是否已经进入了一个新的阶段，比如第二阶段，或者说上半场已经结束，现在我们正进入下半场？我有这样的感觉，一开始大家都在专注于大模型“炼丹”，也就是模型的训练，但现在我们开始更多地关注实际的应用场景，关注垂直领域的应用，并期待看到实际的结果。您是否同意这种看法，您认为现在的技术发展到了什么程度？

马根明： 我的感受与您相似，我们作为智能体领域的从业者，对行业进行了深入的调研和了解。在大语言模型方面，类比自动驾驶级别，我们目前可能还处于 L2 阶段。自从去年 GPT-3.5 发布以来，大语言模型真正引起了大众的关注，各个行业开始尝试业务重构、改造和创新。从去年到现在，这一领域的发展速度非常快。然而，目前还没有出现特别好的商业化闭环产品，大家都还在探索阶段。

从模型的角度来看，目前模型的成本仍然非常高，普及模型的可能性还比较小。 像英伟达正在探索如何降低模型的成本，提高效率。当在手机或其他设备上能够运行大模型的推理能力时，那才是真正普及的时候。 目前，我们认为还处于一个初步迈向成熟的过程，但大家探索的方向各不相同。我们文心智能平台也在探索垂直领域，以便更具体地落地应用，这也是行业探索的一个方向。因为通用大模型能解决的问题有限，从垂直行业的大模型角度出发，落地会更快。

关于大模型更适合垂直领域，还是在大模型上训练小模型更适合垂直领域，这实际上取决于业务需求。大模型虽然看似万能，能回答各种问题，但其准确性和可靠性还有待校准。大模型能否解决行业问题？我的回答是不能。它基于互联网学习了大量知识，但对于一些行业特有的、不公开的经典案例，大模型无法获取和使用。因此，很多行业，比如法律行业，需要进行垂直领域的训练，结合私有知识库，通过知识增强学习等方式，使服务更加专业和精准。

黄闻欣： 在讨论这个问题时，我突然想起了一篇论文，它提到了一个有趣的现象：大语言模型的参数量越多，对提示词的敏感度就越高。只需改变一两个字的提示词，输出的结果就可能有很大差异。我自己也有这样的体验，比如输入“缺陷”和“缺陷单”，虽然在中文语义中它们表达的意思相近，但大语言模型给出的输出结果却大相径庭。

对于大语言模型的突破，我目前还在期待中。O1 很多人认为是突破，认为它的亮点在于使用了思维链，但实际上最令人兴奋的是它终于将强化学习纳入其中。尽管如此，强化学习也仅仅仍然局限于模型内置的思维链。另外，虽然有些论文提出了降低提示词敏感性的方法，但输出结果仍然存在波动，并且受到提示方式的影响。

我认为，未来 AI 可能会迎来一个所谓的“冰点”，但这并不意味着 AI 会无人问津，而是意味着大家都会更加专注于将 AI 技术落地到各种垂直场景中。 就像最初的图像识别技术，一开始大家都很兴奋，但随着时间的推移，它逐渐渗透到我们的生活中，比如在高铁站的人脸识别和停车场的扫描等。尽管如此，AI 领域肯定会迎来一个相对冷静的时期。至于下一个爆点，我猜测可能还是大语言模型的整体智慧需要再上一个台阶。但具体是不是 GPT-5，我不确定。至少就目前而言，O1 并没有达到我的期望。

丁雪丰：讲到思维链，在辅导孩子做功课时，我作为家长经常使用不同的 AI 工具来帮助解答小学作业。有时，我会让 AI 直接给出答案，但为了确保孩子能够理解解题过程，我会在提示词后面加上要求，让 AI 一步一步地写出推导过程。

黄闻欣： 有一天我的朋友找到我，他的女儿在初中遇到了一道数学题，当时已经是晚上 11 点半。我朋友觉得自己写的提示词可能不够好，希望我能够帮忙。因为我经常对外分享如何写好提示词，所以他觉得我可能在这方面特别擅长。那晚，我尝试了 GPT-4、Claude 以及其他几个模型，把所有答案都展示给他看，结果没有一个答案是正确的，或者说虽然答案都是根号 6，但所有的推导过程都是错误的。我满怀希望地使用了 O1 模型，结果发现答案虽然对了，推导过程依然是错误的。这让我感到有些无奈。这说明 AI 在逻辑推理上还是不行，就算是 O1 看起来也不太行，做数学题的时候有种死记硬背的感觉。

傅奎： 最近我在使用大语言模型的过程中发现，虽然我们将其定义为语言模型，但实际上它有一个瓶颈，它不可能完全以人类的思考方式去解决问题，至少在短期内这是很难实现的。但我相信在现在的基础上，以及在接下来的短时间内，大语言模型会持续突破，从 GPT4 到 5，肯定会有一个事件让它在语言模型上有很大的提升。

对于我们大多数用户，我认为应该更好地利用这些模型，多去尝试。我自己就订阅了多家网站的服务，大概有十几个账号，每个月花费不少。只有当你真正使用过每家的服务后，你才会发现在遇到问题时，你更倾向于使用哪个模型，你能感受到哪家在哪些方面能力更强。我认为现在的模型能力已经很强了，相比过去两三年前，尤其是我们信息技术领域的人员，应该感到生活在一个非常好的时代，因为有了这些强大的工具来辅助我们，我们的生产力效率大幅提升。过去一个月我大概开发了 5 个程序项目，速度非常快，几乎是一周一个，而且大多数情况下不需要自己写太多代码，基本上是靠提示词去完成的。也就是说，未来如果你是一个产品经理，你可以给大模型提要求，它来帮你完成。这在很大程度上已经改变了我们原来的工作和生活方式。

就像您刚才说的，孩子们每天做作业也会用到这些工具，我们家孩子暑假作业做得飞快，后来我一看原来是在钉钉上和 AI 机器人互动……我想所有人都会受到它的影响。今天大语言模型有很多场景在突破，无论是 O1 也好，还是多 Agent 模式也好，还是各种应用场景，包括我今天下午分享的网络安全应用场景，都是大家努力探索的方向。我相信未来在我们足够多的探索之后，大模型技术会在我们的生活中润物细无声，在很多场景里面不断地用起来。而且随着算力成本的不断下降和我们使用模型的便捷性越来越强，我相信未来会进步得更快。

丁雪丰：安全是一个不可忽视的话题。随着大模型的发展和壮大，它是不是也引入了一些新的安全领域风险？

傅奎： 我昨天匿名访问 ChatGPT 官方网站以及使用谷歌的 Gemini 时，下面会有一行提示，告诉我我的提问可能会被人类审核。这意味着后台会随机抽取一些问题进行人工审核。如果你没有登录或付费，你的某些问题可能会被拿去评审。这是第一类风险。

第二类风险是，大多数用户在使用模型时，可能会提出涉及公司或个人隐私的问题。我们在与大语言模型交互时，往往处于一种完全信任的状态，但这些数据实际上是上传到后台的。如果道德约束和技术能力足够强，数据可能会得到较好的保护；但如果这些工作没有做好，这些信息可能会在某些场景中泄露，甚至被用于他人的提问。

从模型本身来看，我们很多客户包括安全类产品，都利用大模型开发了许多技术和手段，产生了很多新产品。但是，你的提示词可能会在不经意间泄露，或者别人通过越狱模式与大模型互动，使其泄露信息，这些都是可能的风险。有新闻报道说，网传某公司训练大模型使用了几百张显卡，训练了一个月，结果数据全错。原因是一个月前有同事在系统中植入了一个小后门，这个代码会定期让大模型训练过程中休眠或更改数据，导致一个月的训练结果全部作废，花费了大约 8000 万，结果却一无所获。这就是在模型制造过程中可能出现的问题，因为模型本身也会消耗和存储我们的数据，这些都是安全问题。

在使用模型时，我们肯定会遇到这样或那样的问题。当然，社会的发展就是这样，我们看到安全问题时，还是要继续前进。包括我自己也是从事网络安全的，每天都会告诉客户要注意安全、保护个人隐私和信息安全。但在快速发展的过程中，我们需要系统化地解决问题。有些是模型生产方的责任，比如百度在打造大模型时，就要考虑模型的检查机制；同时，在输出数据时，要对用户数据进行保护，不能轻易公开，这些是模型生产方需要考虑的。而模型使用方也需要想办法过滤或控制，比如我们与客户合作的项目，在提到互联网大模型之前，我们都会进行数据脱敏处理。

现场观众反馈：我认为未来大模型在生产中发挥关键作用是不可避免的，这一点毋庸置疑。虽然可能不是今年或明年，但那一天终将到来。我个人比较好奇和关心的是，大模型的到来会对我们的社会产生什么样的影响。当人类熟悉了大模型之后，我们会迈向什么样的方向。我们的技能会不会退化？例如，今年我们已经看到大模型可以在代码方面提供各种辅助功能，那么长期依赖下去，我们会不会丧失编写代码这一基本技能？

傅奎： 在我使用大模型开发代码一个月后，我发现自己的一部分能力开始退化。首先，我变得不太愿意主动去思考问题，更了懒了。其次，一旦大模型的 API 接口出现问题，我会感到非常焦虑，我的代码质量也随之迅速下降。这种压力是真实存在的，并且确实对我产生了影响。

辅导作业、旅游规划、编写单测，大模型还能做些什么？

丁雪丰：接下来，我们来探讨第二部分，即大模型在不同领域的实际应用。我们不妨从文心一言开始讨论。文心一言平台上有许多智能体，那么我想知道，这些场景是否真的被广泛使用了？它们是如何改变我们日常生活的？除了帮助完成小学生作业之外，还有没有其他用得比较好的例子？

马根明： 文心智能平台上创建的智能体数量已经超过几十万，我们对此进行了大量分析，主要是想了解谁在创建智能体以及他们用智能体做什么。分析结果显示，各行各业的人都在使用智能体。例如，人物类的智能体，在百度搜索苏轼时会出现名为苏轼的智能体，它以苏轼的身份与用户互动，用户可以通过这个智能体进行多轮交互，表达自己的想法，让智能体以苏轼的风格回答问题或创作诗歌。还有一个名为李白的智能体，用户可以要求它以 21 世纪的风格重写《将进酒》。

此外，智能体也被应用于旅游领域。例如，新加坡旅游局就利用智能体提供旅游规划服务。用户可以要求智能体制定旅游计划，智能体会根据大模型学习的内容给出推荐。与大模型直接给出的推荐不同，智能体在大模型的基础上增加了工具服务，并具备记忆能力，如短期记忆和长期记忆，可以根据用户的习惯提供个性化推荐。智能体还能帮助用户预订酒店，推荐方便且价格合适的选项。这些服务让智能体在旅游行业中发挥了重要作用。

智能体也被广泛应用于教育领域，比如辅导孩子学习英语。智能体支持语音交互，孩子可以直接与智能体对话，而不需要打字。这种教育辅导类的智能体在教育领域已经得到了广泛应用，尤其是在英语教学等方面。

丁雪丰：刚才我们讨论了很多关于智能体在日常生活中的应用，那么在工业领域，比如工业制造等方面，是否也有类似的落地应用呢？

马根明： 在工业领域，智能体的应用确实在不断发展。例如，无人车技术就是一个明显的例子，它是工业自动化的一个重要方向。此外，像波士顿动力公司、特斯拉等企业正在开发的机器人技术也非常热门。这些机器人能够执行各种任务，比如叠衣服等家务活动，以及在陪伴方面的应用，这些领域的发展速度非常快。

谷歌最近发布的谷歌眼镜也展示了未来交互的新方向。未来，我们可能不再需要通过手机或电脑来交互，而是直接通过穿戴设备，如智能眼镜，来进行交互。这种交互方式的发展，预示着智能体应用的新趋势，尽管具体的应用场景仍在探索之中，但发展潜力巨大。

丁雪丰：参加 QCon 大会的许多参与者都是 IT 行业的开发者，他们经常询问大模型在 IT 领域实际应用的效果。除了之前提到的提高代码编写效率之外，我们实际上也利用大模型来生成单元测试用例，以此来增加测试覆盖率。此外，在日常工作中，我自己也会使用大模型来分析各种数据表和数据集。黄老师，在 IT 领域方向，你觉得大模型现在的表现怎么样？

黄闻欣： 我自己在使用 AI 时，通常会用一个思维模型来看待它，即教育目标分类法。这个模型将目标分为检索、理解、分析、应用、评估和创作六个层次。例如，辅导作业更多是在创作层面，而评估层面可能涉及到 Code Review。旅游规划可能偏重于检索。应用层面则是根据提示词实现特定功能。数据分析则属于分析领域。

我想补充的是，智能体和工作流的使用场景是有区别的。在创作场景中，AI 不需要为输出的结果负责，甚至能接受 AI 输出的结果的下一步是人工加工。例如，在生成测试用例时，我们可能只是希望大模型帮助我们头脑风暴，而不是直接执行和评判产品。因此，智能体在很多创作类的场景中是合适的，它们可以帮助我们发散思维，制定旅游规划等，但实际应用时我们可能还需要进一步加工。

在研发场景中，我们更倾向于使用纯粹的工作流，而不是智能体或者智能体工作流。规划是智能体的本质，所以如果规划本身是一个变量，并且将这个变量交给 AI，其输出必然会更不稳定。但在研发工作中，我们需要稳定性，不能让输出结果时好时坏。由于模型是概率性的，它可能会输出一些我们不想要的结果。

在研发应用中，我认为有两个安全问题。一个是模型更新问题，这听起来不像安全问题，但风险很大。例如，大语言模型更新后，可能需要我们切换过去，但一个月后我们发现整个工作流和智能体都失效了，输出结果与预期大相径庭。另一个问题是数据偏见。不同的模型有不同的特征，或者说数据偏见，这会影响答案的输出。如果某天偏见被修复，答案可能又不同了，这也是一个令人痛苦的地方。在我的研发工作中，我就遇到了这些问题。

丁雪丰：谈到数据偏见，我们的提问中有很多人关注大模型在智能客服领域的应用，包括营销客服，甚至是法律行业的大模型在回答专业法务问题。在这些场景中，大模型不能随意发言，不能误导人。因此，我想问问傅老师，您对大模型乱说话是否需要负责这个问题是怎么看的。

傅奎： 大模型在智能客服领域的应用确实是一个难点，尤其是涉及到责任归属问题。如果大模型需要负责，那么责任主体是谁，这个问题更难解答。很多时候，机器虽然有用，但人的存在是因为机器不能承担责任，而人可以。

在大模型出现之前，我经常强调的一个观点是 “机器负责推荐，人类负责决策”。也就是说，机器提供推荐结果，最终由人来决定是否执行。通过这种方式，我们可以将人和机器的职责分开。在客服问答中，确实存在很多限制，不能随意回答某些问题，也不能违背公司利益去回答问题。

在实际工作中，我们会把安全事件中的不同角色拆分出来，比如 SOC 指挥官（安全运营中心负责人）是一个大模型后台角色，他来回答问题，然后指挥官的指令下发后，分析员用另一种方式回答，一线操作员再换一种方式回答，这样做是为了规避模型输出时的不稳定性或不确定性。

我经常向大模型提出问题，比如针对某个安全事件，员工的邮箱是什么，他被某个 IP 地址访问了，可能泄露了信息，这是一个安全事件，我要求大模型帮助解决。大多数情况下，大模型都能提供结构化且符合预期的输出，但偶尔也会有不符合要求的情况发生。如果你的工作流程或应用逻辑没有考虑到大模型可能乱说话、不说话或说出不符合要求的内容，那么可能会产生一些影响，甚至在某些领域场景可能产生灾难性的影响，比如大模型说出一些奇怪的敏感词。因此，在智能客服领域，尤其是国内大模型生产厂商，在开发模型时会增加很多内部检查机制、纠错机制，甚至有一定的价值观稳定机制，这是必须要做的。

马根明： 百度在大模型领域投入了大量的资源，特别是在安全控制方面。正如您提到的，国内对大模型的舆论把控非常严格，国家和地方政府出台了许多管理办法和法律法规，比如 TC260，明确规定了禁止出现赌博、毒品等不良内容。

基于这些规定，无论是开发大模型应用还是大模型本身，都必须进行安全控制。例如，对于一些风险较高的内容，我们可能需要对提示词进行改写或审核，以确保输出的内容是安全的。如果遇到越狱或骗取提示词等违规行为，以及可能的风险操作，我们会有相应的处理策略，比如拒绝服务或直接终止交互。

百度在安全方面也进行了一些模型训练，比如建立了红线模型和红线知识库，以及针对多语种的模型。特别是当大模型对多语种的支持不够好时，用户可能会用不同的语言提出问题，这就需要我们进行风险控制和处理。在这方面，百度已经做了很多建设性的工作。

现场观众反馈： 我来自滴滴，这次来参加 QCon 有一些感受想要分享。我目前使用最多的是 GPT 的 O1 Preview 版本。最直观的感受是，在使用 GPT-3 或 GPT-4 时，如果我遇到代码问题，可能需要问三个问题才能得到答案。但到了 O1 版本，我可能只问半个问题，它就能迅速给出一大堆答案，让我感到非常轻松。

我感觉自己好像真的要退化了。以前我需要多次调整问题，因为模型总是回答不到点上，它记住的东西不够多，我问多了，它又忘记了前面的问题。但 O1 真的很强大，它能够更好地理解我的问题。我一方面担心自己过于依赖 GPT 来拓展我此前完全不了解的技术栈，而且做起来还非常轻松。另一方面，作为开发者，也许我的核心能力真的变成了撰写提示词，而理解这些技术背后的本质可能才是更重要的。

马根明： 当前与大模型的交互主要依赖于提示词。因此，提示词的编写质量在很大程度上会影响模型输出的结果。

傅奎： 编写高质量的提示词非常重要，这是我在编写代码过程中的亲身体验。特别是在调试阶段，例如你向大模型提出需求，它提供了一段代码，但在并行运行时出现了错误，这时候如果你对问题有所了解，或者知道问题可能出在哪里，比如在变量类型转换的地方，或者你使用了代理服务器可能存在的问题，将这些信息一并提供给大模型，它就能迅速进行改进。但如果你只是简单地把错误代码扔给大模型，它只能从它的角度尝试用多个方向去解决问题，但不一定能够立即锁定正确的解决方向。如果人类能够辅助 AI，提供更具体的指导，那么双方一起工作，就像结对编程一样，效率会大幅提升。

现场观众反馈： 我主要在两个场景中使用大模型，第一个是编写代码时。举个例子，我有自己独特的编程风格，比如我喜欢在一个方法的第一行写注释，并在最后一行将结果也写入注释中。后来，我注意到当我创建一个训练方法时，大模型能够自动为我添加这些注释，这让我觉得它非常智能。

第二个场景是利用 ChatGPT 来查询信息。我发现它确实很聪明，比如我可以让它帮我写一个完整的查询语句，只需提供表名和字段名。举个例子，如果我有一个表的字段是复杂的 JSON 类型，并且 JSON 里面还有一个字段，我只需要告诉它我想要查询这个 JSON 里面的某个字段，它就能写出一个很标准的查询语句，我可以直接拿来执行。我感觉很多简单的工作基本上已经被大模型取代了。

丁雪丰： 听大家聊完之后，我突然想起一个故事。之前网上有个段子，讲的是美国有一个程序员，找了一些中国的小公司，把工作外包给他们，结果他自己在那边过得很开心。我在想，未来会不会出现这样的情况：我们拿着工资，然后给一些大模型，比如 CodeGeeX，充值，我的工资其实可以充好几个模型，让它们来完成工作，而我自己就可以在一旁轻松快乐地生活，也许这样的日子真的会到来。

傅奎： 一些公司声称他们的产品是数字员工，可以接收各种需求，自动帮助开发软件。虽然未来这种趋势可能会演进，但在短期内，仍然需要人类的参与。

黄闻欣：我想稍微泼一点冷水。我自己在使用这些工具时，比如 O1，虽然代码能写出来，也许也能执行，但在我看来，性能一般。这可能和数据偏见有关，训练样本的性能是否真的高，如果你再写一个提示词，要求它改成性能好的代码，也是可以的。但这样对我来说，不就是在给模型厂商送钱吗？

另一个问题是，当我使用这些模型时，我总是想更偷懒。比如，我提一个需求，希望它输出一个完整的前后台项目。我试过 Cursor 等工具，但都没有特别满足我的要求。这可能和提示词有关，但我也看了一些演示，很多时候，你得要描述一个模板，比如“像 Discord 一样”或“像 WeChat 一样”。如果你提一个很独特的需求，比如“这个字后面怎么样，然后再出来一个什么东西”，这可能就比较难描述清楚，模型也理解不了。

我们专门训练过 SQL 模型后，我发现在处理多表连接这件事上，尤其是大宽表，还有提升空间。我不知道现在解决得怎么样，但我们当年用的时候，效果一般。对于复杂的多表查询，尤其是大宽表，都不是特别行。而且这里面还有很多困境，比如你写代码时，代码很长，需要用各种方式去提供更多的上下文，其实都是为了解决这些问题。数据库也一样，有 Metadata，除了 Metadata 之外，还要有对应的输出，比如七日用户留存。谁知道七日用户留存是什么，AI 不得理解嘛。如果你要出一个 2 日用户留存，或 2.5 日用户留存，那它肯定就蒙了。虽然有很多解决方案，但目前还没有智能到可以忽略那些所谓的 RAG、CoT 等解决方案，就能非常畅快地使用。未来有没有可能呢？我觉得也许是有可能的。我早期其实一天到晚在团队里说 autogpt，现在我对这个事情比较保守，会自己先用一下看看行不行。

大模型未来发展与挑战

丁雪丰：我接下来想讨论的是大模型未来发展的挑战。后续大模型技术本身的研发以及在各个领域的应用，主要面临的挑战是什么？在 QCon 大会上也讨论了异构计算的问题，比如如何使用华为的昇腾等国产 GPU，而不是依赖英伟达的 GPU。在模型计算时，如何进行适配，这可能是国外不一定会遇到的挑战。

傅奎： 我的公司不算大，买不起昂贵的显卡，因此在我的公司里，不可能有资源去改进训练模型或提升模型本身的性能。刚才我们提到了算力的问题，这肯定是大家持续不断追求的目标，也是显卡厂商一直在赚钱的领域，这肯定是一直在发展的。

从大模型本身的算法来说，各大模型厂商虽然都基于 Transformer 架构，但可以在训练自己的模型时尝试去改进它，这是可以进一步努力的方向。还有一点是数据，就是你有多少数据可以提供给模型进行训练。像百度、腾讯这样的大互联网公司，在互联网发展的十几年、二十几年中积累了大量的原始数据，包括文本、音频、视频等，在这方面它们有先天优势。对于那些没有那么多数据的公司来说，实际上不可能训练出一个好的通用模型。

至于垂直领域的模型，我个人持反对意见，我不认为一定要训练一个垂直领域的模型。如果大模型、通用模型的能力足够强，它可以在任何领域都成为专家，不需要单独训练，需要的是在特定领域使用时对它进行微调，这就需要提供行业专有的数据。在信息网络安全领域，大家比较关注的是常见的攻击手段，比如互联网上各种黑客攻击的工具，在攻击时发出的特征包及其特征。这是大家比较关注的，这是一种。第二个是内部 IT 流量大数据分析，常见的活动有哪些特征是关键的。我相信一些安全厂商过去是有积累的，包括防病毒的、流量匹配的、攻击扫描器的验证等，这方面是有积累的，但也不是每个厂商都有这方面的积累。

对于大多数公司，包括我现在所在的公司，我们更多地尝试的是想办法把模型在场景里用好。当然，这也很难，你可能在一个场景里用成功了，明天别人也克隆了，因为这个上面没有壁垒，无论是算力、数据还是模型，这些都是现成的，只不过是场景。所以对于大多数公司来说，要想办法把模型、场景和自身原有的产品去结合，找到自身的优势，这样才有在较短时间里的壁垒。因为我认为时间跨度更长的话，大家都没有壁垒，都一样了，最终都可以输给大厂了。我认为是这样的，就是 今天我们很多人在 GPT 上做了很多 GPTs 的 Agent，然后尝试了很多应用，很多其实都是帮大厂提前探路，将来他们的产品一定会把这些功能全给实现的。

我认为模型厂商本身就已经建立了强大的壁垒，因为他们在早期就已经积累了这些优势。关键在于找到适合你的场景、适合你的数据，以及适合你自身与模型和场景对接的方式。无论是连接器还是底层的基础能力，都需要进行适配。你适配得越多，你的模型就越稳定，壁垒也就建立起来了。毕竟，很多事情还是要依靠所谓的“又脏又累的活”，这些工作需要人工去完成。

黄闻欣： 刚才提到垂直大模型和大模型的时候，我突然想到了“灵活用工”。现在不是在追求降本增效，可以把大模型比作本科生，而垂直大模型模型则像是经过微调的专科生，可能他们在专升本后选择了一个专业，或者是那些高中考不上大学而上大专的学生。现在就像企业老板说：“我不需要本科生，也不需要研究生，我只要大专生。”大专生经过培训后也能胜任工作，这就是灵活用工的体现。而一些公司，比如奈飞，则会选择招募全球最优秀的人才，这又是另一种策略。因此，我认为这种现象将长期存在，其背后的逻辑在于你追求的是效率还是创新。在追求创新时，你可能会要求使用最强的大模型，而在追求效率时，你可能就需要灵活用工。

回到刚才提到的挑战，我认为第一个挑战是数据污染。现在市场上 AI 生成的数据越来越多，但其中很多数据实际上是无法使用的。虽然腾讯等大公司拥有大量数据，但很多数据并不具备实际的使用价值。我们之前分享过，金融和医疗行业的数据相对来说比较可用，因为它们有严格的风控流程，确保数据质量。比如，我和某国际大银行的人聊过，他们在数据分析应用方面非常轻松，因为他们有高质量的审查日志。对于我们很多互联网公司来说，早期很多时候都是在“跑马圈地”。数据的标准化和质量往往很一般，随便收集的数据可能会导致“垃圾进，垃圾出”。因此，数据的困境确实是一个重大挑战。

另一个未来可能最难解决的问题是大语言模型的不确定性。这与 Transformer 模型的概率特性密切相关。虽然我们可以理解人也会犯错，但作为老板，我们不希望员工犯错。同样，我们也不愿意使用一个经常出错的模型。大语言模型确实会存在这种随机性，不知道未来是否有可能解决这个问题。通常，难以解决的问题本身就即是优点也是缺点，所以我认为不确定性就是大语言模型面临的一个难以解决的问题。

丁雪丰：大家刚才讨论了老板通常都想知道手下员工的工作表现如何，对公司的贡献有多大，工作是否做得好。我们通常会通过绩效考核来评价员工，那么未来我们是否也会对 AI 进行绩效考核呢？我们需要衡量 AI 的落地效果如何。我相信百度在这方面有一定的经验，因为你们肯定要参与投标和竞标。百度通常会如何展示自己的优势，如何具体说明自己的好处呢？

马根明： 我来解释一下我们如何评估智能平台的智能体或者大模型的好坏。首先，我们需要一个标准或规范来定义智能体的好坏。如果一个标准是模糊不清的，既不能明确指出好在哪里，也不能明确指出不好在哪里，那么这就不是一个好标准。以文心智能体为例，它有一套成熟的评估体系。我们会根据智能体的表现将其评定为优、良、中、差几个等级，并看它属于哪个档位。评估过程相当复杂，因为传统的方式已经发展多年，我们可以根据内容的相关性、丰富度、体验等多方面进行评估。但智能体和大模型不同，它们输出内容有很大的不确定性。可能我想要的是一个结果，而它给出了另一个结果，或者我调整后它输出了一个符合我预期的结果，但随着大模型升级或智能体的提示词更改，输出的结果又不符合我的预期了，这就是退化。在这个过程中，我们需要构建一个评估集，而评估集需要大量的数据。这些数据从哪里来？现在的方式可能是基于大模型去生产一批数据，我们找一批 query 让大模型回答，然后基于这些结果作为评估集去评估。但这种方法的可靠性和准确度并不高，因为大模型的回答也不一定准确，尤其在跨行业或专业性要求高的情况下。因此，我们很难构建一个好的数据集去做评估，这可能涉及到需要很多人工标注人员去做数据标注，或者定向数据生产来做评估。这个过程也是在逐步进化的。

我们目前采用几种方式：一是通过用户点击反馈的后向反馈数据；二是开发者可以主动编辑一些数据；三是利用百度搜索多年来积累的数据，提炼出好的数据，将这几部分整合成一个评估集，来评估智能体验或大模型的好坏。通过这个评估集打分，我们还需要一个人工复核的过程去确认打分是否准确。最终，我们能够定义出智能体或大模型是好还是不好的一个结果。

丁雪丰： 站在老板的角度来看，在选择使用一个产品或服务之前，通常会有很多参考依据，比如供应商自己给出的评分和排序，这些都显示了产品的性能和效果。一旦决定使用，产品就脱离了原来的环境，进入了企业内部的实际运作中。假设产品已经运行了半年，老板想要回顾产品是否像之前所说的那样，在企业场景中也能有良好的表现。如果采用的是后付费模式，即按效果付费，那么就需要有一个明确的指标来判断产品是否符合预期。如果需要推荐一个指标来判断产品的表现好坏，这个指标可能与售前提供的指标有所不同。因为实际应用中的环境和条件可能与售前测试时有很大差异。

马根明： 我认为这个过程是双向的。首先，当你使用了一个产品，自然会有自己的评判标准来决定它是好是坏。在正常情况下，我们都会进行一系列的评估和对接。例如，客户使用了我们的服务后，我们会提供一个评估结果，告诉您这是一个 8 分的产品或者是 10 分的产品。在这个过程中，我们也会持续进行跟进和维护。

同时，客户在使用产品的过程中肯定会有反馈。比如，当产品接入到某个应用中，用户会根据使用体验给出好或不好的反馈。我们需要根据这些反馈去调整和优化服务，让整个流程运转起来。每个公司的评价标准可能都不一样，因此我们需要对齐这些标准。这样，我们可以根据您提供的反馈和我们的评估结果，持续优化产品，确保它能够满足客户的期望，并证明它的价值，从而合理地确定是否符合付费标准。

黄闻欣： 我现在是做面向企业的业务的，我之前是一个纯粹的技术人员，但现在我需要销售产品。作为一个销售人员，我给出的答案可能比较功利，对我来说无非就是两个点：要么帮你赚钱，要么帮你省钱。对于 AI 模型来说，帮你省钱可以理解为帮你节省多少人力。帮你赚钱则是在固有人力下帮你多赚了多少钱。但是我们要知道，纯粹的省钱思路是走不远的，作为销售你也会发现客户企业内部的阻力，归根结底创造价值才是根本和未来。

至于评价 AI 员工，在这个学术界，本来就会有很多指标来评价。前面我说过把 AI 比作学生，这里我突然想到，我们可以从教育行业的角度来看待这个问题，我们是怎么评价一个学生的？在高考中，我们有选择题、填空题、主观题和写作题。你们在企业中应用 AI 时，是在做选择题、填空题、还是在写作？如果是写作，你通常会列出一些比较空的标准，比如只要符合题目、语句通顺、没有错别字等。但如果是政治的问答题，你的标准就不一样了，你会有一个最佳答案，并且有一个评分标准，比如必须提到主要矛盾，必须提到马克思主义等具体的评分标准。至于填空题和选择题，答案就很明确了。

我使用这么久，我给出的答案是，我们使用的场景百分之八九十都是选择题、填空题和主观题。我们给出的测评集合都是这种，或者说之前他们想要给我一些符合逻辑的评分，那些像评作文的评分方式都被我拒绝了，因为我感觉那没什么用。最后大部分还是像我刚才说的那种考试方式，你不可能让作文占很大的评分比例。

傅奎： 对于模型的评价，我们可以采用雷达图来从不同的领域和方向进行考核。这当然是评价模型的一个方面，比如在各种排行榜上，它们有一些评价机制。但从模型使用者的角度来看，如果让我来评价，我会考虑这个模型对我是否有帮助，或者在我使用后能否带来效率提升。一个简单的衡量标准就是看我下个月是否续费。如果我没有续费，那就意味着我放弃了这个模型。

此外，还可以通过其他一些指标来评价模型的效果，比如推荐结果的采纳率，以及需要反复纠正的次数。这些指标可以帮助我们更全面地理解模型的性能和实用性。

丁雪丰： 我最近完整地听了上次 QCon 的晚场讨论。在讨论中，嘉宾提出了一个问题，关于使用 AI 模型生成的代码的接纳率。他们的目标是达到一个相当高的比例，虽然超过 50% 可能不太现实，但目前的采纳率大约在 30% 左右。我个人认为，30% 的比例在当前阶段是有可能的，因为很多代码生成的场景中，这个比例已经算是不错的表现。

现在让我们回到趋势的话题上，我们探讨一下未来可能的新亮点在哪里。大家讨论时提到了一个有趣的想法，比如翻译狗的语言，理解狗叫的含义，这当然是一个开脑洞的想法。那么，除了这些，你们认为还有哪些新的点、新的方向、新的趋势可能会出现呢？

现场观众反馈： 感谢几位嘉宾分享了如此精彩的想法。虽然我不是 AI 领域的专家，但我一直在思考这个问题。大模型与我们人类社会存在一些区别。人类社会由相对独立的个体组成，这些个体之间存在有时间线和因果关系的互动。每个个体都有一个所谓的世界模型来描述它，比如人、自行车、汽车等。如果一个完整的模型要描述一个事物，它需要非常细致。

目前，大模型在我看来是一个概率矩阵，这是我个人的认知。我推测，未来的人工智能可能不会仅仅基于大模型，而是基于不同概念的世界模型之间的互动，能够展示出因果关系等元素的一种方式去演进。这意味着未来的 AI 可能会更加注重模型间的交互和对现实世界因果关系的学习与模拟。

傅奎： 如果不提大模型，而是讨论人工智能的未来突破，那么这些突破将必然依赖于数学、物理学、神经科学、脑科学等多个领域的综合知识。只有当这些知识融合在一起，才能实现真正的突破，从而产生具有强大能力的人工智能体。至于它们是否具有智慧，现在还不得而知，但它们的能力将非常强大。

就目前而言，我们讨论的大语言模型仅仅是语言模型。正如最近苹果公司发表的文章所指出的，大语言模型在某个阶段内仍然缺乏真正的底层逻辑或能力。它们没有真正的思考能力，最终会达到一个瓶颈期。虽然这个瓶颈期的能力已经非常强大，但仍然是有限制的。如果想要实现与人类相似的逻辑能力、思考能力，甚至情感等各方面的能力，我相信这肯定需要其他技术领域的融合才能进一步发展。

黄闻欣： 最近有几篇论文非常有趣，可能与我们讨论的内容有一定的相关性。其中一篇是 Ilya Sutskever 推荐的研究，名为“柏拉图假象”。这引出了一个哲学问题：语言限制了我们对世界的描述，而语言背后可能正是数学。大语言模型似乎能够窥探到跨越语言的本质。

关于人与 AI 模型的区别，我在想，人类或许也是一个复杂的概率模型。就像风水算命中所说的缘分，两个人之间的关系和结果，都是由一系列概率事件构成的。

当我们谈论多轮对话的效果时，会发现两个 AI 模型不断沟通时产生的上下文会影响后续的输出，这就是连接的重要性。此外还有另一个模型叫做 DIKW 模型，它描述了数据、信息、知识和智慧之间的关系。数据是零散的，信息是有价值的数据，知识是连接信息，而智慧则是知识之间连接的产物。大语言模型所做的，就是将词向量按概率连接起来，这种连接跟上面所说的更像是个降维的版本。如果 AI 要达到智慧层面，可能还需要更多的知识关联。举个有意思的例子。

我自己在使用大语言模型时发现，它在某些方面非常需要智慧，比如脱口秀中的笑话，这是人类智慧的最佳体现。让 AI 写笑话通常不好笑，但有些模型，如外网专门写笑话的 Prompt，通过逐步描述事物之间的关联，尝试产生知识和知识之间的关联，从而产生智慧。因为智慧是知识之间关联产生的，虽然有一定的概率可能产生出来，但并非总能成功。

讨论 1：非 AI 开发人员如何入门，会不会被 AI 取代

丁雪丰：我们在设计问卷时涉及到了一个问题：“你是大模型从业者吗？”答案有“是”或“不是”。实际上，还是有很多人选择“不是”。对于那些可能在 IT 领域或者不在 IT 领域，只是用过大模型的人，现在是否是开始入门并进入大模型行业的好时机？如果现在是，那么这些同学应该从何处着手学习大模型相关的内容？如果他们学习并不是特别工作驱动的，也就是说，他们只是出于兴趣想要学习，那么应该如何学习呢？

马根明： 我之前在一次直播中被问到 AI 是否会取代程序员，我当时的回答是不会。因为 AI 实际上可以增强程序员的能力。如果一个初级程序员不向 AI 方向发展，他可能被取代。但如果一个程序员懂得 AI，并且能够让 AI 为工作增效，那么 AI 对他来说就是一个强大的工具。就像刚才提到的，GPT 可以帮助写材料、写代码等，对我来说是一种增强。

对于那些没有接触过大模型的人，如何入门呢？最简单的方式是，比如到文心智能平台，开发一个智能体，可能 10 秒钟就能开发出一个智能体，你只需要把你的想法表达出来，你不需要考虑提示词是什么，因为平台会帮你生成提示词。如果提示词效果不好，你再去了解，再去调整，这样你就可以从一个很轻松的地方开始入门。但如果想要做得更好、更精细，可能还是需要学习一些底层的知识，比如大模型如何调优，为什么要做 SFT 等。这些都是需要逐步了解和提升的过程。

黄闻欣： 在哲学上，当我们面对非此即彼的情况时，这通常被称为二元论。如果将这两个对立面融合起来看，你会发现它们实际上是同一件事。作为一名研发人员，我经常面临一个困惑：不要总是想着 AI 会不会取代你，而是应该思考你现在创造的价值有多少。你可能并没有创造太多价值，不要认为你写代码就很有价值。如果没有公司这个大平台，你一个人出去发布 APP 到 App Store 或 Google Play，你可能赚不到钱，可能根本没人用你的产品。那你的问题出在哪里？可能是你没有想法，不懂产品，不懂营销，甚至不知道如何在 APP Store 发布产品。现在 AI 可以帮助你，如果你真的那么厉害，一个人就像一家公司，那你为什么不行呢？即使公司解雇了你，你在外面也许能活得更好。但现实情况并非如此。所以，有时候并不是说被 AI 取代，而是本来就能力不足，包括我自己在内，我之前在腾讯做到总监，也是一步一步走上来的，有时候我也会警醒自己：是不是因为这个平台给了我很多资源，我才有所成就？如果这些资源没有了，我是否能够独立生存？在 AI 时代，大家需要重新审视自己的能力是否真的那么好，是否真的到位，是否真的能在后续的竞争中立足。我还有一个更极端的观点：如果 AI 这么容易就替代了你的长处，那证明那根本就不是你的长处。

讨论 2：AI 对人类构成威胁只是杞人之忧吗？

现场观众反馈：有一个问题我一直不太理解，就是关于 AI 未来与人类的关系。比如马斯克，他最初与谷歌有合作关系，但后来他认为谷歌没有对 AI 的发展保持足够的警惕，觉得他们没有意识到 AI 的危险性。但从我的角度来看，到目前为止，AI 似乎一直在为人类带来福祉，我并没有感觉到它有什么危险。最近，就连诺贝尔物理学奖得主，退休后也在关注 AI 可能对人类构成的威胁。作为一个普通人，如果我只从使用大模型的角度出发，我应该如何理解他们的这种担忧呢？

傅奎： 假设一下，如果你现在穿越回到古代，手持一把冲锋枪，这把枪可以比喻为你手中的 AI 技术。这样的技术既能用来做好事，也可能被用来做坏事。因此，我认为 AI 的风险还是相当大的。它的强大能力如果被用于正面的目的，可以带来巨大的益处；但如果被滥用，也可能造成严重的后果。

黄闻欣： 人们更害怕的是 AI 具备了主动性，我们担心的是 AI 一旦有了主动性，可能会自行其是。比如我之前和一位做 GPU 性能测试的同事讨论，我告诉他你永远都不会失业，因为你是 AI 的医生。他问我 AI 是否有可能未来自己生产一个医生来治疗自己，我认为这不是没有可能，如果真的发生，那确实会非常危险。

我对 AI 的看法很简单：AI 的一切行为都应该围绕人的需求展开。人不需要的事情，AI 就不应该做；AI 只应该做人类让它做的事情。这样，AI 就像一个好员工，一个完全听从指挥员工，你只需按照我的指示行事。

就像《三体》中描述的，我相信现实中也会有两派人：一派是降临派，另一派则是像我们这样反抗的，不希望看到 AI 完全掌控一切。因此，我在使用 AI 时，通常会给出非常明确的指令，不需要 AI 去想象，只需要按照我的要求去做。如果 AI 的表现稍有不符合要求，我就会责怪它，笑称它为“垃圾”。这或许有点像对 AI 进行 PUA 吧？

马根明： 从我们的日常生活来看，AI 带来的不安感主要有两个方面。一方面，很多工作会被 AI 取代，比如许多工厂已经实现了自动化，不再需要大量人工，可能只需要几个人进行监督。还有，比如一些餐厅现在用机器人来送餐。当这些工作都被 AI 或机器人取代后，人们会问：这么多人能做什么？这引发了很大的问题，比如大量人员失业，失业后他们能做什么？失业可能导致他们没有收入，生活难以为继。

另一方面，如果机器人发展出自主意识，能够像人一样思考，甚至有了人的外表，坐在你旁边你都无法分辨是机器人还是真人，这时情况就非常危险了。因为如果他们有了自主意识，再加上反叛意识，就可能极度威胁人类安全。

总的来说，无论是从失业问题还是从机器人的自主意识角度来看，AI 的发展都需要在可控的范围内进行。如果不可控，那么危险性就会大大增加。因此，我们在发展 AI 的同时，必须考虑如何确保其发展方向和应用是安全的、对人类有益的。

丁雪丰： 谈到失业这个话题，我们还是需要辩证地看待问题。新技术的出现确实会淘汰一些旧的职业和岗位，但同时也会创造一批新的岗位，所以我们不必过于悲观。感谢大家的陪伴，进行了这么多的交流，也结识了这么多的朋友。在未来的日子里，让我们携手共进，向着美好的星辰大海，去追寻诗和远方。

嘉宾介绍

丁雪丰，美团金融服务平台研究员，极客时间《玩转 Spring 全家桶》课程讲师，腾讯云最具价值专家。活跃的技术图书作译者，出版了《学透 Spring》、《Spring Boot 实战》、《RESTful WebService Cookbook 中文版》等 9 部图书，致力于推动优秀技术在国内的发展。

马根明，百度架构师，文心智能体平台技术负责人。在工程建设和分布式系统有着十几年的研发经验，负责过百度智能小程序、文心智能体平台等工程架构，目前主要研究方向涉及 AI 原生应用、基于 LLM 的 Agent 等领域。

黄闻欣，腾讯技术总监，腾讯云可观测 RUM 负责人。自 2009 年加入腾讯以来，参与多个项目的性能测试和优化，如腾讯微博、MAC QQ 等。目前专注于腾讯云产品的性能工程体系建设，致力于结合生成式 AI 技术和工具将性能工程经验普惠更多工程师，帮助他们优化产品性能体验，降低硬件资源成本。同时，作为生成式 AI 的深度实践者，自研产品 Fibona AI，努力把它融合到日常工作流程和负责的产品中，打造个人分身，武装技术团队。

傅奎，雾帜智能联合创始人 & CTO，18 年网络安全行业从业经验，前千寻位置信息安全负责人。曾服务于安全产品厂商、安全服务商、世界 500 强公司、纽交所上市公司和大规模基础设施服务商。具备丰富的攻防实战技术经验；积极参与开源安全项目，2009 年出版《黑客攻防实战秘技》，阿里云 MVP 项目全球首位成员。目前正带领团队打造革命化的安全运营产品，帮助安全团队使用自动化和智能化的手段开展高效安全运营。

创作场景