2 月 26 日,OpenAI Sora 正式对外开放申请。这是一个文本到视频的生成模型(即文本生成视频),可以根据用户输入的描述性提示快速生成视频,并及时向前或向后扩展现有视频,因为前期公布的视频效果不错而受到大家的广泛关注。
与此同时,与 Sora 同架构的 Stable Diffusion 3.0 也正式发布。从公布出来的测试图来看,归功于 Transformer 架构和额外的文本编码器,Stable Diffusion 3.0 的文字渲染能力十分强悍,图像的质量和整体性能同样有所提高。
这也让多模态再次成为大家关注的焦点,近一个月内有多场与之相关的直播,无数业内技术专家围绕此发表了自己的观点。那么,国内企业在这方面又有哪些具体进展呢?
与 Sora 前后脚出现的 Gemma 在过去一个月也是受到了大家的强烈关注,谷歌的 Gemma 是一个开放模型,与 Gemini 模型(以及更早的 PaLM 模型)拥有相同的技术和基础设施组件。谷歌方面称,与其他开放模型相比,Gemma 2B 与 7B 均在同等规模范围内拥有最出色的性能表现。
那么,开放模型这个概念如何理解?区别于开源和闭源,开放模型是不是将具备更好的商业前景呢?
诸如此,生成式 AI 技术的到来对整个软件生态带来了很多变化,我们也在期待未来有更多好的场景案例和技术突破出现。比如,Agent 是否会在 24 年出现“现象级”的应用?可能是在 C 端还是 B 端?或者开发者日益喜欢的智能编码工具还可能朝着哪些方向演进?数字人是否会有实际的商业落地场景?角色构建又有哪些新的进展?微调工程师还是否是一个好的选择?
3 月 1 日晚 19:00,InfoQ 特别策划的【QCon全球软件开发大会暨智能软件开发生态展】的启航直播中邀请了QCon大会的出品人、阿里云效、通义灵码产品技术负责人陈鑫(花名:神秀),QCon大会的出品人、白鲸开源CEO、Apache 基金会成员、TGO鲲鹏会学员郭炜,QCon大会的出品人、数势科技AI负责人李飞博士、北京极客邦科技有限公司创始人兼 CEO 霍太稳 Kevin 共同讨论上述话题(感兴趣的用户可以扫描下方海报上的预约直播二维码,先行预约)。
与此同时,直播期间购买 QCon 大会展区门票将享受 5 折优惠,大会门票将享受8折优惠。此外,3 张以上即可团购,每张门票将单独赠送案例会员季卡一张,可观看往届大会的精品演讲视频,涵盖人工智能、云原生、研发效能、架构设计、前端开发等众多领域(可以扫描海报上面的<大会福利官>二维码,提前了解相关信息)。
评论