写点什么

关注数据:百度首届技术沙龙总结 (含资料下载)

  • 2010-04-13
  • 本文字数:1477 字

    阅读完需:约 5 分钟

4 月 10 日 InfoQ 中文站和百度合作举办了首届百度技术沙龙,邀请了百度 Web 开发高级工程师和豆瓣网系统程序员刘洪清分享了他们对数据交互的理解,本文简单总结了他们演讲的内容并提供了演讲资料下载。更多图文报道请参见百度技术沙龙专题

据介绍,这次是百度第一次深入社区,通过线下活动的形式和业界技术人员交流。从整个活动的策划和准备,可以看出百度已经将与社区的交流提上了议事日程。在和百度讲师黄方荣、百度产品市场经理郑昊的沟通中,他们也提到虽然百度内部经常有类似的交流活动,但和外界的交流还是比较少,这次活动是一次尝试,如果效果不错,以后会继续和 InfoQ 联合举办类似的活动。

在黄方荣的演讲中,他主要介绍了数据在 Web 发展中的重要性,即“数据交互推动着 Web 的发展”,介绍的内容点包括:

  • Server 数据推送
  • 域服务器数据交互
  • 异域网面跨帧数据交互
  • 客户端网页跨浏览器数据交互
  • 数据的压缩处理
  • WEB 前后端交互的数据格式
  • 数据交互推动着 WEB 的发展

在每个技术点中,黄方荣都列举了多个解决方案进行类比。比如在介绍 Server 数据推送时,他提到了轮询、长连接、伪长连接等不同的应用及各自特点。而对于数据的压缩处理,他则介绍了 YUI Compressor 和 GZIP 不同的应用场景。最后,他总结说在 Web2.0 时代,Ajax 大行其道,为网站提供了酷炫的交互界面,而在 Web3.0 时代,数据的交互将会更加人性化和简便。根据与会者的反馈,美中不足的是黄方荣在介绍数据交互的应用场景时,并没有比较多地涉及这些技术是如何在百度产品上使用的,这让许多慕名而来的技术人员有些失望。

刘洪清是豆瓣网的系统程序员,同时也是豆瓣开源数据存储系统 BeansDB ,这次他主要介绍了如何应用 BeansDB 来解决三千多万豆瓣用户持续增长的数据需求。豆瓣现在有超过 3800 万的用户,有 15 万个小组,430 万条目,300 万评论等,换算成后台的数据,则是 200G 结构化数据,800G 文本数据,10T 图片,6T 音乐等等。要保证这些数据 24 小时的稳定性,安全性和可用性,并不是一件易事。豆瓣采取的措施就是将数据进行分类,比如将用户信息、好友关系等归为结构化数据类型,将文本内容、图片等归为小文件类型,而日志和备份数据归为大文件类型。然后采用不同的技术来解决问题,比如结构化数据用 MySQL,小文件用 BeansDB,大文件用 MooseFS 等。

在问答环节,有读者对豆瓣广播的实现方式很感兴趣,刘洪清介绍说:

豆瓣的广播跟 twitter 等微博客收件箱的实现思路不太一样,是只保持一分广播副本, 在用户浏览的时候实时合并,依靠精巧的缓存和数据流设计,能够在用户可接受的时间范围内完成复杂的广播合并。这种方式可以大大减少数据库中的数据量和压力, 也与我们产品的某些特性配合得比较好。这种实现方式可行的前提是,用户的关注数是有限的,一般在一百左右,对社会网络的相关研究也是类似的结论。

对于 MySQL 的双 Master 如何实现,以及如何避免诸如自增 ID 等可能的数据冲突等问题,刘洪清也介绍了豆瓣的做法:

豆瓣目前的双 Master 主要是处于切换的便利性考虑,数据读写方面其实是 Master-Slave 结构,通过运维的方式来控制,同时只有一个 Master 是可写的,比如修改帐号权限等,这样就没有数据冲突的问题了。

本次百度技术沙龙的演讲资料现在已经可以下载,链接为: Web 数据交互的艺术、豆瓣数据存储实践资料下载

本次活动原计划 80 人到场,结果有 400 多人报名,近 300 人到场,组织者不得不加急调整了一个大的会议室人到场。有读者开玩笑说,百度在开拓技术社区方面开了个头彩。我们也希望类似百度这样的国内大公司能够更多地关注社区,和社区分享他们的开发经验,让信息在社区内流动起来。

2010-04-13 23:148485

评论

发布
暂无评论
发现更多内容

数智化时代,如何利用数智人力高效管理人才?

用友BIP

数智人力

当AI大模型遇见金融,这四大挑战不容忽视

索信达控股

开战在即!与全球伙伴一起打造你的数据应用,TiDB Future App Hackathon 2023 来啦!

PingCAP

数据库 hackathon TiDB

GOTC峰会Sermant发布1.1.0-beta版本,带来哪些提升?

华为云开源

#云原生 #开源 流量治理 #微服务

云小课|RDS for MySQL参数模板一键导入导出,参数配置轻松搞定

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

人体分割识别图像技术的挑战和未来发展

来自四九城儿

【有奖调研】HarmonyOS新物种,鸿蒙流量新阵地——元服务邀你来答题!

HarmonyOS SDK

HMS Core

软件测试/测试开发丨Python 控制流:循环、判断

测试人

Python 程序员 控制流 循环 判断

中企出海之宝岛台湾假勤管理

用友BIP

中企出海

中企出海台湾篇之人力需求

用友BIP

全球化 中企出海

数智赋能与低代码:是医药行业的创新引擎还是心魔歧途

加入高科技仿生人

低代码 数智化 数智化转型 数智赋能 医药行业

强强联合!中软国际携手用友,全面重构全球人力资源数字化系统

用友BIP

数智人力

你一定要悄悄学会怎么把Vimeo视频保存到手机相册,然后惊艳所有人!

frank

中企出海之宝岛台湾薪资结算

用友BIP

中企出海

遵循 CI/CD 最佳实践,让高效贯彻整个团队

极狐GitLab

DevOps 自动化 持续集成 CI/CD 持续交付

全球化财务助力跨国业务的稳定增长和持续发展

用友BIP

解析Spring内置作用域及其在实践中的应用

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

人体分割识别图像技术的原理及应用

来自四九城儿

把数字中国,建立在行业感知的底座上

脑极体

行业感知

迈向世界一流财务管理体系,全面预算管理体系不可或缺

用友BIP

财务共享

如何优雅地使用Low Code提高开发效率

引迈信息

低代码 JNPF

北京国家会计学院千人共聚一堂,大型企业财务数智化盛会!

用友BIP

智能财务 财务共享

互联网行业-镭速文件传输系统方案

镭速

百度文心一格x京东618:打造电商行业首个AI线下广告,节省80%制作成本

飞桨PaddlePaddle

百度 飞桨 AIGC 京东618

Nautilus Chain测试网迎阶段性里程碑,模块化区块链拉开新序幕

鳄鱼视界

只需 2 小时,变身 Flink 实战派:Flink-Learning实战营火热报名中

Apache Flink

大数据 flink 实时计算

打工人集体患上AI焦虑症,真的会被AI取代?

牵着蜗牛去散步

人工智能 腾讯云 腾讯 AI集训营

对标世界一流,直面全面预算管理差距

用友BIP

全面预算 财务共享

香港虚拟主机:探索网站发展的新起点

一只扑棱蛾子

香港虚拟主机

基于Spark的大规模日志分析

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 6 月 PK 榜

阿里云斩获 4 项年度云原生技术服务优秀案例

阿里巴巴云原生

阿里云 云原生

关注数据:百度首届技术沙龙总结(含资料下载)_数据库_霍太稳@极客邦科技_InfoQ精选文章