写点什么

关注数据:百度首届技术沙龙总结 (含资料下载)

  • 2010-04-13
  • 本文字数:1477 字

    阅读完需:约 5 分钟

4 月 10 日 InfoQ 中文站和百度合作举办了首届百度技术沙龙,邀请了百度 Web 开发高级工程师和豆瓣网系统程序员刘洪清分享了他们对数据交互的理解,本文简单总结了他们演讲的内容并提供了演讲资料下载。更多图文报道请参见百度技术沙龙专题

据介绍,这次是百度第一次深入社区,通过线下活动的形式和业界技术人员交流。从整个活动的策划和准备,可以看出百度已经将与社区的交流提上了议事日程。在和百度讲师黄方荣、百度产品市场经理郑昊的沟通中,他们也提到虽然百度内部经常有类似的交流活动,但和外界的交流还是比较少,这次活动是一次尝试,如果效果不错,以后会继续和 InfoQ 联合举办类似的活动。

在黄方荣的演讲中,他主要介绍了数据在 Web 发展中的重要性,即“数据交互推动着 Web 的发展”,介绍的内容点包括:

  • Server 数据推送
  • 域服务器数据交互
  • 异域网面跨帧数据交互
  • 客户端网页跨浏览器数据交互
  • 数据的压缩处理
  • WEB 前后端交互的数据格式
  • 数据交互推动着 WEB 的发展

在每个技术点中,黄方荣都列举了多个解决方案进行类比。比如在介绍 Server 数据推送时,他提到了轮询、长连接、伪长连接等不同的应用及各自特点。而对于数据的压缩处理,他则介绍了 YUI Compressor 和 GZIP 不同的应用场景。最后,他总结说在 Web2.0 时代,Ajax 大行其道,为网站提供了酷炫的交互界面,而在 Web3.0 时代,数据的交互将会更加人性化和简便。根据与会者的反馈,美中不足的是黄方荣在介绍数据交互的应用场景时,并没有比较多地涉及这些技术是如何在百度产品上使用的,这让许多慕名而来的技术人员有些失望。

刘洪清是豆瓣网的系统程序员,同时也是豆瓣开源数据存储系统 BeansDB ,这次他主要介绍了如何应用 BeansDB 来解决三千多万豆瓣用户持续增长的数据需求。豆瓣现在有超过 3800 万的用户,有 15 万个小组,430 万条目,300 万评论等,换算成后台的数据,则是 200G 结构化数据,800G 文本数据,10T 图片,6T 音乐等等。要保证这些数据 24 小时的稳定性,安全性和可用性,并不是一件易事。豆瓣采取的措施就是将数据进行分类,比如将用户信息、好友关系等归为结构化数据类型,将文本内容、图片等归为小文件类型,而日志和备份数据归为大文件类型。然后采用不同的技术来解决问题,比如结构化数据用 MySQL,小文件用 BeansDB,大文件用 MooseFS 等。

在问答环节,有读者对豆瓣广播的实现方式很感兴趣,刘洪清介绍说:

豆瓣的广播跟 twitter 等微博客收件箱的实现思路不太一样,是只保持一分广播副本, 在用户浏览的时候实时合并,依靠精巧的缓存和数据流设计,能够在用户可接受的时间范围内完成复杂的广播合并。这种方式可以大大减少数据库中的数据量和压力, 也与我们产品的某些特性配合得比较好。这种实现方式可行的前提是,用户的关注数是有限的,一般在一百左右,对社会网络的相关研究也是类似的结论。

对于 MySQL 的双 Master 如何实现,以及如何避免诸如自增 ID 等可能的数据冲突等问题,刘洪清也介绍了豆瓣的做法:

豆瓣目前的双 Master 主要是处于切换的便利性考虑,数据读写方面其实是 Master-Slave 结构,通过运维的方式来控制,同时只有一个 Master 是可写的,比如修改帐号权限等,这样就没有数据冲突的问题了。

本次百度技术沙龙的演讲资料现在已经可以下载,链接为: Web 数据交互的艺术、豆瓣数据存储实践资料下载

本次活动原计划 80 人到场,结果有 400 多人报名,近 300 人到场,组织者不得不加急调整了一个大的会议室人到场。有读者开玩笑说,百度在开拓技术社区方面开了个头彩。我们也希望类似百度这样的国内大公司能够更多地关注社区,和社区分享他们的开发经验,让信息在社区内流动起来。

2010-04-13 23:148580

评论

发布
暂无评论
发现更多内容

知乎启用AutoMQ替换Kafka,开辟成本优化与运维提效新纪元

AutoMQ

Java 数据库 kafka 客户案例

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

声网

数据同步、流计算全面强化,TDengine 3.3.4.3 版本正式发布

TDengine

数据库 tdengine 时序数据库

盘点本轮牛市币价再创新高的「老山寨」

TechubNews

AI智能体的开发流程

北京木奇移动技术有限公司

AI应用 AI智能体

汽车摆臂行业生产设备数据采集及集成

万界星空科技

mes #汽车 设备数据采集 汽车摆臂行业 汽车摆臂mes

苹果m1能玩steam吗,苹果笔记本玩steam游戏教程

阿拉灯神丁

游戏 MacBook steam M1芯片 CrossOver Mac下载

TikTok账号封号原因有哪些?

Ogcloud

TikTok tiktok运营 TikTok养号 tiktok封号

Spring AI Alibaba 配置管理,用 Nacos 就够了

阿里巴巴云原生

阿里云 云原生

从仪表盘探索 MongoDB 关键指标

巴辉特

探索1688阿里巴巴API接口:揭秘商品详情与关键字搜索的奥秘

代码忍者

API 接口 pinduoduo API

企业如何挑选OKR目标管理软件?9款工具功能全面分析

易成研发中心

云数仓ByteHouse的湖仓一体设计与实践

字节跳动数据平台

大数据 数据仓库 湖仓一体

YashanDB在地理信息系统(GIS)领域的关键功能和技术优势

YashanDB

yashandb 崖山数据库 地理信息系统

判断TikTok节点IP的纯净度高不高的几个方法

Ogcloud

tiktok运营 tiktok节点 tiktok网络 tiktok封号 tiktok代理节点

YashanDB 开机自启

YashanDB

数据库 yashandb 崖山数据库 开机自启

在“黑天鹅”时代,如何锻造创业者的认知韧性?| 陶建辉演讲分享

TDengine

数据库 tdengine 时序数据库

客户案例|大模型加持智能会议,金融机构实现“写纪要”到“审纪要”的飞跃

澜舟孟子开源社区

人工智能 大模型 智能办公

翻倍只是山寨币季的点火阶段:市场分歧与未来趋势

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

人事人才信息管理系统:2024年10大推荐系统

易成研发中心

云桌面年终狂欢,多重福利等你来拿!

Finovy Cloud

云主机 云服务器 云桌面 云电脑

一行代码都不改,Golang 应用链路指标日志全知道!

阿里巴巴云原生

阿里云 云原生

定制化NFT链游DAPP开发:一站式解决方案助力游戏创新

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

工业公辅车间数智化节能头部企业,蘑菇物联选择 TDengine 升级 AI 云智控

TDengine

数据库 tdengine 时序数据库

牛客网最新的Java面试八股文通关手册

架构师之道

程序员 java面试

探索1688阿里巴巴API接口:图片搜索商品列表(拍立淘)与店铺所有商品列表的实战应用

代码忍者

API 接口 pinduoduo API

改变仿真游戏规则,Altair的AI与HPC技术创新仿真之路

Altair RapidMiner

数据分析 仿真 CAE #人工智能 altair

Supersonic 平台上线Top Creatives Library 功能,为手游开发者打造广告投放素材库

Geek_2d6073

关注数据:百度首届技术沙龙总结(含资料下载)_数据库_霍太稳@极客邦科技_InfoQ精选文章