2012.3.19微博热报：布隆过滤与多路归并_语言 & 开发_郑柯_InfoQ精选文章

速来报名！AICon北京站鸿蒙专场~ 了解详情 



 写点什么

登录/注册

布隆过滤与多路归并

JavaChen 发布一条可作为面试题的微博：

给你 A,B 两个文件，各存放 50 亿条 URL，每条 URL 占用 64 字节，内存限制是 4G，让你找出 A,B 文件共同的 URL。如果是三个乃至 n 个文件呢？ http://t.cn/zOMmWru

bloom filter 可以实现，但是很少使用。

HubbleDotNet ：

布隆的关键是随机数的选取要尽可能接近平均分布

BF 只是说有哪些 URL 在以前已出现过了。优点难度的是真正“找出”n 个 URL 列表中所有那些相同的 URL（聚类问题）。好办法是做一个 incremental index, 边输入边去重，正如高性能的重复网页检测

海纳百通：

我的理解是：1 布隆过滤是能“激进地”找出“很可能已存在的”URL；2 但是，在发现可能的重复后，要确定并记录下 URL，就要索引到 URL，并做全文比对；3 这个问题里还连带提到“n 个文件”。。。所以，有改进的空间吧？

bnu_chenshuo ：

毛估了一下，单机（4G 内存，双硬盘）4 个小时应该能搞定，没用到 bloom filter。

陆鑫 Lucian ：

bloom filter 是我能想到速度最快的方法了，这题的关键就是先把要处理的数据总数降低数个量级，剩下的就好办了。陈硕老师能介绍下你的思路，效率如何吗？

matrix-reload ：

用 MapReduce 方法吧

bnu_chenshuo 回复 @陆鑫 Lucian ：

你估计用 bloom filter 解决，单机花多少小时？我的思路很简单，分块（1G）排序再多路归并，在归并的同时求集合的交集。

bnu_chenshuo 回复 @如此玄妙：

多路归并用不着“最后一次归并将 2 个一样大的已排序的文件合并”。AB 两个文件，分块排成各 300 个 1G 的文件，然后同时打开这一共 600 个文件读数据，两套文件分别多路归并，并求交集，把结果写出来即可。

原题不是要求单机 4G 内存吗？“300 个 1g 文件归并的比较次数会和比 2 个 150g 文件大很多”是的，但是你那两个 150g 的文件事先要花多长时间生成？“每次取出数据，都需要在一个 300 条记录的树或者堆上进行一次排序”是的，不过这并不影响整体速度，内存处理速度只要高于磁盘读数据的速度即可

摇摆巴赫：

bloom 需要磁盘随机 IO 吧，内存里的 hash bit 相等后还得磁盘读出来看 url 是不是相同，分块排序应该是顺序磁盘 IO，我觉得哪个快要看重复率

先把这些 url 算 hash%100, 分别存到 100 个文件夹里，每个文件夹有两个文件，分别来自 A 和 B. 这两个小文件可以在内存中求交集生成小文件。最后，把这些交集小文件 cat 成一个文件。并不要求有序。

今日微博推荐

推荐理由：清华大学计算机科学与技术系在读博士；《走进搜索引擎》作者、《深入搜索引擎》译者， THUIRDB 的 Coder，个人博客地址： http://blog.csdn.net/pennyliang 。

评论

发布

暂无评论

支持向量机-线性SVM决策过程的可视化

烧灯续昼2002

Python 机器学习算法 sklearn 11月月更

既快又稳还方便，火山引擎VeDI的这款产品解了分析师的愁

字节跳动数据平台

大数据数据分析

数字化安全生产平台 DPS 重磅发布

阿里巴巴云原生

阿里云云原生数字化

前端培训程序员失业后就业方向有哪些

前端培训机构需要注意什么？

终于有阿里大牛把困扰我多年的计算机组成原理：网络通信讲明白了

小二，上酒上酒

计算机计算机原理 TCP协议

高级Java面试经验总结：多家大厂简历优化+面试题目+面经+薪酬等

Java 程序员 java面试 java编程

融云全球社交泛娱乐洞察，互联网社交换挡期的「社区产品」机遇

融云 RongCloud

膜拜！华为18级工程师用349页构建高可用Linux服务器，其实并不难

小二，上酒上酒

Java Linux 学习华为运维

听说，清华毕业大牛分享出Redis实战视频及文档，共2.3G

小二，上酒上酒

Java redis 学习路线

「案例分享」研发效能提升之第一性原理

京东科技开发者

redis flink 研发管理研发效能软件开发技术的第一性原理

AirServer2023个人免费版本下载

存算一体 VS 存算分离，IT发展下的技术迭代

数据库开源存算分离 HTAP StoneDB

干货 | 带你了解 EMC—— 什么是 EMC？

元器件秋姐

电磁兼容元器件电商华秋商城电子工程师电子科普

云原生加速器企业维格表创始人陈霈霖：提供人人可用的数字化转型全新方案，真正驱动组织创新

阿里巴巴云原生

阿里云云原生维格表

Tiktok短视频搬运运营干货技巧

新发现，新挑战，技术出海的机遇与挑战丨PingCAP DevCon 2022 出海专场

Camtasia2023全新版下载及功能介绍讲解

前端培训学习的前景怎么样

大数据培训后找不到工作的原因有哪些？

java培训学习有什么好的方法

The camera application scenrios on Wallys DR40X9 ipq4019/ipq4029 industrial 5g router

IPQ4019 ipq4029

异常检测算法分类总结（含常用开源数据集）

云智慧AIOps社区

人工智能机器学习深度学习异常检测算法模型

荣耀MagicOS 7.0正式发布！打造以人为中心的智慧生活解决方案

荣耀开发者服务平台

手机系统安卓荣耀 honor

终于学完阿里架构师推荐413页微服务分布式架构基础与实战笔记

小二，上酒上酒

Java 面试分布式微服务

年薪120W的架构师简历你见过吗？java程序员该如何达到？

小二，上酒上酒

学习架构简历规划

我说用count(*)统计行数，面试官让我回去等消息...

小小怪下士

Java sql 程序员

2023最新FL Studio中文版64位安装包下载教程

FL Studio FL Studio 21

有位大牛终于把珍藏多年的算法视频给分享出来了，总共3.81G

小二，上酒上酒

算法数据结构与算法左程云

三面阿里，被Java面试官虐哭！现场还原真实的“被虐”场景

小二，上酒上酒

面试题面经大厂面试春招

WOS新商业操作系统：中国头部SaaS的一次进阶

ToB行业头条