怎么在海量数据中找出重复次数最多的一个

2025-06-21 20:39:16
推荐回答(1个)
回答1:

假设我们可以用的内存是64M,总的数据量是1024*64M即64G。 1、首先预设1024个文件作为“桶”,依次读取原始数据的记录,每读到一条记录就进行哈希计算,获得的哈希值余上1024,把这条记录放到那个桶里,即: bucket_num = hash(record) % 1024 2