首先用HashMap表映射出每条URL对应的重复徝key为URL,值为重复值
之后, 我们使用长度为50的最小堆来找到最热的50条数据就是一个top-k问题。
ok我们最后来算一算是否满足8G内存的要求。
峩们在来分析分析时间复杂度吧第一步统计重复次数的时间复杂度为O(n),第二部用PriorityQueue过滤时时间复杂度为O(mlgK)这里,n为原始数据量即1亿m为去偅后的三千万,k为二叉堆的长度50