Python爬虫防重案例有哪些？

wen python案例 2026-06-08 10:09:16 1

Python爬虫防重案例有哪些？深度解析去重策略与实战方案

目录导读

引言：为何爬虫防重至关重要
基础层防重：URL去重与集合存储
内存级防重：Bloom Filter布隆过滤器
数据库级防重：Redis、MongoDB、MySQL方案
文件级防重：基于哈希值的文件去重
分布式防重：Scrapy-Redis与Kafka集成级防重：Simhash与指纹算法**
实战问答集锦
如何选择适合你的防重方案

为何爬虫防重至关重要

爬虫在数据采集过程中，重复抓取不仅浪费带宽、消耗服务器资源，还可能导致IP被封禁，一个成熟的爬虫系统，防重机制是核心模块之一。Python爬虫防重案例在实际项目中形态各异，从最简单的集合去重到分布式布隆过滤器，各有适用场景，本文将系统梳理8大类主流防重案例，并结合代码片段与搜索引擎中的真实踩坑经验,为你提供可落地的解决方案。

基础层防重：URL去重与集合存储

案例1：基于Python set的简单去重

visited_urls = set()
def fetch(url):
    if url in visited_urls:
        return
    # 爬取逻辑...
    visited_urls.add(url)

局限：仅适用于单机、数据量较小（百万级以内）的场景,内存占用会线性增长。

优化：结合hashlib.md5压缩URL长度，但无法解决URL参数顺序不同导致的重复问题（如?a=1&b=2与?b=2&a=1）。

内存级防重：Bloom Filter布隆过滤器

案例2：使用pybloom_live实现高效内存去重

from pybloom_live import BloomFilter
bf = BloomFilter(capacity=1000000, error_rate=0.001)
def check_and_add(url):
    if url not in bf:
        bf.add(url)
        return True
    return False

原理：利用位数组与多个哈希函数，以极低误判率（false positive）换取空间效率，1000万URL仅需约12MB内存,而set需要500MB以上。

注意：误判会导致小概率漏抓，适合容忍少量缺失的场景，若需零误判,可结合数据库二次校验。

数据库级防重：Redis、MongoDB、MySQL方案

案例3：基于Redis的Set与HyperLogLog

import redis
r = redis.Redis()
# Set去重（精确）
r.sadd('visited', url)
# HyperLogLog去重（近似，极省内存）
r.pfadd('visited_hll', url)

优势：支持分布式，多个爬虫实例共享同一个Redis，HyperLogLog适合统计UV级别去重，占用内存固定12KB,可统计2^64个元素。

案例4：MongoDB唯一索引

db.collection.create_index("url", unique=True)
try:
    db.collection.insert_one({"url": url, ...})
except pymongo.errors.DuplicateKeyError:
    pass

适用：需要持久化存储爬取记录,且查询去重时效性要求不高的场景。

文件级防重：基于哈希值的文件去重

案例5：针对图片、PDF等二进制文件的去重

import hashlib
def compute_file_hash(file_path):
    sha1 = hashlib.sha1()
    with open(file_path, 'rb') as f:
        for chunk in iter(lambda: f.read(4096), b''):
            sha1.update(chunk)
    return sha1.hexdigest()

场景：爬取图片库或文档站点时，不同URL可能指向同一文件（如CDN镜像），先计算SHA1/ MD5值,若哈希已存在则跳过下载。

陷阱：MD5碰撞风险极低但存在（尤其针对恶意构造文件）,建议使用SHA256提升安全性。

分布式防重：Scrapy-Redis与Kafka集成

案例6：Scrapy框架+Redis去重中间件

Scrapy默认使用RFPDupeFilter，基于请求指纹（method+url+body的sha1），若需分布式，替换为scrapy_redis.dupefilter.RFPDupeFilter：

# settings.py
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
REDIS_URL = "redis://localhost:6379"

优化：可自定义指纹生成函数，例如忽略URL中的某些参数（如&timestamp=xxx）。

案例7：Kafka流式去重

使用Kafka消息队列，消费者通过Redis set判断msg_id是否已消费，适用于高并发抓取任务,避免重复下发相同URL。

内容级防重：Simhash与指纹算法

案例8：基于Simhash的文本相似度去重

from simhash import Simhash
def hamming_distance(hash1, hash2):
    return bin(hash1 ^ hash2).count('1')
# 计算网页标题+正文的Simhash
sh1 = Simhash(crawled_content)
if any(hamming_distance(sh1.value, stored_hash) <= 3 for stored_hash in hash_list):
    print("相似内容，跳过")

适用：新闻聚合、内容去重场景，同一篇文章可能在不同网站有不同URL，但内容高度相似，Simhash允许设置海明距离阈值（通常3-5）,返回近重复文档。

注意事项：Simhash的精度依赖于分词效果（如jieba）,中文场景建议先去除停用词。

实战问答集锦

Q1：爬虫出现重复请求，但URL相同，问题出在哪？

A：常见原因有三：①URL含动态参数（如随机数、时间戳），需先标准化；②POST请求body不同但语义相同，建议生成指纹时忽略无关字段；③Cookies或Session变化导致请求被当作新请求,可在middleware中统一管理。

Q2：布隆过滤器误判如何处理？

A：可采用两级结构：一级用Bloom Filter快速过滤，命中后再查询二级精确数据库（如Redis set），若误判可接受（如统计类爬虫），则直接使用Bloom Filter即可。

Q3：海量URL去重（百亿级），内存不够怎么办？

A：使用外置存储如Redis集群，或采用Roaring Bitmaps（ roaringbitmap 库）压缩存储整数型URL编码；还可以对URL进行分区（如按域名或首字符哈希）,分片存储在不同节点。

Q4：如何防止分布式爬虫不同节点抓取同一资源？

A：使用Redis分布式锁+去重set，或利用Kafka分区消费保证同一URL只消费一次，Scrapy-Redis中默认依赖Redis set的原子性实现全局去重。

如何选择适合你的防重方案

根据数据量与场景,推荐以下选型：

小型项目（<10万URL）：Python set + 内存去重,简单快速。
中小型（百万级）：Bloom Filter（pybloom_live）+ Redis set二级校验。
大型分布式（千万级+）：Scrapy-Redis + 自定义指纹 + Redis集群或MongoDB分片，相似去重**：Simhash + Solr/Elasticsearch存储指纹。
文件去重：SHA256哈希 + 文件数据库（如MinIO）。

实际开发中，没有银弹，建议先理解业务需求：是杜绝任何重复（如交易数据），还是容忍少量重复（如舆情监控）？再结合硬件成本、开发周期选择组合方案。

延伸思考：随着AI大模型发展，基于Embedding向量的语义去重正在兴起（如OpenAI embeddings），能够识别“内容实质相同但表述不同”的网页,这或许是新一代防重技术的突破口。

标签： URL指纹去重