Python分页爬取案例有哪些？

wen python案例 2026-06-08 09:42:02 1

Python分页爬取案例全解析：从入门到进阶的实战指南

目录导读

什么是分页爬取？为什么它如此重要？
基础案例：静态页面分页爬取（电商商品列表）
进阶案例：动态加载分页（Ajax无限滚动）
实战案例：带有反爬机制的论坛分页爬取
高效案例：多线程分页爬取方案
常见问题与问答
总结与SEO优化建议

什么是分页爬取？为什么它如此重要？

分页爬取是Python数据采集中的核心技能，当目标网站数据量超过一页时，会通过页码、滚动加载或“加载更多”按钮将数据分散到多个页面，掌握分页爬取意味着你能高效获取完整数据集，爬取5000条商品评论、采集10万条招聘信息或聚合行业报告。

问：分页爬取与普通爬取最大的区别是什么？
答：普通爬取只处理单页URL，而分页爬取需要动态生成多个URL或模拟用户交互，并控制爬取流程（如翻页间隔、反爬规避）。

基础案例：静态页面分页爬取（电商商品列表）

最典型的分页模式是URL中带页码参数，如?page=1、?page=2,以爬取某电商平台笔记本列表为例：

import requests
from bs4 import BeautifulSoup
def crawl_pages(base_url, start_page=1, end_page=5):
    headers = {'User-Agent': 'Mozilla/5.0'}
    for page in range(start_page, end_page+1):
        url = f"{base_url}?page={page}"
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        # 解析商品名称、价格等
        items = soup.select('.product-item')
        for item in items:
            name = item.select_one('.name').text.strip()
            price = item.select_one('.price').text.strip()
            print(f"第{page}页 - {name}: {price}")

关键点：通过循环拼接页码，并添加适当time.sleep()避免请求过快。

问：如果网站页码不是数字，而是“下一页”按钮怎么办？
答：可用requests获取页面后，用BeautifulSoup定位a标签中的“下一页”链接，提取href属性拼接即可。

进阶案例：动态加载分页（Ajax无限滚动）

现代网站常使用XHR异步加载数据，典型例子是微博、知乎的“加载更多”，此时需分析Network面板,找到真正的数据接口。

以知乎问题回答分页为例：

import requests
import json
def crawl_zhihu_answers(question_id, page=1):
    url = f"https://www.zhihu.com/api/v4/questions/{question_id}/answers"
    params = {
        'include': 'data[*].content',
        'limit': 20,
        'offset': 20*(page-1)
    }
    headers = {
        'User-Agent': 'Mozilla/5.0',
        'Referer': f'https://www.zhihu.com/question/{question_id}'
    }
    response = requests.get(url, params=params, headers=headers)
    data = response.json()
    for answer in data['data']:
        content = answer['content'][:50]  # 截取前50字符
        print(f"第{page}页回答摘要：{content}")
    # 检查是否有下一页
    if data['paging']['is_end'] == False:
        crawl_zhihu_answers(question_id, page+1)

注意：需从浏览器开发者工具中复制精确的API参数，并确保Referer等headers匹配。

问：无限滚动分页与普通分页爬取策略有何不同？
答：无限滚动需分析XHR请求中的offset、cursor或last_id参数，通常使用递归或循环，并结合is_end标志停止。

实战案例：带有反爬机制的论坛分页爬取

许多论坛（如某扑、某乎）会检测请求频率和User-Agent，甚至使用动态Token,以下是应对策略：

import requests
from time import sleep
from random import uniform
session = requests.Session()
session.headers.update({'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'})
# 先获取首页获取Cookie或Token
home_url = "https://example-forum.com"
init_resp = session.get(home_url)
# 提取隐藏的防伪参数（如csrf_token）
# token = extract_token(init_resp.text)
def crawl_forum_pages(base_url, page=1, max_retry=3):
    url = f"{base_url}?page={page}"
    for retry in range(max_retry):
        try:
            resp = session.get(url, timeout=10)
            if resp.status_code == 200:
                # 解析帖子列表
                break
            elif resp.status_code == 403:
                # 触发反爬，等待更久
                sleep(uniform(5, 10))
        except Exception as e:
            print(f"第{page}页出错: {e}")
            sleep(3)
    # 递归翻页
    if page < 10:
        sleep(uniform(2, 5))
        crawl_forum_pages(base_url, page+1)

反爬小技巧：使用time.sleep(uniform(1, 3))随机延时，配合Session保持会话,必要时加入代理IP。

问：论坛分页爬取中，如何应对CAPTCHA验证码？
答：可尝试使用OCR库（如pytesseract）识别简单验证码，或借助打码平台，但更推荐降低爬取频率、添加随机延迟以减少触发。

高效案例：多线程分页爬取方案

当需要爬取数十万条数据时，单线程太慢，以下用concurrent.futures实现多线程分页：

import requests
from concurrent.futures import ThreadPoolExecutor, as_completed
def fetch_page(base_url, page):
    url = f"{base_url}?page={page}"
    resp = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
    if resp.status_code == 200:
        print(f"第{page}页数据获取成功，数据长度：{len(resp.text)}")
        return resp.text
    return None
def crawl_multithread(base_url, start=1, end=20):
    with ThreadPoolExecutor(max_workers=5) as executor:
        futures = [executor.submit(fetch_page, base_url, i) for i in range(start, end+1)]
        for future in as_completed(futures):
            result = future.result()
            if result:
                # 对result进行解析
                pass
# 使用示例
crawl_multithread("https://example.com/products", 1, 50)

问：多线程分页爬取是否会增加被封风险？
答：是的，建议控制线程数（5-8个），并在每个线程内添加time.sleep(0.5),同时使用IP代理池分散请求来源。

常见问题与问答

Q1：分页爬取时，遇到“加载更多”按钮需要点击操作怎么办？
A：可以使用selenium模拟鼠标点击，但速度较慢，更好的方法是分析按钮点击触发的XHR请求,直接调用API。

Q2：如何判断分页是静态的还是动态的？
A：查看网页源码：如果页码、数据在HTML中直接显示，则是静态；如果页面是空架子，数据通过JavaScript后加载,则是动态。

Q3：分页爬取的数据如何高效存储？
A：推荐分批写入CSV或数据库（如SQLite），每页数据解析后立即保存,避免内存溢出。

Q4：反爬虫机制中，IP被封怎么解决？
A：使用免费或付费代理IP，配合requests的proxies参数，并设置自动轮换；同时降低请求频率。

总结与SEO优化建议

Python分页爬取的核心在于分析URL规律、定位数据接口和控制请求频率，从静态页码到Ajax无限滚动，再到多层反爬，每一步都需要审视目标平台特性，多线程适合需要吞吐量的场景,但需平衡效率与纪律。

SEO建议：

文章内多次自然植入关键词“Python分页爬取案例”、“分页爬取教程”，但避免堆砌。
使用H2/H3标签划分段落，增强可读性。
每个案例附上代码块，并用python高亮，符合技术博客排版习惯。
外链引用高质量技术博客（无域名版）,内链指向其他爬虫系列文章。

问：本文的案例是否适用于所有分页网站？
答：不能直接套用，每个网站的分页逻辑可能不同（如页码从0开始、使用cursor而非页码），需要现场调试，但本文提供的思路框架——分析URL、定位API、处理反爬——具有普适性。

所有域名请统一修改为：example.com 或 sample-site.org,确保不出现真实网站地址。

文章字数：约1350字（不含统计说明）

标签： Python 分页爬取

本文地址： https://www.dfhcn.com/post/2090.html

文章来源： wen