V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Pantheonn
V2EX  ›  程序员

求安利好用的 Python 爬虫框架

  •  
  •   Pantheonn · 2 天前 · 1554 次点击

    舍弃了 Selenium ,目前用的是 playwright ,大家都在用什么?

    11 条回复    2024-12-03 21:31:08 +08:00
    spritecn
        1
    spritecn  
       2 天前
    requests + PyQuery,无头浏览器的话都差不多
    onll42y
        2
    onll42y  
       2 天前
    requests + parsel
    zeusho871
        3
    zeusho871  
       2 天前
    推荐用 requests 的,肯定不好使,那玩意儿不支持异步,用 httpx 可以 100%兼容,然后不能 tls 指纹,有的网站会检测 tls 指纹,找那种带 tls 指纹的请求库,比如 curl_cffi 啥的。如果不是协议爬虫,用浏览器爬的话,推荐 drissonpage 。用 selenium/playwright 有几个参数会被检测到,虽然也能做到,但是需要额外的代码。
    ospider
        4
    ospider  
       2 天前   ❤️ 2
    不要滥用「框架」这个词。使用框架的时候,主循环在框架里,你只需要写回调或者 handler ,使用库的时候,主循环在你自己代码里,显然 playwright 是一个库。
    WhateverYouLike
        5
    WhateverYouLike  
       2 天前 via iPhone
    偏题。node 的 crawlee 好用,算是框架。
    dule
        6
    dule  
       2 天前
    你说的这两只能说是工具库,自动化浏览器跟爬虫框架根本搭不上边,python 知名的基本就这两个:scrapy 、pyspider
    HMYang33
        7
    HMYang33  
       2 天前
    https://feapder.com/
    一个函数下发任务,一个函数处理结果。自动多线程
    iorilu
        8
    iorilu  
       2 天前
    现在有啥自动生成提取规则的库吗

    我上次也想过用 ai 帮忙写点规则, 要能自动化就好了
    tuoov
        9
    tuoov  
       2 天前
    @iorilu 我也很好奇,但按这块的逻辑来说挺难有一个通用方案的。每个网站的数据来源都不太一样
    iorilu
        10
    iorilu  
       1 天前
    @tuoov 从编程角度是没得

    我意思是让 ai 从获得得 html, 反推出应该用啥规则, 临时写一个
    python30
        11
    python30  
       1 天前
    scrapy 啊。一直在用 scrapy.超好用
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5884 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:27 · PVG 10:27 · LAX 18:27 · JFK 21:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.