V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
cdxem713
V2EX  ›  分享创造

这两天在学 Python,写了一个 Pixiv 热榜的爬虫,不知道有没有人感兴趣

  •  
  •   cdxem713 · 2015-09-29 16:03:44 +08:00 · 6055 次点击
    这是一个创建于 3372 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不得不感慨二次元才是第一生产力,废寝忘食的各种查资料,总算是写完,能够正常运行了。

    整体功能比较简单(简陋)。就是抓取热榜列表页,遍历提取其中的 illust_id,并组织成对应的 pixiv 详情页,在详情页中抽取出大图的地址,通过 ImagePipeline 来下载图片。 PixivMetaPipline 实现了 Item 的本地存储。

    最后生成的目录结构如下:

    daily
    ├── 20150901
    │   ├── full
    │ │ ├──97b4941fjw1e44ghlhrwdj20tk15o7r7.jpg
    │ │ ├──......
    │   └── meta.json
    weekly
    ├── 20150901
    monthly
    ├── 20150901
    .....

    GITHUB 地址: pixiv_crawl

    15 条回复    2015-09-30 14:27:25 +08:00
    lidonghao
        1
    lidonghao  
       2015-09-29 16:45:35 +08:00
    up~
    TheC
        2
    TheC  
       2015-09-29 16:57:45 +08:00   ❤️ 2
    作为曾经造作这个轮子的人...感叹一句这个轮子真的已经被造过无数次了

    顺便给我的轮子打个广告: http://rakuen.thec.me/PixivRss/
    cdxem713
        3
    cdxem713  
    OP
       2015-09-29 17:07:23 +08:00
    @TheC 总的来说是比较经典的应用了。
    PIXIV 对爬虫也比较宽容,之前没有对请求做限制的时候 IP 也不会被封。
    Starduster
        4
    Starduster  
       2015-09-29 17:25:21 +08:00
    唔其实我也是想在学 Python 的时候做 P 站爬虫的 233 感觉已经看过很多人做了
    cdxem713
        5
    cdxem713  
    OP
       2015-09-29 18:01:05 +08:00 via iPhone
    @Starduster 需求驱动(・ω・)ノ
    geew
        6
    geew  
       2015-09-29 18:31:35 +08:00
    @TheC 居然还提供 RSS 简直赞 话说官方有 rss 么
    nikubenki
        7
    nikubenki  
       2015-09-29 18:47:54 +08:00 via iPhone
    可不可以爬不在链接里的图呢
    cdxem713
        8
    cdxem713  
    OP
       2015-09-29 19:39:24 +08:00
    @nikubenki 额,不在链接里是指?
    nikubenki
        9
    nikubenki  
       2015-09-29 19:42:26 +08:00 via iPhone
    @cdxem713 就是说服务器里有这张图,但是没有链接指向它。
    LancerComet
        10
    LancerComet  
       2015-09-29 19:44:20 +08:00
    @TheC B 站基佬?
    Velacielad
        11
    Velacielad  
       2015-09-29 20:26:46 +08:00
    hhhh 我一开始学爬虫第一个程序也是爬 P 站日榜
    cdxem713
        12
    cdxem713  
    OP
       2015-09-29 20:48:23 +08:00 via iPhone
    nccer
        13
    nccer  
       2015-09-29 21:18:12 +08:00
    我的第一个爬虫是爬我们学校的成绩表和个人信息
    deadEgg
        14
    deadEgg  
       2015-09-30 08:36:37 +08:00
    赞!
    TheC
        15
    TheC  
       2015-09-30 14:27:25 +08:00
    @geew 我一直觉得正是因为官方不提供 rss 才造成前前后后这么多人去爬 Pixiv 排行 233
    @LancerComet 是 B 站不是基佬!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3658 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:36 · PVG 12:36 · LAX 20:36 · JFK 23:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.