V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
leozy2014
V2EX  ›  问与答

第一帖:学爬虫爬文库,下载文库,总量初步准备 10w 级别,说思路,求指点

  •  
  •   leozy2014 · 2015-05-27 11:05:23 +08:00 · 4269 次点击
    这是一个创建于 3471 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人菜鸟,长期潜伏v2ex,发言少,近期学python,学到爬虫这块,脑洞一开,准备做个小玩意,求指点。

    总体思路:通过互刷积分,获取大量百度文库积分,用来下载文库收费内容,当下载数量超过10w后建站提供下载。

    设想步骤:
    1、互刷文库积分,用来下载收费内容
    2、用火车头采集所有类别中收费内容,按下载量顺序采集
    3、用python写爬虫,读步骤2中的文库列表,下载文库内容归档
    4、建站提供下载

    新手啥不懂,纯瞎想,求指点,求轻喷。

    13 条回复    2016-04-18 01:59:33 +08:00
    professorz
        1
    professorz  
       2015-05-27 11:21:05 +08:00
    互刷文库积分怎么做到
    leozy2014
        2
    leozy2014  
    OP
       2015-05-27 11:38:20 +08:00
    @professorz 有软件自动化,具体搜一下,见到过,忘记名字了
    lincanbin
        3
    lincanbin  
       2015-05-27 11:53:41 +08:00
    先找好律师,问问如果被版权所有人告了,会赔多少,掂量一下成本。
    leozy2014
        4
    leozy2014  
    OP
       2015-05-27 11:59:43 +08:00
    @lincanbin 谢谢提醒
    alp
        5
    alp  
       2015-05-27 12:49:31 +08:00 via Android
    手机版下载不需要积分的
    zhaoxiting1997
        6
    zhaoxiting1997  
       2015-05-27 13:56:50 +08:00 via Android
    对于不长的文档不用积分直接通过类似截图一样的方法制成PDF不是更简单。过多刷积分估计会被封。只有一下长的文档或者电子书才要用积分下载。应该做一个函数算一下。还有有些文档有完全相同的免费或便宜的文档,应当建文档名再搜索一次,根据页数和大小判断。
    另:建议选用合适位置的vps,忽略dcma的,并且加密好做好网盘备份。
    leozy2014
        7
    leozy2014  
    OP
       2015-05-27 15:20:28 +08:00
    @alp 还有个思路就是便携个手机程序,爬取下载到手机再导出。。。仅设想。。。
    leozy2014
        8
    leozy2014  
    OP
       2015-05-27 15:22:23 +08:00
    @zhaoxiting1997 这都是具体细节算法了,另外dcma是啥嘛?
    zhaoxiting1997
        9
    zhaoxiting1997  
       2015-05-27 16:32:07 +08:00 via Android
    @leozy2014 数字千年版权法。美国vps收到DCMA版权投诉,核实后会封号
    gamecreating
        10
    gamecreating  
       2015-05-27 16:47:21 +08:00
    不用担心盗版..别人告你的时候 你已经赚HI了...你如果没赚钱 他也懒得告你...
    这就是中国现状.
    alp
        11
    alp  
       2015-05-27 17:04:04 +08:00   ❤️ 1
    @leozy2014 找到手机接口就可以了,为啥非要手机下载呢。之前弄过百度文库1.0的接口。不知道还能不能用
    leozy2014
        12
    leozy2014  
    OP
       2015-05-27 19:12:03 +08:00
    @alp 对哦,我那是笨办法嘛。
    wondervendor
        13
    wondervendor  
       2016-04-18 01:59:33 +08:00
    还不如直接共享这些账号
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5339 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 05:48 · PVG 13:48 · LAX 21:48 · JFK 00:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.