V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zarte
V2EX  ›  问与答

存储大量网页内容用什么数据库

  •  1
     
  •   zarte · 2019-02-03 14:49:01 +08:00 · 2215 次点击
    这是一个创建于 2125 天前的主题,其中的信息可能已经有所发展或是发生改变。

    发觉之前的解决思路有问题,决定先爬取页面数据存入数据库,然后另外一个任务再一个页面一个页面分析内容提取数据。
    存储字段包括地址来源网站,页面文字内容。 目前用 mysql 加 redis 用来 url 去重

    第 1 条附言  ·  2019-02-03 16:02:49 +08:00
    先按 1-3 楼的试试
    9 条回复    2019-02-04 19:43:18 +08:00
    GeekCourse
        1
    GeekCourse  
       2019-02-03 14:56:08 +08:00 via Android
    当然是直接存到硬盘里
    jimages
        2
    jimages  
       2019-02-03 15:25:25 +08:00   ❤️ 1
    存文件吧,mysql 做 index
    yuikns
        3
    yuikns  
       2019-02-03 15:32:35 +08:00 via iPad   ❤️ 1
    大量文件存在一个目录下有时有效率问题。试试 leveldb ?
    lynskylate
        4
    lynskylate  
       2019-02-03 16:05:06 +08:00 via Android   ❤️ 1
    ...落硬盘怎么横向扩展,数据落 mongo, redis 去重。
    CSM
        5
    CSM  
       2019-02-03 16:42:28 +08:00 via Android
    如果 URL 非常多并且能容忍重复的话,可以考虑布隆过滤器。
    nicoljiang
        6
    nicoljiang  
       2019-02-04 02:55:50 +08:00
    Mysql 不就可以吗,百万千万都能存。。。
    lengyihan
        7
    lengyihan  
       2019-02-04 11:59:42 +08:00 via Android
    oracle 肯定够。
    lynskylate
        8
    lynskylate  
       2019-02-04 18:14:35 +08:00 via Android   ❤️ 1
    @CSM 布隆不会出现重复,而是有部分未爬过的 url 会认为爬过。
    CSM
        9
    CSM  
       2019-02-04 19:43:18 +08:00 via Android
    @lynskylate 噢噢你说的对,感谢感谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5018 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 05:40 · PVG 13:40 · LAX 21:40 · JFK 00:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.