舆情爬虫项目框架及存储选择 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1418 天前的主题，其中的信息可能已经有所发展或是发生改变。

手上有个舆情爬虫项目，需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历，查找了些资料，打算使用 scrapy_redis 分布式爬虫，数据库用 mongodb，还有在考虑用 hadoop 存储框架这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下爬虫框架和存储应该选择哪种更好

16 条回复 • 2021-01-18 10:53:03 +08:00

1

AntoniotheFuture

2021-01-07 14:31:30 +08:00

舆情爬虫有商业服务了，要不要考虑一下？

2

liwenbest

OP

2021-01-07 14:34:54 +08:00

@AntoniotheFuture 加我 QQ986636628 私聊

3

AntoniotheFuture

2021-01-07 14:49:17 +08:00

@liwenbest 我没有做，你百度一下有很多啊

4

Keyes

2021-01-07 14:55:03 +08:00

预算多少，买个现成的，卖两个人过去看着吧，我司舆情项目都 saas 化了，单一系统根本收不回成本

5

wzwwzw

2021-01-07 14:59:46 +08:00

@liwenbest QQ 有答案无法回复。

6

czfy

2021-01-07 15:00:48 +08:00

1

这种从 0 开始不太现实吧..数说故事 /明略 /秒针之类的都有解决方案

7

murmur

2021-01-07 15:05:35 +08:00

是真的要做还是要坑人钱，爬微博知乎就省省吧，贴吧那么多你爬哪里

8

liwenbest

OP

2021-01-07 15:05:53 +08:00

@wzwwzw 沙滩车

9

liwenbest

OP

2021-01-07 15:06:41 +08:00

@Keyes 公司接了个舆情项目要开发的开发周期一年要自己搞了

10

liwenbest

OP

2021-01-07 15:07:51 +08:00

@czfy 要自己开发的

11

czfy

2021-01-07 15:10:41 +08:00

@liwenbest 自己开发..只能祝你好运

12

smgui

2021-01-07 16:34:14 +08:00

可以试试这个，试过用 kafka 和 rabbitmq 作为队列爬了些网络小说：
https://github.com/Insutanto/scrapy-distributed
这些框架的源代码都很简单，完全可以自己造轮子。

13

liwenbest

OP

2021-01-07 16:48:25 +08:00

@smgui 非常感谢我看看

14

tisswb

2021-01-12 10:28:25 +08:00

我几年前做过类似项目，用的是 scrapy_redis + elasticsearch 的组合，基本够用

15

liwenbest

OP

2021-01-14 09:45:25 +08:00

@tisswb 我目前也是 scrapy_redis 但是存储用 mongodb

16

tisswb

2021-01-18 10:53:03 +08:00

@liwenbest 用 es 的好处就是索引分词统计功能全面，可以省不少功能开发量

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1109 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 35ms · UTC 19:06 · PVG 03:06 · LAX 11:06 · JFK 14:06
Developed with CodeLauncher
♥ Do have faith in what you're doing.