请问有什么方法能抓取公众号的内容？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3460 天前的主题，其中的信息可能已经有所发展或是发生改变。

请问有什么方法能抓取公众号的内容？搜狗的微信搜索有加密过，没法直接抓。大神们知道zaker、传送门这些平台的公众号文章都是怎么采集的？

11 条回复 • 2015-08-12 16:30:21 +08:00

timest

2015-06-11 09:27:19 +08:00

目前我正在用python写爬虫，已经已经爬了3万多篇了，等我完成后会开源到github上。你邮箱留个给我，到时候Email你。

a9563akl

2015-06-11 10:29:44 +08:00

@timest 哇，大神，搜狗搜索的js加密已经解决了？感谢感谢，邮箱是[email protected]。

mingyun

2015-06-14 15:59:45 +08:00

timest

2015-06-15 17:20:34 +08:00

已经私聊了

a9563akl

2015-06-17 16:10:04 +08:00

@timest 大神我加你了

berry10086

2015-06-18 21:31:47 +08:00

爬搜狗的数据，直接用phantomjs解析界面，反爬虫、接口加密都不是事了
http://weirss.me

a9563akl

2015-07-01 17:46:50 +08:00

@berry10086 能够抓取到文章的图片吗？

berry10086

2015-07-01 21:09:09 +08:00

@a9563akl 没有反外链的图片可以抓到

a9563akl

2015-07-04 14:58:49 +08:00

@berry10086 你的方法，图片和文字是分开抓取的吗？

berry10086

2015-07-04 15:36:02 +08:00 via Android

@a9563akl 抓到图片的地址，没有下载

Moker

2015-08-12 16:30:21 +08:00

@berry10086 话说你抓了公众号历史的数据么？还是只按天爬....
今天也特么的坑说要爬公众号的内容不过我是用pyspider