继续推荐自己的爬虫，我会一直不断更新这个工程；

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2757 天前的主题，其中的信息可能已经有所发展或是发生改变。

上链接：
https://github.com/intohole/xspider

希望大家多关注，我会慢慢完善这个工程的，有需求可以给我提出 issue，谢谢大家

爬虫

issue

工程

链接

21 条回复 • 2017-05-11 10:09:33 +08:00

guonning

2017-05-10 10:40:30 +08:00 via iPhone

整个 Google play 的爬虫

Morriaty

2017-05-10 10:51:20 +08:00

如果你的项目有明显优于`scrapy`的地方，那请重点介绍这个优点；

如果你只是想深入了解爬虫架构，那请配合分享你的开发博客，《深入理解爬虫架构》；

否则，你的这个项目，除了自己练手，没有任何可分享的意义。

yanzixuan

2017-05-10 11:04:44 +08:00

不是很推荐用 xpath 来提取信息，麻烦得很。用 beautifulsoup 或 pyquery 都好点。

xvx

2017-05-10 11:17:12 +08:00 via iPhone

难道 lz 这个还能智能爬不成？不用每个网站都搞个爬虫规则。

intohole

2017-05-10 14:25:24 +08:00

@xvx 可以看我另外个工程 sixgod 也在这个 github，里面可以自动提取正文；如果有提取其它元素的话，可以提 issue

intohole

2017-05-10 14:25:57 +08:00

@yanzixuan 这里面支持 beautifulsoup ; 我只是没写文档

intohole

2017-05-10 14:27:09 +08:00

@Morriaty 谢谢意见，这个是我在做一个信息爬取工程，里面正在改进；文档我会慢慢丰富起来

intohole

2017-05-10 14:27:48 +08:00

@guonning 谷歌市场？可以用这个里面写的，只需要你会写 xpath css selector 就可以了

intohole

2017-05-10 14:28:21 +08:00

@yanzixuan 后续我会加入 pyquery 的，谢谢你这个建议

3b295

2017-05-10 15:21:49 +08:00

@yanzixuan 我倒是觉得有时用 xpath 也很方便，直接在浏览器中右键复制节点的 xpath，在稍微改改就写出来了。

IanPeverell

2017-05-10 15:53:57 +08:00

楼主加油，不过……

感觉是在重复造轮子，因为功能不完善所以很轻，很多情况都没考虑到

scrapy 和 pyspider 已经很出色，再加上很多分支，已经很完美了，requests 也足够满足轻型 spider 的需求，所以除非以学习为目的，这种重复造轮子很浪费时间

intohole

2017-05-10 16:01:31 +08:00

@IanPeverell 肯定有些不同的，比如我现在抓取的时候面临资源不足的情况，有自己的解决方案；

mikezhang0515

2017-05-10 16:31:54 +08:00

MSpider 也很好

IanPeverell

2017-05-10 16:42:19 +08:00

@intohole，然而资源不足只是 spider 很小的问题，更多的问题则在于反爬上，如果楼主能在这方面下功夫那这个框架的肯定不可小觑

anyway，还是很支持楼主将一个框架由小做大的，希望楼主能坚持下去

intohole

2017-05-10 16:42:21 +08:00

@mikezhang0515 我会参考这个工程的，thx

intohole

2017-05-10 16:42:47 +08:00

@IanPeverell 谢谢，我会加油的

faywong8888

2017-05-10 16:47:23 +08:00

技术这个行业，过去一个话题的开始是写一个：hello, world。
这个行业的现在变成了：从零写一个爬虫。

intohole

2017-05-10 17:09:55 +08:00

@faywong8888 什么项目不是从 0 开始的呢？还有你觉得写爬虫架构很好写，写个队列，写个抓取器就完活了？谢谢关注

Yc1992

2017-05-10 17:22:36 +08:00 via Android

加上一句，make the world a better place

xvx

2017-05-11 09:08:20 +08:00 via iPhone

@intohole sixgod 比较块密度进行爬取，这个思路以前看过，对结构简单的网站比较适用，复杂的还是很难搞吧。

intohole

2017-05-11 10:09:33 +08:00

@xvx 首先你的业务是什么？每个人的业务都不一样，只能是大体通用，智能提取算法，你可以自己找找 paper