早期的网页爬虫是如何进行的?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3297 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供

网页

获取

代码

爬虫

22 条回复 • 2015-12-25 21:34:40 +08:00

imn1

2015-12-25 17:18:16 +08:00

?
啥意思
没有 HTML 何来网页？没有 HTML 的时代也没有爬虫一说
那时候都是 tele bbs+邮件列表

qw7692336

2015-12-25 17:28:54 +08:00

不是更容易吗

ck65

2015-12-25 17:37:22 +08:00 via iPhone

隐约觉得楼主暴露年龄段了。

lx19930805

2015-12-25 18:02:38 +08:00

@imn1 一开始就纠结该怎么用词,果然有人提了.所以我前面有解释.
因为不懂各种词的表达,所以不要见怪.
就是网页源代码,里面的那些 HTML 代码.
早期没有"审查元素",是如何具体爬出来的.

lx19930805

2015-12-25 18:03:34 +08:00

@ck65 我觉得这没什么必要隐藏(93).该说的应该是觉得我是个新手,我才刚接触

lx19930805

2015-12-25 18:03:50 +08:00

@qw7692336 具体呢?

Zzzzzzzzz

2015-12-25 18:05:47 +08:00

view-source, 审核元素其实不准的, 因为浏览器会补全一些元素
早些时候也不流行 xpath, 都是直接用正则直接处理 raw html 的.

abelyao

2015-12-25 18:06:26 +08:00

@lx19930805 你是指在没有「审查元素」之前怎么怎么从一大堆 HTML 中找出想要的信息的位置吧？那当然是人工查找啦， HTML 那么简单…

lx19930805

2015-12-25 18:14:40 +08:00

@abelyao 啊?那获取源代码,然后复制粘贴到想要的地方显示出来呢.不是也要通过爬虫吗?
抱歉,我是新人,看了一下 python 的爬某个网站,发现都是先审查,然后根据相应 div 内容等来改的

imn1

2015-12-25 18:15:44 +08:00

@lx19930805
你是说 DOM 吧？
DOM 其实很早就有了， 9x 年代，大概 ie3~4 期间出现
再早些时候 js 都没有， html 页面很简单，直接文本查找就可以了，正则
那个是贺氏时代，网速慢得要死，没什么人弄爬虫
但那时有一种另类爬虫，就是离线浏览器，基本上就是抓<a href=>

loading

2015-12-25 18:16:35 +08:00 via Android

居然要审查元素…楼主，你水平暴露了。

我们以前都是用 windows 记事本来审查元素的，不需要 chrome 或者 firefox

qqmishi

2015-12-25 18:22:59 +08:00

右键查看网页源代码，人肉去查，，，

xcodebuild

2015-12-25 18:26:57 +08:00

楼主的描述方式有点白啊，，，以及正则不适合处理 html ，用 xpath

lx19930805

2015-12-25 18:31:24 +08:00

@loading @qqmishi @codefalling 很抱歉我语文表达不好,而且也是刚接触这方面,各种专业词语都不懂,无法表达.
在没有"审查元素"之类的东西(不知道'查看网页源代码'过去有没有,请尽量当它没有吧)出来前,是如何爬的.

Kokororin

2015-12-25 18:33:16 +08:00

就算过去没有查看源代码，记事本总有吧。直接打开里面输入 url 地址就是源代码

lxy

2015-12-25 18:36:43 +08:00

在“审查元素”这个功能没有之前，可以右键查看源码吧？即使没有，也可以直接 Ctrl+S 保存网页文档，然后查看源码。不知那个时候有没有抓包工具，反正我小学的时候就会用 IE6 保存网页了。

xidianpanpei

2015-12-25 19:47:26 +08:00

估计楼主是想知道在浏览器没有查看网页源码功能的时候，大家是怎么解析网页做爬虫的。这个其实不复杂，因为无论 python 中 request 还是 linux 的 curl 都是先获取到网页源码后，接着再做解析处理的。不信可以在终端中执行'curl www.baidu.com'这个命令，就可以直接获取百度首页的源码。

binux

2015-12-25 19:55:17 +08:00

审查元素只是帮你建树并定位节点，但是 HTML 源代码本事就存在的，即使没有审查元素，也可以脑内建树嘛。
而且早期的页面，没有那么多复杂的元素<h1>就是<h1>，<li>就是<li>，结构清晰得多。

crab

2015-12-25 20:21:59 +08:00

winnet winhttp .....等等等

xcodebuild

2015-12-25 20:55:46 +08:00

@lx19930805 我还真不知道早期浏览器有没有这个功能，但是 curl 一下也就出来了-。-

loading

2015-12-25 21:32:46 +08:00 via Android

楼主去看看织梦 cms 的采集功能。

loading

2015-12-25 21:34:40 +08:00 via Android

http://m.baidu.com/from=2001a/bd_page_type=1/ssid=0/uid=0/pu=usm%400%2Csz%401320_1003%2Cta%40iphone_2_5.1_1_10.8/baiduid=DF7CA29AC28DBEC89B9067FDD8F92CE4/w=0_10_%E7%BB%87%E6%A2%A6cms+%E9%87%87%E9%9B%86/t=iphone/l=3/tc?m=8&srd=1&dict=32&title=%25u7EC7%25u68A6CMS%25u5E2E%25u52A9%25u4E2D%25u5FC3_%25u5E2E%25u52A9%25u8BF4%25u660E%2F%25u91C7%25u96C6%25u5E2E%25u52A9&tch=124.0.0.0.0.0&src=http%3A%2F%2Fhelp.dedecms.com%2Fcollection%2F2011%2F0621%2F137.html