1
saggit 2013-06-06 22:38:09 +08:00
jsoup可以看下
|
3
zoran 2013-06-07 11:06:26 +08:00 1
|
4
tititake 2013-06-07 11:38:07 +08:00
用过这个 http://nekohtml.sourceforge.net/ 不知道是不是最方便的。
|
5
TheMan 2013-06-07 11:55:15 +08:00 via Android
嗯,正则写的话有些麻烦,可以看这个例子,不错
|
6
TheMan 2013-06-07 11:57:06 +08:00 via Android 1
可以看下这个例子:http://usejava.iteye.com/blog/724177
ps:正则表达式熟练掌握了的话,好处多多 |
7
jjlovegrape 2013-06-07 12:38:14 +08:00
LZ可以考虑用Node + jsdom插件 + jquery,处理Html应该会方便一点。
|
8
Linxing OP @jjlovegrape jquery不懂啊,jsoup可以做简单的处理,昨晚写完已经把 http://udpwork.com 上面的文章都爬完了,但是感觉处理的不太好,换一个网站就要改蛮多内容的吧,还要努力
|
10
ttskym 2013-06-09 12:45:34 +08:00
jsoup+正则。http://www.open-open.com/jsoup/
|
11
seeker 2013-06-09 13:14:30 +08:00 1
@jjlovegrape 如果dom有地方由javascript生成的,jsdom就不行了。用phantomjs可以完美解决。
|
12
jjlovegrape 2013-06-09 17:41:14 +08:00
@seeker good,感谢分享。taobao好像用Node写过一个页面自动化测试工具,猜测是不是基于类似的?
|
13
seeker 2013-06-09 20:30:19 +08:00
@jjlovegrape 不清楚哎。不过phantomjs跟node不是一回事哦。
|
14
code4craft 2013-06-09 21:47:36 +08:00 1
可以使用jsoup,或者htmlcleaner(可用xpath)。一定程度的智能化的也可以做到的,标题可以直接用<title>标签加上后缀去重,内容可以用readability技术(http://en.wikipedia.org/wiki/Readability)。我写过一个爬虫框架,其中有比较粗糙的readability实现(https://github.com/code4craft/webmagic/blob/master/webmagic-core/src/main/java/us/codecraft/webmagic/selector/SmartContentSelector.java)。这里有篇博客,关于如何使用的:http://my.oschina.net/flashsword/blog/136846。感兴趣的可以一起改进一下。
|
15
Linxing OP @code4craft 谢了!写的不错
|