例如:自己博客用的 hexo 模板,但是被其他网站抓取了好多,
还有:掘金上分享博客链接,之后博客文章就被抓取到掘金了。
还有:safari 浏览器中看博客,可以点击地址栏的预览,可以直接预览博客的文章
等等。。
这些是什么实现的吗?
通过选择固定的 class 来抓取网页?
但是我的 class 改了之后 safari 浏览器中依然可以预览。。
万能的 V2EX 伙伴们,有没有相关的技术方案,来讨论一下 ~
1
creedowl 2018-09-23 22:29:01 +08:00
之前研究过提取文章正文,发现有一些办法,比如计算文字密度
|
2
dreasky 2018-09-23 23:12:54 +08:00
找到标点符号最多的 div
|
3
IvanLi127 2018-09-23 23:25:54 +08:00 via Android
歪楼,我看成 万恶的 V2E....
|
4
rekulas 2018-09-23 23:38:54 +08:00 1
readability 算法了解一下
|
5
Mogugugugu 2018-09-23 23:41:55 +08:00 via Android
@dreasky 这个思路 不错😊
|
6
zhangZMZ 2018-09-23 23:43:06 +08:00
万能?看见这个词语解不解答了。
我的万能岂能让你知道,无知的凡人,哼╭(╯^╰)╮! |
7
yuanfnadi 2018-09-23 23:56:40 +08:00 via iPhone 1
你把 class 的名字改成 footer 试试看
最近刚好在看 readability 的源码。 如果真的想抓 几乎不可能挡的住。 |
8
Tink 2018-09-24 00:01:06 +08:00 via iPhone
解析 dom 呗
|
9
delectate 2018-09-24 06:17:51 +08:00 1
常见的模板,写几个正则就够了,通吃 8 成网站;不常用的,readability。
|
10
2010 2018-09-24 08:12:57 +08:00 via Android
看网站写规则就行
|
14
huangfs 2018-09-24 23:34:19 +08:00
一般会有一套的模版的。
|
15
ChanghuiN OP |