1
itskingname 2021-02-18 11:46:48 +08:00
有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,
|
2
AngryPanda 2021-02-18 11:48:23 +08:00 2
不负责任猜想:有权限的用户使用了 chrome 浏览器
|
3
littlelooloo 2021-02-18 11:54:29 +08:00 via Android 1
你看到的是前段,google 的蜘蛛抓得是后端
|
4
shuax 2021-02-18 11:56:56 +08:00
有可能是还没设置权限就被抓了。
|
5
docx 2021-02-18 11:57:22 +08:00
已知的两种可能:
1. 在源码里,假隐藏,打开 F12 找找 2. 针对 Google Bot 开放检索权限 |
6
docx 2021-02-18 11:57:56 +08:00
补充一条
3. 还没设置权限时已被抓取 |
7
superrichman 2021-02-18 11:58:20 +08:00 via iPhone
可能做了 seo 优化,也可能就是漏洞
|
8
westoy 2021-02-18 11:59:09 +08:00
网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据
|
9
ruixue 2021-02-18 12:14:11 +08:00 1
大概率是针对 Google 做了 SEO,允许 Googlebot 爬
很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅 甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取 |
10
coolcatha OP @itskingname
@dzyou2007 我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。 @ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。 |
13
silymore 2021-02-18 12:40:20 +08:00 via iPhone
@AngryPanda 记得 360 浏览器这么干过
|
14
coolcatha OP |
15
morethansean 2021-02-18 12:44:55 +08:00
|
16
coolcatha OP @morethansean 非常感谢。如果是这样,我也没办法去验证了
|
17
ruixue 2021-02-18 13:06:41 +08:00
|
18
billlee 2021-02-18 14:49:40 +08:00
|
19
ESP 2021-02-18 15:39:54 +08:00
这里还真涉及到 discuz 的两个漏洞
|
21
Soar360 2021-02-18 23:21:37 +08:00
判断 IP 是不是谷歌爬虫,可以看看 IP 的 rDNS 。
|