在尝试爬取 V2EX 帖子正文时遇到一个问题: 所有正文内容均在同一个 div class="maekdown_body"下
但是其下有很多标签:
……
等等
请问应该如何依次获取这些标签内的文字呢?
1
SorcererXW 2018-06-08 10:17:50 +08:00
拿到节点遍历一下 childNodes, 如果有多层就递归进去
这应该是最基本的操作吧 |
2
goodboygru OP @SorcererXW 感谢,小白刚刚接触。
|