首页 热点资讯 义务教育 高等教育 出国留学 考研考公

python爬虫时,bs4无法读取网页标签中的文本?

发布网友 发布时间:2022-04-26 16:02

我来回答

1个回答

热心网友 时间:2022-04-19 01:31

刚看了下虎扑的帖子。帖子的浏览量是动态加载的。并不是静态页面。所以常规的爬虫爬取的内容是空的。目前我了解的有两种方法可以去获取浏览量。一种是使用selenium + chrome。模拟浏览器加载。这种对于动态加载的页面比较有效。缺点就是效率太低。虎扑的帖子不建议使用(用不上)。另外一种就是找到虎扑获取浏览量的请求链接。看截图:

通过截图不难发现是通过图中的链接去获取的浏览量。该链接有两个参数。其中tid就是帖子的ID也就是每个帖子后面的ID。对比一下就发现了。最后的那个参数看起来很像是毫秒级的时间戳。在线验证一下如下图。

验证结果显示果然是时间戳(其实这个参数有没有都无所谓)。参数弄明白了就好办了直接将参数组合到该接口中去然后调用组合好的接口就可以了。是不是很简单~~~

希望可以帮到你,如有问题可以继续追问。谢谢

追问好详细!太感谢你了!

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com