python 爬虫怎么过滤正文以外的

发布网友发布时间：2022-04-26 16:02

共2个回答

热心网友时间：2023-10-13 08:43

利用bs4查找所有的div，用正则筛选出每个div里面的中文，找到中文字数最多的div就是属于正文的div了。定义一个抓取的头部抓取网页内容：

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',
    'Host': 'blog.csdn.net'}
session = requests.session()

def getHtmlByRequests(url):
    headers.update(
        dict(Referer=url, Accept="*/*", Connection="keep-alive"))
    htmlContent = session.get(url=url, headers=headers).content
    return htmlContent.decode("utf-8", "ignore")

统计文字的正则：

import re
# 统计中文字数
def countContent(string):
    pattern = re.compile(u'[\u1100-\uFFFD]+?')
    content = pattern.findall(string)
    return content

查找每一个div，统计每一个div的文字，只保留文字最多的那个div：

# 分析页面信息
def analyzeHtml(html):
    # 初始化网页
    soup = BeautifulSoup(html, "html.parser")
    part = soup.select('div')
    match = ""
    for paragraph in part:
        content = countContent(str(paragraph))
        if len(content) > len(match):
            match = str(paragraph)
    return match

最后的调用几个函数即可：

def main():
    url = "http://blog.csdn.net/"
    html = getHtmlByRequests(url)
    mainContent = analyzeHtml(html)
    soup = BeautifulSoup(mainContent, "html.parser")
    print(soup.select('div')[0].text)

热心网友时间：2023-10-13 08:43

和评论一样，推荐bs4。
看一下bs4的中文文档其实问题基本可以解决。
1，解析html
2，find所在的class
3，get_text() 这个结果会直接过滤标签提取正文，不需要你用正则去过滤标签。

全部频道

python 爬虫怎么过滤正文以外的