去除HTML标签有三种方法

第一种:使用正则处理

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

第二种:使用Beautifulsoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

第三种:使用etree

from lxml import etree
response = etree.HTML(text=html) print(response.xpath('string(.)'))