首页

51问答网 > python3.6从网页源码中抓取的unicode无法输出中文

python3.6从网页源码中抓取的unicode无法输出中文

2024-11-25 23:00:31

推荐回答（1个）

回答1：

import requests
from bs4 import BeautifulSoup
import chardet
def get_charset(byte_str):
    charset=chardet.detect(byte_str)['encoding']
    return charset
r=requests.get('http://xiaorui.cc/2016/02/19/代码分析python-requests库中文编码问题/')
r.encoding=get_charset(r.content)
soup=BeautifulSoup(r.text,'lxml')
soup.text

乱码的原因主要是网页的字符集和你输出的字符集不一致造成的，让你的输出和采集到的字符集保持一致就可以了

我这里用requests

urllib库也是一样的

相关问答

最新问答

我是中国美术学院大一学生学艺术设计想出国留学去哪个国家

STIGA 斯帝卡 OC-CR-WRB与OC-CR有什么区别

理论与应用力学专业（汽车相关）能考造价工程师么

如何建立良好的客户关系管理

偏头疼已多年，查出垂体瘤，但医生说可能与这个无关偏头疼

去“武汉大学口腔医院”补牙大约需要多少钱！

女朋友和别的男人单独去看电影

麦蒂和阿里纳斯对飙三分的那场全明星比赛~是0几年的？？？

我是今年湖南高考文科考生,考了344分,能不能进湖南工程职业技术学院.或者您建议我可以去什么学校.谢谢

请问数字电视天线故障怎么办？