pyspider爬网页出现中文乱码的解决办法

更新日期: 2019-04-24阅读: 2.6k标签: 乱码

为什么会出现乱码呢?

这就是 lxml 的蛋疼之处,给它 unicode 它有的时候它不认,给它 bytes 它又处理不好 

 

方法1:

response.content = (response.content).decode(‘utf-8‘) #目标站是 utf-8 编码


方法2:

response.content = response.content.decode(‘gbk‘, errors=‘ignore‘)#目标站是gbk


方法3:(binux的方案)

import pyquery
doc = pyquery.PyQuery(response.text)

方案3的好处是,不必知道源站编码,而直接由pyquery来接管。


链接: https://www.fly63.com/article/detial/3072

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!