python3中编码获取网页的实例方法
学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。
1. encoding和apparent_encoding
import scrapy url="https://www.xxx.net/html/gndy/dyzz/index.html" re=requests.get(url) #获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1 print(re.encoding) #apparent_encoding就是获取网站真实的编码 print(re.apparent_encoding)
2. 处理方案
直接用r.encoding = ‘xxx'
re.encoding='utf-8'
3. requests的text() 跟 content() 有什么区别
re.text返回的是处理过的Unicode型的数据,
而使用re.content返回的是bytes型的原始数据。
4. 爬虫拿到的HTML和浏览器中的源码不相同时
通过下载源码对比
import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
相关推荐
-
python3中编码获取网页的实例方法
学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决.相信操作出来后,能收获一大批小粉丝们.就像我们没学习编程之前,看到那种大神都是可望而不可即.今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同. 1. encoding和apparent_encoding import scrapy url="https://www.xxx.net/html/gndy/dyzz/index.html" re=reque
-
Python3中编码与解码之Unicode与bytes的讲解
今天玩Python爬虫,下载一个网页,然后把所有内容写入一个txt文件中,出现错误: TypeError: write() argument must be str, not bytes AttributeError: 'URLError' object has no attribute 'code' UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte s
-
使用C#获取网页HTML源码的例子
最近在做一个项目,其中一个功能是根据一个URL地址,获取到网页的源代码.在ASP.NET(C#)中,获取网页源代码貌似有很多种方法,我随便搞了一个简单的WebClient,非常简单容易.但后面一个非常恼火的问题出来了,那就是中文的乱码. 通过仔细研究,中文的网页不外乎GB2312和UTF-8这两种编码.于是有了下面这段代码: 复制代码 代码如下: /// <summary> /// 根据网址的URL,获取源代码HTML /// </summary>
-
C#基于正则表达式实现获取网页中所有信息的网页抓取类实例
本文实例讲述了C#基于正则表达式实现获取网页中所有信息的网页抓取类.分享给大家供大家参考,具体如下: 类的代码: using System; using System.Data; using System.Configuration; using System.Net; using System.IO; using System.Text; using System.Collections.Generic; using System.Text.RegularExpressions; using
-
python 获取网页编码方式实现代码
python 获取网页编码方式实现代码 <span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"> </span><span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">
-
JavaScript获取网页中第一个图片id的方法
本文实例讲述了JavaScript获取网页中第一个图片id的方法.分享给大家供大家参考.具体如下: 下面的代码通过document.images获取网页中的所有图片,然后获取第一个图片的id属性 <!DOCTYPE html> <html> <body> <img id="klematis lilac" border="0" src="klematis.jpg" width="148"
-
php获取网页中图片、DIV内容的简单方法
1.获取网页中所有的图片: 复制代码 代码如下: <?php //取得指定位址的內容,并储存至 $text $text=file_get_contents('http://www.jb51.net/'); //取得所有img标签,并储存至二维数组 $match 中 preg_match_all('/<img[^>]*>/i', $text, $match); //打印出match print_r($match); ?> 2.获取网页中的第一
-
PHP批量获取网页中所有固定种子链接的方法
本文实例讲述了PHP批量获取网页中所有固定种子链接的方法.分享给大家供大家参考,具体如下: 经常的下载链接比较多的时候,就像一次性将所有的链接添加到迅雷或者电炉,但是没有在这种选项,怎么办,咱是PHPer啊,这事儿难不到咱 且看代码,当然要换成你的,要根据具体情况来做修改. <?php header("content-type:text/html;charset=utf8"); $str = file_get_contents('./ShowFile.asp'); $str1 =
-
使用jquery获取网页中图片高度的两种方法
使用jquery获取网页中图片的高度其实很简单,有两种常用的方法都可以打到我们的目的 复制代码 代码如下: $("img").whith();(返回纯数字) $("img").css("width");(返回字符串:数字+"px") 但是有时候会遇到返回0的情况,上面方法返回值竟然是0或者0px,很让人诧异 方法一 在很早之前,我使用的解决方法,这也是我的师傅告诉我的解决方法:在你需要获取到的图片的<img>标签上
-
JavaScript获取网页中第一个链接ID的方法
本文实例讲述了JavaScript获取网页中第一个链接ID的方法.分享给大家供大家参考.具体如下: 下面的JS代码通过document.links获得网页中的所有超级链接数组,然后获得第一个链接的ID属性 <!DOCTYPE html> <html> <body> <h1>sharejs.com</h1> <img src ="planets.gif" width="145" height="
随机推荐
- Javascript和Java语言有什么关系?两种语言间的异同比较
- JavaScript 上传文件(psd,压缩包等),图片,视频的实现方法
- php入门学习知识点八 PHP中for循环基本应用之九九乘法口绝表
- 解析windows下使用命令的方式安装mysql5.7的方法
- C语言指针入门学习面面观
- jquery简单的拖动效果实现原理及示例
- [注册表]三篇玩转Win XP注册表
- 动态网站web开发 PHP、ASP还是ASP.NET
- PHP使用自定义key实现对数据加密解密的方法
- 详解springboot整合ehcache实现缓存机制
- Vue实现带进度条的文件拖动上传功能
- Windows下mysql5.7.10安装配置方法图文教程
- Vue基于vuex、axios拦截器实现loading效果及axios的安装配置
- node.js中ws模块创建服务端和客户端,网页WebSocket客户端
- python中将zip压缩包转为gz.tar的方法
- Python3+PyInstall+Sciter解决报错缺少dll、html等文件问题
- vsCode安装使用教程和插件安装方法
- iOS开发之导航栏各种右滑返回失效的解决方法汇总
- Python大数据之使用lxml库解析html网页文件示例
- node.js中process进程的概念和child_process子进程模块的使用方法示例
