Python读取网页内容的方法
本文实例讲述了Python读取网页内容的方法。分享给大家供大家参考。具体如下:
import urllib2
#encoding = utf-8
class Crawler:
def main(self):
#req = urllib2.Request('http://www.baidu.com/')
#req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:5.0)')
#urllib2.socket.setdefaulttimeout(10) # 超时10秒
#page = urllib2.urlopen(req)
page = urllib2.urlopen('http://www.google.com', timeout=10)
data = page.read()
print data
print len(data) #计算字节长度
if __name__ == '__main__':
me=Crawler()
me.main()
希望本文所述对大家的Python程序设计有所帮助。
相关推荐
-
python使用htmllib分析网页内容的方法
本文实例讲述了python使用htmllib分析网页内容的方法.分享给大家供大家参考.具体实现方法如下: import htmllib, urllib, formatter, sys website = urllib.urlopen("http://yourweb.com") data = website.read() website.close() format = formatter.AbstractFormatter(formatter.DumbWriter(sys.stdout
-
零基础写python爬虫之使用urllib2组件抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简
-
Python3访问并下载网页内容的方法
本文实例讲述了Python3访问并下载网页内容的方法.分享给大家供大家参考.具体如下: #!/usr/local/bin/python3.2 import urllib.request,io,os,sys req = urllib.request.Request("http://www.google.com") f = urllib.request.urlopen(req) s = f.read() s = s.decode('gbk','ignore') mdir = sys.pat
-
python抓取网页内容示例分享
复制代码 代码如下: import socketdef open_tcp_socket(remotehost,servicename): s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) portnumber=socket.getservbyname(servicename,'tcp') s.connect((remotehost,portnumber)) return smysocket=open_tcp_socket
-
python打开url并按指定块读取网页内容的方法
本文实例讲述了python打开url并按指定块读取网页内容的方法.分享给大家供大家参考.具体实现方法如下: import urllib pagehandler = urllib.urlopen("http://www.baidu.com") outputfile = open("index.html", "wb") while 1: data = pagehandler.read(512) if not data: break outputfil
-
Python 抓取动态网页内容方案详解
用Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字.如下所示: 复制代码 代码如下: import urllib2 url="http://mm.taobao.com/json/request_top_list.htm?type=0&page=1" up=urllib2.urlopen(url)#打开目标页面,存入变量up cont=up.read()#从up中读入该HTML文件 key1='<a
-
Python读取网页内容的方法
本文实例讲述了Python读取网页内容的方法.分享给大家供大家参考.具体如下: import urllib2 #encoding = utf-8 class Crawler: def main(self): #req = urllib2.Request('http://www.baidu.com/') #req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:5.0)') #urllib2.soc
-
Python读取Excel的方法实例分析
本文实例讲述了Python读取Excel的方法.分享给大家供大家参考.具体如下: 今天需要从一个Excel文档(.xls)中导数据到数据库的某表,开始是手工一行行输的.后来想不能一直这样,就用Python写了下面的代码,可以很方便应对这种场景.比如利用我封装的这些方法可以很方便地生成导入数据的SQL. 当然熟悉Excel编程的同学还可以直接用VBA写个脚本生成插入数据的SQL. 还可以将.xls文件改为.csv文件,然后通过SQLyog或者Navicat等工具导入进来,但是不能细粒度控制(比如不
-
python读取xlsx的方法
如下所示: import xlrd data = xlrd.open_workbook('path') # 第1个sheet table = data.sheet()[0] # 获取行数 nrows = tables.nrows for i in range(nrows): if i == 0: continue # 第i行第j列 print(str(table.row_values(i)[j]).strip()) 以上这篇python读取xl
-
python读取xml文件方法解析
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python来读取xml文件. 什么是xml? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. abc.xml <?xml version="1.0" encoding="utf-8"?> <catalog> <maxid
-
python读取mnist数据集方法案例详解
mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法. 数据集格式介绍 这部分内容网络上很常见,这里还是简明介绍一下.网络上下载的mnist数据集包含4个文件: 前两个分别是测试集的image和label,包含10000个样本.后两个是训练集的,包含60000个样本..gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件. 上图是训练集的label和image数据的存储格式.两个文件最开始都有magic number和n
-
Python读取二进制文件代码方法解析
问题 有二进制文件中保存了 20 亿个 2 Bytes 的数,需将其读出,每 20000 个数作图,拟合后输出结果. 解决 # -*- coding: utf-8 -*- """ @author: kurrrr """ import struct def main(): data_file = open('run0035.bin', 'rb') data_temp = data_file.read(2) data_short, = struct.
-
从python读取sql的实例方法
从python读取sql的方法: 1.利用python内置的open函数读入sql文件: 2.利用第三方库pymysql中的connect函数连接mysql服务器: 3.利用第三方库pandas中的read_sql方法读取传入的sql文件即可. python 直接读取 sql 文件,达到使用 read_sql 可执行的目的 # sql文件夹路径 sql_path = 'sql文件夹路径' + '\\' # sql文件名, .sql后缀的 sql_file = 'sql文件名.sql' # 读取
-
Python读取mp3中ID3信息的方法
本文实例讲述了Python读取mp3中ID3信息的方法.分享给大家供大家参考.具体分析如下: pyid3不好用,常常有不认识的. mutagen不错,不过默认带的easyid3不会读取注释,需要手工hack一下 Python代码如下: from mutagen.mp3 import MP3 import mutagen.id3 from mutagen.easyid3 import EasyID3 EasyID3.valid_keys["comment"]="COMM::'X
-
python读取json文件并将数据插入到mongodb的方法
本文实例讲述了python读取json文件并将数据插入到mongodb的方法.分享给大家供大家参考.具体实现方法如下: #coding=utf-8 import sunburnt import urllib from pymongo import Connection from bson.objectid import ObjectId import logging from datetime import datetime import json from time import mktime
随机推荐
- 正则表达式验证用户名、密码、手机号码、身份证(推荐)
- python利用elaphe制作二维条形码实现代码
- 关于JavaScript跨域问题及实时刷新解决方案
- ObjectInputStream 和 ObjectOutputStream 介绍_动力节点Java学院整理
- 5款Javascript颜色选择器
- laravel创建类似ThinPHP中functions.php的全局函数
- 计算两个时间之差的函数
- 安装配置Zabbix来监控MySQL的基本教程
- javascript实现随机显示星星特效
- Java通过关闭Socket终止线程
- VBS教程:运算符-减运算符 (-)
- Java实现解出世界最难九宫格问题
- 数据库查询排除重复记录的方法
- jQuery多选框选择数量限制方法
- node.js中的require使用详解
- spring中ioc是什么
- 零基础入门学习——Spring Boot注解(一)
- 详解C++编程中的sizeof运算符与typeid运算符
- why is it preferable to use OSPF over RIP
- nodejs使用redis作为缓存介质实现的封装缓存类示例
