python抓取网页内容示例分享
import socket
def open_tcp_socket(remotehost,servicename):
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
portnumber=socket.getservbyname(servicename,'tcp')
s.connect((remotehost,portnumber))
return s
mysocket=open_tcp_socket('www.taobao.com','http')
mysocket.send('hello')
while(1):
data=mysocket.recv(1024)
if(data):
print data.decode('gbk').encode('utf-8')#对于gbk编码网页必须这样转化一下
else:
break
mysocket.close()
相关推荐
-
尝试使用Python多线程抓取代理服务器IP地址的示例
这里以抓取 http://www.proxy.com.ru 站点的代理服务器为例,代码如下: #!/usr/bin/env python #coding:utf-8 import urllib2 import re import threading import time import MySQLdb rawProxyList = [] checkedProxyList = [] #抓取代理网站 targets = [] for i in xrange(1,42): target = r"htt
-
使用Python编写简单网络爬虫抓取视频下载资源
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚本语言,没有之一.Python的语言简洁灵活,标准库功能强大,平常可以用作计算器,文本编码转换,图片处理,批量下载,批量处理文本等.总之我很喜欢,也越用越上手,这么好用的一个工具,一般人我不告诉他... 因为其强大的字符串处理能力,以及urllib2,cookielib,re,threading这些
-
python抓取网页中的图片示例
复制代码 代码如下: #coding:utf8import reimport urllibdef getHTML(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html,imgType): reg = r'src="(.*?\.+'+imgType+'!slider)" ' imgre = re.compile(reg) imgList = re.
-
python抓取网页内容示例分享
复制代码 代码如下: import socketdef open_tcp_socket(remotehost,servicename): s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) portnumber=socket.getservbyname(servicename,'tcp') s.connect((remotehost,portnumber)) return smysocket=open_tcp_socket
-
python抓取网页内容并进行语音播报的方法
python2.7,下面是跑在window上的,稍作修改就可以跑在linux上. 实测win7和raspbian均可,且raspbian可以直接调用omxplayer命令进行播放. 利用百度的语音合成api进行语音播报,抓取的页面是北大未名BBS的十大. 先放抓取模块BDWM.py的代码: # -*- coding: utf-8 -*- import urllib2 import HTMLParser class MyParser(HTMLParser.HTMLParser): def __in
-
Python简单实现网页内容抓取功能示例
本文实例讲述了Python简单实现网页内容抓取功能.分享给大家供大家参考,具体如下: 使用模块: import urllib2 import urllib 普通抓取实例: #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 url = 'http://www.baidu.com' #创建request对象 request = urllib2.Request(url) #发送请求,获取结果 try: response = urllib2
-
Python实现周期性抓取网页内容的方法
本文实例讲述了Python实现周期性抓取网页内容的方法.分享给大家供大家参考,具体如下: 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页,并解析出想要的网页内容,代码中是六维论坛的在线人数 论坛在线人数统计代码: #coding=utf-8 import time,sched,os,urllib2,re,string #初始化sched模块的scheduler类 #第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞. s = sche
-
Python爬虫实现网页信息抓取功能示例【URL与正则模块】
本文实例讲述了Python爬虫实现网页信息抓取功能.分享给大家供大家参考,具体如下: 首先实现关于网页解析.读取等操作我们要用到以下几个模块 import urllib import urllib2 import re 我们可以尝试一下用readline方法读某个网站,比如说百度 def test(): f=urllib.urlopen('http://www.baidu.com') while True: firstLine=f.readline() print firstLine 下面我们说
-
Python抓取手机号归属地信息示例代码
前言 本文给大家介绍的是利用Python抓取手机归属地信息,文中给出了详细的示例代码,相信对大家的理解和学习很有帮助,以下为Python代码,较为简单,供参考. 示例代码 # -*- coding:utf-8 -*- import requests,re o = open('data.txt','a') e = open('error.txt','a') baseUrl = 'http://www.iluohe.com/' r = requests.get('http://www.iluohe.
-
零基础写python爬虫之使用urllib2组件抓取网页内容
版本号:Python2.7.5,Python3改动较大,各位另寻教程. 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简
-
Python抓取聚划算商品分析页面获取商品信息并以XML格式保存到本地
本文实例为大家分享了Android九宫格图片展示的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding: gbk -*- #Spider.py import urllib2 import httplib import StringIO import gzip import re import chardet import sys import os import datetime from xml.dom.minidom import Documen
-
python抓取并保存html页面时乱码问题的解决方法
本文实例讲述了python抓取并保存html页面时乱码问题的解决方法.分享给大家供大家参考,具体如下: 在用Python抓取html页面并保存的时候,经常出现抓取下来的网页内容是乱码的问题.出现该问题的原因一方面是自己的代码中编码设置有问题,另一方面是在编码设置正确的情况下,网页的实际编码和标示的编码不符合造成的.html页面标示的编码在这里: 复制代码 代码如下: <meta http-equiv="Content-Type" content="text/html;
-
python抓取文件夹的所有文件
本文实例为大家分享了python抓取文件夹的所有文件的具体代码,供大家参考,具体内容如下 #!/user/bin/python # -*- coding:utf8 -*- import Basic import os ##################################################### ######## Input #### folder = "D:\\安装包" folder = folder.encode("gbk") ###
随机推荐
- 解密网页加密的两个方法
- jQuery实现将div中滚动条滚动到指定位置的方法
- 浏览器环境下JavaScript脚本加载与执行探析之defer与async特性
- JavaScript实现简单的数字倒计时
- php ajax无刷新上传图片实例代码
- PHP多个版本的分析解释
- php轻量级的性能分析工具xhprof的安装使用
- 举例讲解Python设计模式编程的代理模式与抽象工厂模式
- 使用JavaScript 实现对象 匀速/变速运动的方法
- CSS 中关于字体处理效果的思考
- mysql更新一个表里的字段等于另一个表某字段的值实例
- 详解CentOS6.5 安装 MySQL5.1.71的方法
- javascript 函数使用说明
- javascript数据结构中栈的应用之符号平衡问题
- SS xspace风格模板制作教程
- Android组件Glide实现图片平滑滚动效果
- Android Tabhost使用方法详解
- vue使用v-for实现hover点击效果
- C++从txt文件中读取二维的数组方法
- 微信支付之JSAPI公众号支付详解
