Python采集热搜数据实现详解

目录
  • 功能实现
    • 发送请求
    • 解析数据
    • 获取内容
    • 拓展内容
  • 总结

功能实现

随着互联网的发展,信息的传播越来越快速和便捷。在这个信息爆炸的时代,如何快速获取有用的信息已经成为了一个重要的能力。而爬取网站信息则是获取信息的一种重要方式。本文将介绍如何使用Python爬取百度热搜,并对爬取过程进行详细说明。

其实,这个并不难。现在,看我是如何一步一步获取到数据的。

发送请求

我们首先确定网址,我们先使用开发者工具,定位到我们要的数据。发现,内容就在网页源代码中。

urllib = 'https://top.baidu.com/board?tab=realtime'
headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
    }
res = requests.get(urllib,headers=headers)
print(res.text)

这段代码使用了 Python 的 requests 库来发送 HTTP 请求,并使用了一个包含用户代理信息的字典作为请求头。请求头中的 user-agent 字段指定了发送请求的浏览器类型,请求成功后,requests 库会将响应内容作为字符串返回给调用者。在这个例子中,我们使用了 print() 函数来输出响应内容。

解析数据

nums = re.findall('<div class="index_1Ew5p c-index-bg.*?">  (\d+) </div>',res.text,re.S)
titles = re.findall('<div class="c-single-text-ellipsis">(.*?)</div> ',res.text,re.S)
details = re.findall('<div class="hot-desc_1m_jR large_nSuFU ">(.*?)<a',res.text,re.S)
hotSearchs = re.findall('<div class="hot-index_1Bl1a"> (\d+) </div>',res.text,re.S)

这段代码使用了 Python 的 re 模块来进行正则表达式匹配。re.findall() 函数可以根据正则表达式匹配出所有匹配项,并将它们作为列表返回。最后,我们将这些列表中的内容分别赋值给 numstitles 和 details 变量,以便在后续的代码中使用它们。

获取内容

html_lists = zip(nums,titles,details,hotSearchs)
for num,title,detail,hotSearch in html_lists:
    print(num,title,detail,hotSearch)

这段代码使用了 Python 的 zip() 函数来将四个列表合并成一个元组列表。然后,使用 for 循环遍历这个元组列表,并将每个元素作为参数传递给 print() 函数,以输出每个元素的值。

这样,我们就得到了我们想要的内容,比如讲,新闻的标题啊,热搜第几啊什么的。我们来看看效果。

这个就简单用到了正则表达式,非常的简单。

拓展内容

我们这里拓展一下,我们发现还有其他类型的热搜排行榜。

https://top.baidu.com/board?tab=movie
https://top.baidu.com/board?tab=teleplay

我们就想着,能不能把他们整合到一起去。我们会发现,其网页源代码的结构都差不多。所以,我们的代码就不需要改了,只需要改动url。那么是我们手动输入url吗。我的思路是这样的。这里只展示大致思路。

import re
import requests
def get_realtime():
    urllib = 'https://top.baidu.com/board?tab=realtime'
    ······
def get_movie():
    urllib = 'https://top.baidu.com/board?tab=movie'
    ······
def get_teleplay():
    urllib = 'https://top.baidu.com/board?tab=teleplay'
    ······
while(1):
    cin =input('请选择热搜类型:1.新闻热搜 2.电影热搜 3.电视热搜''\n')
    if cin =="1":
        print("正在采集新闻热搜——————")
        get_realtime()
    elif cin =="2":
        print("正在采集电影热搜——————")
        get_movie()
    elif cin=="3":
        print("正在采集电视热搜——————")
        get_teleplay()
    else:
        print('请重新选择!!!')

我们这里使用了一个无限循环来不断询问用户选择热搜类型,直到用户选择退出为止。在每次循环中,使用 get_realtime()get_movie() 和 get_teleplay() 函数来采集相应的热搜内容,并将结果输出到屏幕上

非常抱歉,这里放不了图片,将就看吧。

总结

本文介绍了如何使用Python爬取百度热搜。通过使用requests库发送HTTP请求到目标网站,并使用BeautifulSoup库解析页面结构,可以方便地获取页面内容。同时,也需要注意爬虫的安全性和隐私性问题,例如如何避免爬取到恶意页面等。希望本文能够对读者有所帮助,并且能够帮助读者更好地获取网络信息。

以上就是Python采集热搜数据的详细内容,更多关于Python采集热搜数据的资料请关注我们其它相关文章!

(0)

相关推荐

  • Python采集二手车数据的超详细讲解

    目录 数据采集 发送请求 明确需求: 解析数据 保存数据 总结 数据采集 XPath,XML路径语言的简称.XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言.XPath主要用于解析XML文档,可以用来获取XML文档中某个元素的位置.属性值等信息.XPath可以用于XML文档解析.XML数据抽取.XML路径匹配等方面. 发送请求 首先,我们要进行数据来源分析,知道我们的需求是什么? 明确需求: 明确采集网站是什么? 明确采集数据是什么

  • Python采集情感音频的实现示例

    目录 前言 发送请求 获取数据 解析数据 保存数据 总结 前言 我最近喜欢去听情感类的节目,比如说,婚姻类,我可能老了吧.我就想着怎么把音乐下载下来了,保存到手机上,方便我们业余时间去听. 发送请求 首先,我们要确定我们的目标网址,我们想要获取到每一个音频的地址. 我们发送请求,获取网页源代码.我们相信大家这里的代码都会写了. url = 'https://www.ximalaya.com/album/37453303' headers = { 'User-Agent': 'Mozilla/5.

  • Python采集某评论区内容的实现示例

    目录 前言 发送请求 解析数据 总结 前言 我们知道在这个互联网时代,评论已经在我们的生活到处可见,评论区里面的信息是一个非常有趣和有争议的地方.我们今天,就来获取某技术平台的评论,和大家分享一下,我获取数据的过程,也是一个尝试的过程. 发送请求 我们首先,确定我们要获取哪一个文章下面的评论区.我们先使用开发者工具,定位到我们要的数据. 我们通过数据抓取,我们发现,这个平台的评论区数据,放在了一个叫getlist数据包里面了. 我们就不难明白,我们只要请求这个url,在传一个关于文章的参数,我们

  • Python采集C站热榜数据实战示例

    目录 前言 功能实现 解析数据 保存数据 总结 前言 大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以.没有加密的东西. 功能实现 我们话不多说,我们先找到url,也就是请求地址.我们代码如下: url = 'https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type=' headers = { 'user-age

  • Python采集C站高校信息实战示例

    目录 前言 功能实现 内容获取 总结 前言 大家好,我们今天来爬取c站的高校名单,把其高校名单,成员和内容数获取下来,不过,我们发现这个网站比我们平时多了一个验证,下面看看我是怎么解决的. 功能实现 话不多说,我们和平时一样,发送我们的请求,按照平时,我们看看代码怎么写. url = 'https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37' headers = { '

  • 基于Python爬取股票数据过程详解

    基本环境配置 python 3.6 pycharm requests csv time 相关模块pip安装即可 目标网页 分析网页 一切的一切都在图里 找到数据了,直接请求网页,解析数据,保存数据 请求网页 import requests url = 'https://xueqiu.com/service/v5/stock/screener/quote/list' response = requests.get(url=url, params=params, headers=headers, c

  • 对Python 窗体(tkinter)树状数据(Treeview)详解

    如下所示: import tkinter from tkinter import ttk #导入内部包 win=tkinter.Tk() tree=ttk.Treeview(win) #参数:parent, index, iid=None, **kw (父节点,插入的位置,id,显示出的文本) myid=tree.insert("",0,"中国",text="中国China",values=("1")) # "&qu

  • 对python读取zip压缩文件里面的csv数据实例详解

    利用zipfile模块和pandas获取数据,代码比较简单,做个记录吧: # -*- coding: utf-8 -*- """ Created on Tue Aug 21 22:35:59 2018 @author: FanXiaoLei """ from zipfile import ZipFile import pandas as pd myzip=ZipFile('2.zip') f=myzip.open('2.csv') df=pd.r

  • 使用 Python 读取电子表格中的数据实例详解

    Python 是最流行.功能最强大的编程语言之一.由于它是自由开源的,因此每个人都可以使用.大多数 Fedora 系统都已安装了该语言.Python 可用于多种任务,其中包括处理逗号分隔值(CSV)数据.CSV文件一开始往往是以表格或电子表格的形式出现.本文介绍了如何在 Python 3 中处理 CSV 数据. CSV 数据正如其名.CSV 文件按行放置数据,数值之间用逗号分隔.每行由相同的字段定义.简短的 CSV 文件通常易于阅读和理解.但是较长的数据文件或具有更多字段的数据文件可能很难用肉眼

  • python更新数据库中某个字段的数据(方法详解)

    连接数据库基本操作,我把每一步的操作是为什么给大家注释一下,老手自行快进. 请注意这是连接数据库操作,还不是更新. import pymysql #导包 #连接数据库 db = pymysql.connect(host='localhost', user='用户名', password='数据库密码', port=3306, db='你的数据库名字') #定义游标 cursor = db.cursor() #sql语句 sql = 'select * from students;' cursor

  • 如何用python爬取微博热搜数据并保存

    主要用到requests和bf4两个库 将获得的信息保存在d://hotsearch.txt下 import requests; import bs4 mylist=[] r = requests.get(url='https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6',timeout=10) print(r.status_code) # 获取返回状态 r.encoding=r.apparent_encoding demo

  • Python必备技巧之字符数据操作详解

    目录 字符串操作 字符串 + 运算符 字符串 * 运算符 字符串 in 运算符 内置字符串函数 字符串索引 字符串切片 字符串切片中的步幅 将变量插入字符串 修改字符串 内置字符串方法 bytes对象 定义文字bytes对象 bytes使用内置bytes()函数定义对象 bytes对象操作,操作参考字符串. bytearray对象,Python 支持的另一种二进制序列类型 字符串操作 字符串 + 运算符 +运算符用于连接字符串,返回一个由连接在一起的操作数组成的字符串. >>> s =

  • Python数据可视化详解

    目录 一.Matplotlib模块 1.绘制基本图表 1. 绘制柱形图 2. 绘制条形图 3. 绘制折线图 4. 绘制面积图 5. 绘制散点图 6. 绘制饼图和圆环图 2.图表的绘制和美化技巧 1. 在一张画布中绘制多个图表 2. 添加图表元素 3. 添加并设置网格线 4. 调整坐标轴的刻度范围 3.绘制高级图表 1. 绘制气泡图 2. 绘制组合图 3. 绘制直方图 4. 绘制雷达图 5. 绘制树状图 6. 绘制箱形图 7. 绘制玫瑰图 二.pyecharts模块 1.图表配置项 2.绘制漏斗图

  • Python音频操作工具PyAudio上手教程详解

    ​ 0.引子 当需要使用Python处理音频数据时,使用python读取与播放声音必不可少,下面介绍一个好用的处理音频PyAudio工具包. PyAudio是Python开源工具包,由名思义,是提供对语音操作的工具包.提供录音播放处理等功能,可以视作语音领域的OpenCv. 1.简介 PyAudio为跨平台音频I / O库 PortAudio 提供 Python 绑定.使用PyAudio,您可以轻松地使用Python在各种平台上播放和录制音频,例如GNU / Linux,Microsoft Wi

  • python爬虫泛滥的解决方法详解

    我们可以把互联网上搬运数据的程序看成小蚂蚁,它们需要采集不同的食物带回洞里存储.但是大家也知道白蚁泛滥的事件,在我们的网络环境里,如果爬虫都集中在某几个位置,最直接的结果就是这个网站的拥挤.对于我们这些网站访问者而言也不是好事情,首先网页的页面会被卡住.网站的管理人员面对爬虫过多,这时候就要进行一系列的限制措施了,这里小编分了两个大的应对方向,从不同的角度进 行分析爬虫过多的解决思路. 一.识别爬虫 1. HTTP请求头 这算是最基础的网络爬虫识别了,正常的网络访问者都是通过浏览器对网站进行访问

随机推荐