基于pycharm的beautifulsoup4库使用方法教程

1.beautifulsoup4库安装

第一步:在控制台输入如下命令,安装beautifulsoup4库。

pip install beautifulsoup4

第二步:在控制台输入如下命令,验证是否成功安装beautifulsoup4库。

第三步:pycharm中,点击file——settings——project——python interpreter——点击+号——搜索beautifulsoup4——install package!

这样就可以在.py文件中导入模块了!

2.beautifulsoup4库使用

import requests
# 虽然库名叫做beautiful4 但是在导入时 使用的是其缩写bs4 其中BeautifulSoup是一个类名
from bs4 import BeautifulSoup

url = 'https://www.baidu.com/s?'
# 由于一般网站都是供用户访问 如果检测到User-Agent是黑客或者其他可能拒绝访问 故此处模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
# 以防乱码 此处将其编码设置为utf-8 因为有中文
response.encoding = 'utf-8'
# print(response.text)
# 使用的解析器是html.parser 注意是.奥
soup = BeautifulSoup(response.text, 'html.parser')
# 打印解析后的结果
print(soup.prettify())

需要讲解的都在代码注释中了奥!

3.beautifulsoup4库基本元素

beautifulsoup4库是解析、遍历、维护“标签树”的功能库。

首先来看BeautifulSoup库解析器,前两个比较常用!

再来看BeautifulSoup库的基本元素,可以这样理解,标签树和HTML以及BeautifulSoup是一样的,我们要看HTML的某些内容就使用BeautifulSoup的实例化对象查看即可。

在上述代码的基础上,增加如下几行,结合基本元素的使用,可得到如图所示。

需要注意的是,.string可以跨标签,所以很有可能结果也为注释,为了区分是标签内的字符串还是注释,可以通过打印类型来判断。

总结起来,可如下:

接下来,看一下BeautifulSoup库的遍历,其中画红框的迭代遍历,可以用于for in循环中。

4.beautifulsoup4库的HTML查找方法

find_all( name , attrs , recursive , string , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

name 参数可以对名字为 name 的标签进行检索。

attrs参数可以对标签属性值为attrs的标签进行检索。

recursive参数表示是否对子孙全部检索,默认是TRUE,如果只想搜索当前节点的儿子信息,可以置其为FALSE。

string 参数可以标签中的字符串内容进行检索。

5.补充Json(Javascript Object Notation)

我们学过js的或者java的,应该对Json不陌生吧!

Json是一种有类型的键值对!

需要注意的是,键和值都需要用"“括起来,如果值是整数,则可以不用”"!

如果值是多值,则可以用[,];如果值是键值对,则可以用{:,:,},可以嵌套使用。

JSON一般用于接口,而YAML是无类型键值对,一般用于配置文件。

到此这篇关于基于pycharmbeautifulsoup4库使用方法教程的文章就介绍到这了,更多相关pycharmbeautifulsoup4库使用内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

时间: 2022-01-13

python爬虫学习笔记--BeautifulSoup4库的使用详解

目录 使用范例 常用的对象–Tag 常用的对象–NavigableString 常用的对象–BeautifulSoup 常用的对象–Comment 对文档树的遍历 tag中包含多个字符串的情况 .stripped_strings 去除空白内容 搜索文档树–find和find_all select方法(各种查找) 获取内容 总结 使用范例 from bs4 import BeautifulSoup #创建 Beautiful Soup 对象 # 使用lxml来进行解析 soup = Beautif

使用BeautifulSoup4解析XML的方法小结

Beautiful Soup 是一个用来从HTML或XML文件中提取数据的Python库,它利用大家所喜欢的解析器提供了许多惯用方法用来对文档树进行导航.查找和修改. 帮助文档英文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 帮助文档中文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 入门示例 以下是电影<爱丽丝梦游仙境>中的一段HTML内容: 我们以此为

如何在Pycharm中制作自己的爬虫代码模板

目录 写作背景 爬虫代码 在 Pycharm 中设置代码模板 写作背景 最近本菜鸡有几个网站想要爬,每个爬虫的代码不一样,但 有某种联系,可以抽出一部分通用的代码制成模板,减少代码工作量,于是就有了这篇文章. 如果觉得我这篇文章写的好的话,能不能给我 点个赞 ,评论 .收藏 一条龙(☆▽☆).如果要点个 关注 的话也不是不可以. 如果 有什么问题,还 请各位大佬提出,不胜感激. 爬虫代码 我的爬虫代码都是使用的 自己 写的 多线程. 因为我的代码能力很差,所以如果代码有哪里让各位大佬倍感不适,请

pycharm&nbsp;终端部启用虚拟环境详情

新建项目时,选择新建虚拟环境 项目打开后,启动终端,却经常发现,并没有开启虚拟环境,导致一些包都被安装到全局环境中. 一种解决办法是手动开启虚拟环境 如果开启出错,如"禁止脚本运行"或者不识别命令等,就以管理员分身打开 powershell,然后运行如下命令 set-executionpolicy remotesigned 设置为 "y" 即可 但是这时候,如果想通过命令关闭虚拟环境  发现经常没有效果,还需要手动关闭终端,再打开,才会关闭虚拟环境 各种原因没有细究

Windows下pycharm创建Django 项目(虚拟环境)过程解析

1. 背景 我在 Windows 下的 pycharm 直接创建 全新 Django 项目 会 pip 和其他报错 ,暂时解决不了,另外后续的多个项目只需要一套python 环境, 所以可以 利用 virtualenv 创建一个 虚拟环境,pycharm 创建的 Django 项目 在选择解释器的时候 选择虚拟环境的解释器. 2. virtualenv 安装 https://www.jb51.net/article/170070.htm 在 虚拟环境里面 安装 Django 版本 1.11.24

详解PyCharm安装MicroPython插件的教程

前言 PyCharm可以说是当今最流行的一款Python IDE了,大部分购买TPYBoard的小伙伴都会使用PyCharm编写MicroPython的程序.遗憾的是,只是把PyCharm当做了一种代码编辑器,调试依然还的需要其他辅助软件,比如PuTTY.其实最近也有不少小伙伴询问PyCharm中怎么安装MicroPython插件的问题,想着正好网站也缺少这部分的教程,不如实践一下总结下经验共享给大家,也好给爱好MicroPython的小伙伴提供便利. 准备工作 硬件要求 - TPYBoard

Pycharm+django2.2+python3.6+MySQL实现简单的考试报名系统

1 准备工作 1.1 环境搭建 1.1.1 安装python3.6 python安装官网 1.1.2 安装django2.2 pip install django(==2.2.0) //不加版本默认安装最新版 1.1.3 安装pycharm(社区版,官网下载安装即可) 在安装完成后要配置好需要的第三方库:(pip下载,推荐在pycharm下也配置虚拟环境) Django2.2 连接mysql需要的库:PyMySQL, mysql, mysqlclinet 验证码用到的库:django-simpl

在PyCharm中遇到pip安装 失败问题及解决方案(pip失效时的解决方案)

在这篇文章里,我简单地叙述了我在使用PyCharm创建一个flask项目时遇到的问题,以及我解决这个问题的过程.其中比较值得注意的点有:①PyCharm创建新项目时的解释器配置②Python虚拟环境的创建等. 注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃.为此小编建了个Python全栈免费答疑.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步! 一.一些名词解释,希望能够帮助大家

Python虚拟环境项目实例

这里想象一下需求,写一个项目使用的一系列1.0版本的插件,现在要新写一个项目,需要用这些插件的2.0版本,该怎么办?都更新成2.0版本?这样之前的项目都没法维护了 这时我们需要一个虚拟环境,Python就支持这样一个插件,virtualenv 下面来安装一下: 1.pip3 install virtualenv 2.cd进一个像存放虚拟环境的目录,创建虚拟环境 virtualenv --no-site-packages venv 这个venv是名字,自己随便起名 3.激活虚拟环境 source

Python插件virtualenv搭建虚拟环境

这里想象一下需求,写一个项目使用的一系列1.0版本的插件,现在要新写一个项目,需要用这些插件的2.0版本,该怎么办?都更新成2.0版本?这样之前的项目都没法维护了 这时我们需要一个虚拟环境,Python就支持这样一个插件,virtualenv 下面来安装一下: 1. pip3 install virtualenv 2. cd进一个像存放虚拟环境的目录,创建虚拟环境 virtualenv --no-site-packages venv 这个venv是名字,自己随便起名 3.激活虚拟环境 sourc

python虚拟环境 virtualenv的简单使用

virtualenv是什么? virtualenv是一个创建隔绝的Python环境的工具. 为什么要创建虚拟环境? 它解决了"项目X依赖于版本1.x,而项目Y需要项目4.x"的两难问题,而且使你的全局site-packages目录保持干净和可管理. 简介 隔离不同的python环境,如有点项目用Django1.11而有的项目用Django2.0,为了防止不断地重新在全局环境中反复安装不同版本的Django,可以采用两个虚拟环境. 这样既保证了两个环境之间的隔离,也不会污染全局环境,保证

手把手教你进行Python虚拟环境配置教程

/1 前言/ 咱们今天就来说一下Python的虚拟环境,可能有的小伙伴会疑惑,Python的虚拟环境有什么用呢?接下来我们一起来探讨一下. /2 虚拟环境的作用/ 咱们今天就来说一下Python的虚拟环境,可能有的小伙伴会疑惑,Python的虚拟环境有什么用呢?接下来我们一起来探讨一下. 我们先来举个例子,来说明为什么需要虚拟环境.我们在学习Python的时候,可能会学到越来越多的第三方库,比如爬虫,我们需要安装requests,可能学着学着,我们还需要安装bs4,或者又学着学着,我们还需要安装

pycharm内无法import已安装的模块问题解决

今天安装了几个模块,在cmd测试都正常,但是在pycharm就不行,后面试了以下方法: 1. 2. 3.选择python.exe 4.然后在回到settings截面就可以直接选择python安装目录下的python.exe 2018.07.13,追加: 在学习了一段时间的python,这个问题其实很简单,自己创建一个python虚拟环境,然后再这个虚拟环境里面安装你所需要的所有模块,最后在pycharm里面添加这个虚拟环境就行了. 一.创建pthon虚拟环境env: 1.首先要安装虚拟环境包:

Anaconda+Pycharm环境下的PyTorch配置方法

写给新手的话 pycharm是什么,为什么让我指定interpreter 记事本 最开始写C语言代码的时候,人们使用vi,记事本等软件写代码,写完了之后用GCC编译,然后运行编译结果,就是二进制文件.python也可以这样做,用记事本写完代码,保存成如test.py的文件后,通过命令python test.py可以运行这一文件.最初的C语言代码都是通过这种方式写的.但是人们很快发现了一个问题,就是这么弄太麻烦了,编写用vi,运行得切出去用shell,出错了再切回vi改代码.这要是编写.运行.调试