python Polars库的使用简介

2026-02-15 04:22:56

大家好，我是小F～

很多人在学习数据分析的时候，肯定都会用到Pandas这个库，非常的实用！

从创建数据到读取各种格式的文件(text、csv、json)，或者对数据进行切片和分割组合多个数据源，Pandas都能够很好的满足。

Pandas最初发布于2008年，使用Python、Cython和C编写的。是一个超级强大、快速和易于使用的Python库，用于数据分析和处理。

当然Pandas也是有不足之处的，比如不具备多处理器，处理较大的数据集速度很慢。

今天，小F就给大家介绍一个新兴的Python库——Polars。

使用语法和Pandas差不多，处理数据的速度却比Pandas快了不少。

一个是大熊猫，一个是北极熊～

GitHub地址：https://github.com/ritchie46/polars

使用文档：https://ritchie46.github.io/polars-book/

Polars是通过Rust编写的一个库，Polars的内存模型是基于Apache Arrow。

Polars存在两种API，一种是Eager API，另一种则是Lazy API。

其中Eager API和Pandas的使用类似，语法差不太多，立即执行就能产生结果。

而Lazy API就像Spark，首先将查询转换为逻辑计划，然后对计划进行重组优化，以减少执行时间和内存使用。

安装Polars，使用百度pip源。

# 安装polars
pip install polars -i https://mirror.baidu.com/pypi/simple/

安装成功后，开始测试，比较Pandas和Polars处理数据的情况。

使用某网站注册用户的用户名数据进行分析，包含约2600万个用户名的CSV文件。

文件已上传公众号，获取方式见文末。

import pandas as pd

df = pd.read_csv('users.csv')
print(df)

数据情况如下。

此外还使用了一个自己创建的CSV文件，用以数据整合测试。

import pandas as pd

df = pd.read_csv('fake_user.csv')
print(df)

得到结果如下。

首先比较一下两个库的排序算法耗时。

import timeit
import pandas as pd

start = timeit.default_timer()

df = pd.read_csv('users.csv')
df.sort_values('n', ascending=False)
stop = timeit.default_timer()

print('Time: ', stop - start)

-------------------------
Time:  27.555776743218303

可以看到使用Pandas对数据进行排序，花费了大约28s。

import timeit
import polars as pl

start = timeit.default_timer()

df = pl.read_csv('users.csv')
df.sort(by_column='n', reverse=True)
stop = timeit.default_timer()

print('Time: ', stop - start)

-----------------------
Time:  9.924110282212496

Polars只花费了约10s，这意味着Polars比Pandas快了2.7倍。

下面，我们来试试数据整合的效果，纵向连接。

import timeit
import pandas as pd

start = timeit.default_timer()

df_users = pd.read_csv('users.csv')
df_fake = pd.read_csv('fake_user.csv')
df_users.append(df_fake, ignore_index=True)
stop = timeit.default_timer()

print('Time: ', stop - start)

------------------------
Time:  15.556222308427095

使用Pandas耗时15s。

import timeit
import polars as pl

start = timeit.default_timer()

df_users = pl.read_csv('users.csv')
df_fake = pl.read_csv('fake_user.csv')
df_users.vstack(df_fake)
stop = timeit.default_timer()

print('Time: ', stop - start)

-----------------------
Time:  3.475433263927698

Polars居然最使用了约3.5s，这里Polars比Pandas快了4.5倍。

通过上面的比较，Polars在处理速度上表现得相当不错。

可以是大家在未来处理数据时，另一种选择～

当然，Pandas目前历时12年，已经形成了很成熟的生态，支持很多其它的数据分析库。

Polars则是一个较新的库，不足的地方还有很多。

如果你的数据集对于Pandas来说太大，对于Spark来说太小，那么Polars便是你可以考虑的一个选择。

文件地址：

链接:https://pan.baidu.com/s/14fFNOPomQe38RLbAUq5W7w 密码:nfqv

以上就是python Polars库的使用简介的详细内容，更多关于python Polars库的使用的资料请关注我们其它相关文章！

python pandas合并Sheet,处理列乱序和出现Unnamed列的解决

使用python中的pandas,xlrd,openpyxl库完成合并excel中指定sheet的操作 # -*- coding: UTF-8 -*- import xlrd import pandas as pd from pandas import DataFrame from openpyxl import load_workbook #表格位置 excel_name = '1.xlsx' # 获取workbook中所有的表格 wb = xlrd.open_workbook(excel_n
python 利用panda 实现列联表(交叉表)

交叉表(cross-tabulation,简称crosstab)是⼀种⽤于计算分组频率的特殊透视表. 语法详解: pd.crosstab(index, # 分组依据 columns, # 列 values=None, # 聚合计算的值 rownames=None, # 列名称 colnames=None, # 行名称 aggfunc=None, # 聚合函数 margins=False, # 总计行/列 dropna=True, # 是否删除缺失值 normalize=False # ) 1 c
聊聊Python pandas 中loc函数的使用,及跟iloc的区别说明

loc和iloc的意思首先,loc是location的意思,和iloc中i的意思是指integer,所以它只接受整数作为参数,详情见下面. loc和iloc的区别及用法展示 1.区别 loc works on labels in the index. iloc works on the positions in the index (so it only takes integers). 2.用法展示首先创建一个dataframe: 1)loc为Selection by Label函数,即为
python之 matplotlib和pandas绘图教程

不得不说使用python库matplotlib绘图确实比较丑,但使用起来还算是比较方便,做自己的小小研究可以使用.这里记录一些统计作图方法,包括pandas作图和plt作图. 前提是先导入第三方库吧 import pandas as pd import matplotlib.pyplot as plt import numpy as np 然后以下这两句用于正常显示中文标签什么的. plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
python 使用pandas同时对多列进行赋值

如dataframe data1['月份']=int(month) #加入月份和企业名称 data1['企业']=parmentname 可以增加单列,并赋值,如果想同时对多列进行赋值 data1['月份','企业']=int(month) , parmentname #加入月份和企业名称会出错 ValueError: Length of values does not match length of index data[['合计','平均']]='数据','月份' 类似这样的,也无效 Ke
python基于Pandas读写MySQL数据库

要实现 pandas 对 mysql 的读写需要三个库 pandas sqlalchemy pymysql 可能有的同学会问,单独用 pymysql 或 sqlalchemy 来读写数据库不香么,为什么要同时用三个库?主要是使用场景不同,个人觉得就大数据处理而言,用 pandas 读写数据库更加便捷. 1.read_sql_query 读取 mysql read_sql_query 或 read_sql 方法传入参数均为 sql 语句,读取数据库后,返回内容是 dateframe 对象.普及一下
python pandas模糊匹配读取Excel后获取指定指标的操作

1.首先读取Excel文件数据代表了各个城市店铺的装修和配置费用,要统计出装修和配置项的总费用并进行加和计算: 2.pandas实现过程 import pandas as pd #1.读取数据 df = pd.read_excel(r'./data/pfee.xlsx') print(df) cols = list(df.columns) print(cols) #2.获取含有装修和配置字段的数据 zx_lists=[] pz_lists=[] for name in cols: if
Python3 pandas.concat的用法说明

前面给大家分享了pandas.merge用法详解,这节分享pandas数据合并处理的姊妹篇,pandas.concat用法详解,参考利用Python进行数据分析与pandas官网进行整理. pandas.merge参数列表如下图,其中只有objs是必须得参数,另外常用参数包括objs.axis.join.keys.ignore_index. 1.pd.concat([df1,df2,df3]), 默认axis=0,在0轴上合并. 2.pd.concat([df1,df4],axis=1)–在1轴
python中pandas.read_csv()函数的深入讲解

这里将更新最新的最全面的read_csv()函数功能以及参数介绍,参考资料来源于官网. pandas库简介官方网站里详细说明了pandas库的安装以及使用方法,在这里获取最新的pandas库信息,不过官网仅支持英文. pandas是一个Python包,并且它提供快速,灵活和富有表现力的数据结构.这样当我们处理"关系"或"标记"的数据(一维和二维数据结构)时既容易又直观. pandas是我们运用Python进行实际.真实数据分析的基础,同时它是建立在NumPy之上的
python Polars库的使用简介

大家好,我是小F- 很多人在学习数据分析的时候,肯定都会用到Pandas这个库,非常的实用! 从创建数据到读取各种格式的文件(text.csv.json),或者对数据进行切片和分割组合多个数据源,Pandas都能够很好的满足. Pandas最初发布于2008年,使用Python.Cython和C编写的.是一个超级强大.快速和易于使用的Python库,用于数据分析和处理. 当然Pandas也是有不足之处的,比如不具备多处理器,处理较大的数据集速度很慢. 今天,小F就给大家介绍一个新兴的Python
python标准库OS模块详解

python标准库OS模块简介 os就是"operating system"的缩写,顾名思义,os模块提供的就是各种 Python 程序与操作系统进行交互的接口.通过使用os模块,一方面可以方便地与操作系统进行交互,另一方面页可以极大增强代码的可移植性.如果该模块中相关功能出错,会抛出OSError异常或其子类异常. 注意如果是读写文件的话,建议使用内置函数open(): 如果是路径相关的操作,建议使用os的子模块os.path: 如果要逐行读取多个文件,建议使用fileinput模
Python应用库大全总结

学Python,想必大家都是从爬虫开始的吧.毕竟网上类似的资源很丰富,开源项目也非常多. Python学习网络爬虫主要分3个大的版块:抓取,分析,存储当我们在浏览器中输入一个url后回车,后台会发生什么? 简单来说这段过程发生了以下四个步骤: 查找域名对应的IP地址. 向IP对应的服务器发送请求. 服务器响应请求,发回网页内容. 浏览器解析网页内容. 网络爬虫要做的,简单来说,就是实现浏览器的功能.通过指定url,直接返回给用户所需要的数据,而不需要一步步人工去操纵浏览器获取. 抓取这一步,你
python sklearn库实现简单逻辑回归的实例代码

Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Reduction).分类(Classfication).聚类(Clustering)等方法.当我们面临机器学习问题时,便可根据下图来选择相应的方法. Sklearn具有以下特点: 简单高效的数据挖掘和数据分析工具让每个人能够在复杂环境中重复使用建立NumPy.Scipy.MatPlotLib之上代
Python Numpy库常见用法入门教程

本文实例讲述了Python Numpy库常见用法.分享给大家供大家参考,具体如下: 1.简介 Numpy是一个常用的Python科学技术库,通过它可以快速对数组进行操作,包括形状操作.排序.选择.输入输出.离散傅立叶变换.基本线性代数,基本统计运算和随机模拟等.许多Python库和科学计算的软件包都使用Numpy数组作为操作对象,或者将传入的Python数组转化为Numpy数组,因此在Python中操作数据离不开Numpy. Numpy的核心是ndarray对象,由Python的n维数组封装而来
常用python爬虫库介绍与简要说明

这个列表包含与网页抓取和数据处理的Python库 python网络库通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络库(绑定libcurl). urllib3 – Python HTTP库,安全连接池.支持文件post.可用性高. httplib2 – 网络库. RoboBrowser – 一个简单的.极具Python风格的Python库,无需独立的浏览器即可浏览网页. MechanicalSoup
python爬虫库scrapy简单使用实例详解

最近因为项目需求,需要写个爬虫爬取一些题库.在这之前爬虫我都是用node或者php写的.一直听说python写爬虫有一手,便入手了python的爬虫框架scrapy. 下面简单的介绍一下scrapy的目录结构与使用: 首先我们得安装scrapy框架 pip install scrapy 接着使用scrapy命令创建一个爬虫项目: scrapy startproject questions 相关文件简介: scrapy.cfg: 项目的配置文件 questions/: 该项目的python模块.之
Python sklearn库实现PCA教程(以鸢尾花分类为例)

PCA简介主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等.矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推. 基本步骤: 具体实现我们通过Python的sklearn库来实现鸢尾花数据进行降维,数据本身是4维的降维后变成2维,可以在平面中画出样本点的分布.样本数据结构如下图: 其中样本总数为150
Python turtle库的画笔控制说明

turtle.penup() 别名 turtle.pu() :抬起画笔海龟在飞行 turtle.pendown() 别名 turtle.pd():画笔落下,海龟在爬行 turtle.pensize(width) 别名 turtle.width(width) :设置画笔的宽度,海龟的腰围 turtle.pencolor(color) color为颜色字符串或r,g,b值 : 颜色字符串:turtle.pencolor("red") RGB的小数值:turtle.pencolor(0.63
python matplotlib库的基本使用

matplotlib简介如果你在大学里参加过数学建模竞赛或者是用过MATLAB的话,相比会对这一款软件中的画图功能印象深刻.MATLAB可以做出各种函数以及数值分布图像非常的好用和方便.如果你没用过呢也没关系,知道这么回事就好了.MATLAB虽然好用,但毕竟是收费软件,而且相比于MATLAB,很多人更喜欢Python的语法. 所以呢MATLAB就被惦记上了,后来有大神仿照MATLAB当中的画图工具,也在Python当中开发了一个类似的作图工具.这也就是我们今天这篇文章要讲的matplotlib

python Polars库的使用简介

文件地址：

相关推荐

随机推荐