快速解释如何使用pandas的inplace参数的使用

介绍

在操作数据帧时,初学者有时甚至是更高级的数据科学家会对如何在pandas中使用inplace参数感到困惑。

更有趣的是,我看到的解释这个概念的文章或教程并不多。它似乎被假定为知识或自我解释的概念。不幸的是,这对每个人来说都不是那么简单,因此本文试图解释什么是inplace参数以及如何正确使用它。

让我们来看看一些使用inplace的函数的例子:

  • fillna()
  • dropna()
  • sort_values()
  • reset_index()
  • sort_index()
  • rename()

我已经创建了这个列表,可能还有更多的函数使用inplace作为参数。我没有记住所有这些函数,但是作为参数的几乎所有pandas DataFrame函数都将以类似的方式运行。这意味着在处理它们时,您将能够应用本文将介绍的相同逻辑。

创建一个示例DataFrame

为了说明inplace的用法,我们将创建一个示例DataFrame。

import pandas as pd
import numpy as np
client_dictionary = {'name': ['Michael', 'Ana', 'Sean', 'Carl', 'Bob'],
           'second name': [None, 'Angel', 'Ben', 'Frank', 'Daniel'],
           'birth place': ['New York', 'New York', 'Los Angeles', 'New York', 'New York'],
           'age': [10, 35, 56, None, 28],
           'number of children': [0, None, 2, 1, 1]}
df = pd.DataFrame(client_dictionary)
df.head()

我们创建了一个数据框架,该数据框架有5行,列如下: name, second name, birthplace,age,number of children。注意,age、second name和children列中有一些缺失值(nan)。

现在我们将演示dropna()函数如何使用inplace参数工作。因为我们想要检查两个不同的变体,所以我们将创建原始数据框架的两个副本。

df_1 = df.copy()
df_2 = df.copy()

下面的代码将删除所有缺少值的行。

df_1.dropna(inplace=True)

如果您在Jupyter notebook中运行此操作,您将看到单元格没有输出。这是因为inplace=True函数不返回任何内容。它用所需的操作修改现有的数据帧,并在原始数据帧上“就地”(inplace)执行。

如果在数据帧上运行head()函数,应该会看到有两行被删除。

df_1.dropna(inplace=True)

现在我们用inplace = False运行相同的代码。注意,这次我们将使用df_2版本的df

df_2.dropna(inplace=False)

如果您在Jupyter notebook中运行此代码,您将看到有一个输出(上面的屏幕截图)。inplace = False函数将返回包含删除行的数据。

记住,当inplace被设置为True时,不会返回任何东西,但是原始数据被修改了。

那么这一次原始数据会发生什么呢?让我们调用head()函数进行检查。

df_2.head()

原始数据不变!那么发生了什么?

当您使用inplace=True时,将创建并更改新对象,而不是原始数据。如果您希望更新原始数据以反映已删除的行,则必须将结果重新分配到原始数据中,如下面的代码所示。

df_2 = df_2.dropna(inplace=False)

这正是我们在使用inplace=True时所做的。是的,最后一行代码等价于下面一行:

df_2.dropna(inplace=True)

后者更优雅,并且不创建中间对象,然后将其重新分配给原始变量。它直接改变原始数据框架,因此,如果需要改变原始数据,那么inplace=True是首选。

那么,为什么会有在使用inplace=True产生错误呢?我不太确定,可能是因为有些人还不知道如何正确使用这个参数。让我们看看一些常见的错误。

常见错误

使用inplace = True处理一个片段

如果我们只是想去掉第二个name和age列中的NaN,而保留number of children列不变,我们该怎么办?

我见过有人这样做:

df[['second name', 'age']].dropna(inplace=True)

这会抛出以下警告。

这个警告之所以出现是因为Pandas设计师很好,他们实际上是在警告你不要做你可能不想做的事情。该代码正在更改只有两列的dataframe,而不是原始数据框架。这样做的原因是,您选择了dataframe的一个片段,并将dropna()应用到这个片段,而不是原始dataframe。

为了纠正它,可以这样使用

df.dropna(inplace=True, subset=['second name', 'age'])
df.head()

这将导致从dataframe中删除第二个name和age列中值为空的行。

将变量值赋给inplace= True的结果

df = df.dropna(inplace=True)

这又是你永远不应该做的事情!你只需要将None重新赋值给df。记住,当你使用inplace=True时,什么也不会返回。因此,这段代码的结果是将把None分配给df。

总结

我希望本文为您揭开inplace参数的神秘面纱,您将能够在您的代码中正确地使用它。

到此这篇关于快速解释如何使用pandas的inplace参数的使用的文章就介绍到这了,更多相关pandas inplace参数内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

时间: 2020-07-22

对python pandas中 inplace 参数的理解

pandas 中 inplace 参数在很多函数中都会有,它的作用是:是否在原对象基础上进行修改 inplace = True:不创建新的对象,直接对原始对象进行修改: ​inplace = False:对数据进行修改,创建并返回新的对象承载其修改结果. 默认是False,即创建新的对象进行修改,原对象不变,和深复制和浅复制有些类似. 例: inplace=True情况: import pandas as pd import numpy as np df=pd.DataFrame(np.rand

Python类中self参数用法详解

Python编写类的时候,每个函数参数第一个参数都是self,一开始我不管它到底是干嘛的,只知道必须要写上.后来对Python渐渐熟悉了一点,再回头看self的概念,似乎有点弄明白了. 首先明确的是self只有在类的方法中才会有,独立的函数或方法是不必带有self的.self在定义类的方法时是必须有的,虽然在调用时不必传入相应的参数. self名称不是必须的,在python中self不是关键词,你可以定义成a或b或其它名字都可以,但是约定成俗(为了和其他编程语言统一,减少理解难度),不要搞另类,

python pandas中DataFrame类型数据操作函数的方法

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几

Python Pandas中根据列的值选取多行数据

Pandas中根据列的值选取多行数据 # 选取等于某些值的行记录 用 == df.loc[df['column_name'] == some_value] # 选取某列是否是某一类型的数值 用 isin df.loc[df['column_name'].isin(some_values)] # 多种条件的选取 用 & df.loc[(df['column'] == some_value) & df['other_column'].isin(some_values)] # 选取不等于某些值的

python pandas中对Series数据进行轴向连接的实例

有时候我们想要的数据合并结果是数据的轴向连接,在pandas中这可以通过concat来实现.操作的对象通常是Series. Ipython中的交互代码如下: In [17]: from pandas import Series,DataFrame In [18]: series1 = Series(range(2),index = ['a','b']) In [19]: series2 = Series(range(3),index = ['c','d','e']) In [20]: serie

python 函数中的参数类型

1.前言 Python中函数的参数类型比较丰富,比如我们经常见到*args和**kwargs作为参数.初学者遇到这个多少都有点懵逼,今天我们来把Python中的函数参数进行分析和总结. 2.Python 中的函数参数 在Python中定义函数参数有5种类型,我们来一一演示它们. 2.1必选参数 必须参数是最基本的参数类型,当你在Python函数中定义一个必选参数时,每次调用都必须给予赋值,否则将报错. >>>def fun(a): print("a=",a) >

Python函数中定义参数的四种方式

Python中函数参数的定义主要有四种方式: 1. F(arg1,arg2,-) 这是最常见的定义方式,一个函数可以定义任意个参数,每个参数间用逗号分割,用这种方式定义的函数在调用的的时候也必须在函数名后的小括号里提供个数相等 的值(实际参数),而且顺序必须相同,也就是说在这种调用方式中,形参和实参的个数必须一致,而且必须一一对应,也就是说第一个形参对应这第一个实参.例如: 复制代码 代码如下: def a(x,y):print x,y 调用该函数,a(1,2)则x取1,y取2,形参与实参相对应

Python函数中的可变长参数详解

一.Python函数中的参数 1.使用python的函数时,有参数类别,比如位置参数.关键字参数.可变长参数 2.位置参数.关键字参数很好理解,关键是可变长参数经常能见到,但是一直没有搞懂是什么意思 二.可变长参数 1.一个星号:函数可以接收任意个数的参数,只需要在形参前面加一个*(星号),一个星号形参的函数会把多个位置参数值当成元祖的形式传入,也就是传入的多个参数值可以在函数内部进行元祖遍历 def length_param(a, *args): print("a=", a) pri

Python函数中参数是传递值还是引用详解

在 C/C++ 中,传值和传引用是函数参数传递的两种方式,在Python中参数是如何传递的?回答这个问题前,不如先来看两段代码. 代码段1: def foo(arg): arg = 2 print(arg) a = 1 foo(a) # 输出:2 print(a) # 输出:1 看了代码段1的同学可能会说参数是值传递. 代码段2: def bar(args): args.append(1) b = [] print(b)# 输出:[] print(id(b)) # 输出:4324106952 b

浅谈pandas中DataFrame关于显示值省略的解决方法

python的pandas库是一个非常好的工具,里面的DataFrame更是常用且好用,最近是越用越觉得设计的漂亮,pandas的很多细节设计的都非常好,有待使用过程中发掘. 好了,发完感慨,说一下最近DataFrame遇到的一个细节: 在使用DataFrame中有时候会遇到表格中的value显示不完全,像下面这样: In: import pandas as pd longString = u'''真正的科学家应当是个幻想家:谁不是幻想家,谁就只能把自己称为实践家.人生的磨难是很多的, 所以我们

python pandas dataframe 行列选择,切片操作方法

SQL中的select是根据列的名称来选取:Pandas则更为灵活,不但可根据列名称选取,还可以根据列所在的position(数字,在第几行第几列,注意pandas行列的position是从0开始)选取.相关函数如下: 1)loc,基于列label,可选取特定行(根据行index): 2)iloc,基于行/列的position: 3)at,根据指定行index及列label,快速定位DataFrame的元素: 4)iat,与at类似,不同的是根据position来定位的: 5)ix,为loc与i