python多核处理器算力浪费现象解决

目录
  • 前言
  • IO密集型
  • 计算密集型

前言

我们都知道python因为其GIL锁导致每一个线程被绑定到一个核上,导致python无法通过线程实现真正的平行计算。从而导致大量的核算力的浪费。但是

concurrent.futures模块,可以利用multiprocessing实现真正的平行计算。

但是在提高python的计算性能前,首先要明白自己的程序目前是什么类型? 对于不同类型的程序,如果安装下述方法进行改造,可能效率并不会提高。

IO密集型:读取文件,读取网络套接字频繁。

计算密集型:大量消耗CPU的数学与逻辑运算,也就是我们这里说的平行计算。

IO密集型

可以使用asyncio 来进行优化,jit的原理是编译为机器码执行,但是io中可能会存在异常字符,所以也不推荐使用,当然在存在多态主机的情况下,可以采用分布式编程来提高效率,或者过concurrent.futures模块来实现。

详情请看下一篇博文 python 性能的优化

计算密集型

当然我们可以使用jit,分布式编程,python 调用c编程来优化性能,但是要充分利用计算机的核数,可以通过concurrent.futures模块来实现,其在实现提高并行计算能力时时通过多进程实现。

该concurrent.futures模块提供了一个用于异步执行callables的高级接口。

可以使用线程,使用ThreadPoolExecutor或单独的进程 来执行异步执行 ProcessPoolExecutor。两者都实现相同的接口,由抽象Executor类定义。

concurrent.futures会以子进程的形式,平行的运行多个python解释器,从而令python程序可以利用多核CPU来提升执行速度。由于子进程与主解释器相分离,所以他们的全局解释器锁也是相互独立的。每个子进程都能够完整的使用一个CPU内核。

def gcd(pair):
    a, b = pair
    low = min(a, b)
    for i in range(low, 0, -1):
        if a % i == 0 and b % i == 0:
            return i
numbers = [
    (1963309, 2265973), (1879675, 2493670), (2030677, 3814172),
    (1551645, 2229620), (1988912, 4736670), (2198964, 7876293)
]
import time
start = time.time()
results = list(map(gcd, numbers))
end = time.time()
print 'Took %.3f seconds.' % (end - start)
Took 2.507 seconds.
import time
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor, Executor
start = time.time()
pool = ProcessPoolExecutor(max_workers=2)
results = list(pool.map(gcd, numbers))
end = time.time()
print 'Took %.3f seconds.' % (end - start)
Took 1.861 seconds.

在两个CPU核心的机器上运行多进程程序,比其他两个版本都快。这是因为,ProcessPoolExecutor类会利用multiprocessing模块所提供的底层机制,完成下列操作:

1)把numbers列表中的每一项输入数据都传给map。

2)用pickle模块对数据进行序列化,将其变成二进制形式。

3)通过本地套接字,将序列化之后的数据从煮解释器所在的进程,发送到子解释器所在的进程。

4)在子进程中,用pickle对二进制数据进行反序列化,将其还原成python对象。

5)引入包含gcd函数的python模块。

6)各个子进程并行的对各自的输入数据进行计算。

7)对运行的结果进行序列化操作,将其转变成字节。

8)将这些字节通过socket复制到主进程之中。

9)主进程对这些字节执行反序列化操作,将其还原成python对象。

10)最后,把每个子进程所求出的计算结果合并到一份列表之中,并返回给调用者。

multiprocessing开销比较大,原因就在于:主进程和子进程之间通信,必须进行序列化和反序列化的操作。

submit(fn,* args,** kwargs ) 将可调用的fn调度为执行, 并返回表示可调用执行的对象。

fn(*args **kwargs)Future
with ThreadPoolExecutor(max_workers=1) as executor:
    future = executor.submit(pow, 323, 1235)
    print(future.result())
map(func,* iterables,timeout = None,chunksize = 1 )

与以下类似:map(func, *iterables)

在iterables收集立即而不是懒洋洋地; func以异步方式执行,并且可以同时对func进行多次调用 。 返回的迭代器引发一个concurrent.futures.TimeoutError if next()被调用,并且在从原始调用到超时秒后结果不可用Executor.map()。 timeout可以是int或float。如果未指定 超时None,则等待时间没有限制。

如果func调用引发异常,则在从迭代器检索其值时将引发该异常。

使用时ProcessPoolExecutor,此方法将iterables切割 为多个块,并将其作为单独的任务提交给池。可以通过将chunksize设置为正整数来指定这些块的(近似)大小。对于很长的iterables,采用大值CHUNKSIZE可以显著改善性能相比的1.默认大小 ThreadPoolExecutor,CHUNKSIZE没有效果。

在3.5版中更改:添加了chunksize参数。

shutdown(wait = True ) 向执行者发出信号,表示当目前待处理的期货执行完毕时,它应该释放它正在使用的任何资源。关机后拨打电话Executor.submit()和拨打电话 Executor.map()将会提出RuntimeError。

如果等待是True那么这种方法将不会返回,直到所有悬而未决的期货执行完毕,并与执行相关的资源已被释放。如果等待,False那么此方法将立即返回,并且当执行所有未决期货时,将释放与执行程序关联的资源。无论wait的值如何,整个Python程序都不会退出,直到所有待处理的期货都执行完毕。

如果使用with语句,则可以避免必须显式调用此方法 ,该语句将关闭Executor (等待,就像Executor.shutdown()使用wait set 调用一样True):

import shutil
with ThreadPoolExecutor(max_workers=4) as e:
    e.submit(shutil.copy, 'src1.txt', 'dest1.txt')
    e.submit(shutil.copy, 'src2.txt', 'dest2.txt')
    e.submit(shutil.copy, 'src3.txt', 'dest3.txt')
    e.submit(shutil.copy, 'src4.txt', 'dest4.txt')

以上就是python多核处理器算力浪费现象处理的详细内容,更多关于python多核处理器算力浪费的资料请关注我们其它相关文章!

(0)

相关推荐

  • python多线程与多进程及其区别详解

    前言 个人一直觉得对学习任何知识而言,概念是相当重要的.掌握了概念和原理,细节可以留给实践去推敲.掌握的关键在于理解,通过具体的实例和实际操作来感性的体会概念和原理可以起到很好的效果.本文通过一些具体的例子简单介绍一下python的多线程和多进程,后续会写一些进程通信和线程通信的一些文章. python多线程 python中提供两个标准库thread和threading用于对线程的支持,python3中已放弃对前者的支持,后者是一种更高层次封装的线程库,接下来均以后者为例. 创建线程 pytho

  • 浅谈Python中的全局锁(GIL)问题

    CPU-bound(计算密集型) 和I/O bound(I/O密集型) 计算密集型任务(CPU-bound) 的特点是要进行大量的计算,占据着主要的任务,消耗CPU资源,一直处于满负荷状态.比如复杂的加减乘除.计算圆周率.对视频进行高清解码等等,全靠CPU的运算能力.这种计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间就越多,CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时进行的数量应当等于CPU的核心数. 计算密集型任务由于主要消耗CPU资源,因

  • Python 多核并行计算的示例代码

    以前写点小程序其实根本不在乎并行,单核跑跑也没什么问题,而且我的电脑也只有双核四个超线程(下面就统称核好了),觉得去折腾并行没啥意义(除非在做IO密集型任务).然后自从用上了32核128GB内存,看到 htop 里面一堆空载的核,很自然地就会想这个并行必须去折腾一下.后面发现,其实 Python 的并行真的非常简单. multiprocessing vs threading Python 自带的库又全又好用,这是我特别喜欢 Python 的原因之一.Python 里面有 multiprocess

  • 一篇文章快速了解Python的GIL

    前言:博主在刚接触Python的时候时常听到GIL这个词,并且发现这个词经常和Python无法高效的实现多线程划上等号.本着不光要知其然,还要知其所以然的研究态度,博主搜集了各方面的资料,花了一周内几个小时的闲暇时间深入理解了下GIL,并归纳成此文,也希望读者能通过次本文更好且客观的理解GIL. GIL是什么 首先需要明确的一点是GIL并不是Python的特性,它是在实现Python解析器(CPython)时所引入的一个概念.就好比C++是一套语言(语法)标准,但是可以用不同的编译器来编译成可执

  • python 查看cpu的核数实现

    目录 如何查看cpu的核数 查看cpu的核心数.线程数 方法一 方法二 如何查看cpu的核数 代码: from multiprocessing import cpu_count  print("CPU的核数为:{}".format(cpu_count())) print(type(cpu_count())) 结果: CPU的核数为:4<class 'int'> 查看cpu的核心数.线程数 方法一 进入系统的任务管理器:点击“性能”标签,找到CPU项,如下图所示: 注意:设备

  • python多核处理器算力浪费现象解决

    目录 前言 IO密集型 计算密集型 前言 我们都知道python因为其GIL锁导致每一个线程被绑定到一个核上,导致python无法通过线程实现真正的平行计算.从而导致大量的核算力的浪费.但是 concurrent.futures模块,可以利用multiprocessing实现真正的平行计算. 但是在提高python的计算性能前,首先要明白自己的程序目前是什么类型? 对于不同类型的程序,如果安装下述方法进行改造,可能效率并不会提高. IO密集型:读取文件,读取网络套接字频繁. 计算密集型:大量消耗

  • jupyter notebook 使用过程中python莫名崩溃的原因及解决方式

    最近在使用 Python notebook时老是出现python崩溃的现象,如下图,诱发的原因是"KERNELBASE.dll",异常代码报"40000015". 折腾半天,发现我启动notebook时是用自定义startup.bat方式方式启动的,bat文件的内容为 start C:\Anaconda3\python.exe "C:/Anaconda3/Scripts/jupyter-notebook-script.py" 平时双击这个bat文

  • Python pycharm提交代码遇到冲突解决方法

    目录 一.背景 二.冲突产生原因 三.解决方法 3.1 pycharm误删代码怎么处理 3.2 解决pull --rebase代码冲突 3.3 备份代码 四.重点注意事项 一.背景 我在pycharm提交代码的时候,因为对git和pycharm不是很熟悉,在提交代码到远程仓库遇到冲突后选择应用远端代码导致把本地代码全部删除.之后不知道代码恢复方法,又把代码重新写了一遍,非常浪费时间,导致开发效率低下. 这个问题的相关解决方法在网上比较零碎也不详细,下面我通过自己的实践一步步说明如何解决这个问题.

  • python出现"IndentationError: unexpected indent"错误解决办法

    python出现"IndentationError: unexpected indent"错误解决办法 Python是一种对缩进非常敏感的语言,最常见的情况是tab和空格的混用会导致错误,或者缩进不对 如下图中的代码: 以上代码中第一次运行可以正常运行 但是第二次运行时就报错了, 原因就是第二次再e之前加了一个空格" " 解决办法只要将e之前的空格删除即可 如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

  • python安装cx_Oracle模块常见问题与解决方法

    本文实例讲述了python安装cx_Oracle模块常见问题与解决方法.分享给大家供大家参考,具体如下: 安装或使用cx_Oracle时,需要用到Oracel的链接库,如libclntsh.so.10.1,否则会有各种各样的错误信息. 安装Oracle Instant Client就可得到这个链接库,避免安装几百兆之巨的Oracle Client. 软件下载地址: cx_Oracle的主页:http://cx-oracle.sourceforge.net/ 必需的Oracle链接库的下载地址:h

  • Python中MYSQLdb出现乱码的解决方法

    本文实例讲述了Python中MYSQLdb出现乱码的解决方法,分享给大家供大家参考.具体方法如下: 一般来说,在使用mysql最麻烦的问题在于乱码. 查看mysql的编码: 命令:  复制代码 代码如下: show variables like 'character_set_%'; 可以看到如下结果: character_set_client为客户端编码方式: character_set_connection为建立连接使用的编码: character_set_database数据库的编码: ch

  • python base64 decode incorrect padding错误解决方法

    python的base64.decodestring方法做base64解码时报错: 复制代码 代码如下: Traceback (most recent call last):   File "/export/www/outofmemory.cn/controllers/user.py", line 136, in decryptPassword     encryptPwd = base64.b64decode(encryptPwd)   File "/usr/lib/pyt

  • Python错误: SyntaxError: Non-ASCII character解决办法

    Python错误: SyntaxError: Non-ASCII character解决办法 (1)问题描述 在写Python代码的过程中,有用到需要输出中文的地方,但是运行后发现上述错误.SyntaxError: Non-ASCII character '\xe4' in file ./common.py on line 2, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details  

  • Python安装模块的常见问题及解决方法

    1.error: command 'x86_64-linux-gnu-gcc' failed with exit status 解决办法: # Python 3 $ sudo apt-get install python3 python-dev python3-dev \ build-essential libssl-dev libffi-dev \ libxml2-dev libxslt1-dev zlib1g-dev \ python-pip # Python 2 $ sudo apt-ge

  • 基于python 处理中文路径的终极解决方法

    1 .据说python3就没有这个问题了 2 .u'字符串' 代表是unicode格式的数据,路径最好写成这个格式,别直接跟字符串'字符串'这类数据相加,相加之后type就是str,这样就会存在解码失误的问题. 别直接跟字符串'字符串'这类数据相加 别直接跟字符串'字符串'这类数据相加 别直接跟字符串'字符串'这类数据相加 unicode类型别直接跟字符串'字符串'这类数据相加 说四遍 3 .有些读取的方式偏偏是要读取str类型的路径,不是unicode类型的路径,那么我们把这个str.enco

随机推荐