基于python实现ROC曲线绘制广场解析

ROC

结果

源数据:鸢尾花数据集(仅采用其中的两种类别的花进行训练和检测)

Summary

features:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

实例:[5.1, 3.5, 1.4, 0.2]
target:'setosa' 'versicolor' (0 , 1)

采用回归方法进行拟合得到参数和bias

model.fit(data_train, data_train_label)

对测试数据进行预测得到概率值

res = model.predict(data[:100])

与训练集labels匹配后进行排序(从大到小)

    pred labels
68 0.758208    1
87 0.753780    1
76 0.745833    1
50 0.743156    1
65 0.741676    1
75 0.739117    1
62 0.738255    1
54 0.737036    1
52 0.733625    1
77 0.728139    1
86 0.727547    1
74 0.726261    1
58 0.725150    1
71 0.724719    1
36 0.724142    0
14 0.723990    0
31 0.721648    0
41 0.720308    0
72 0.717723    1
79 0.712833    1
97 0.705148    1
51 0.702838    1
35 0.702203    0
98 0.701731    1
92 0.701106    1
82 0.700661    1
53 0.700465    1
18 0.699350    0
16 0.696915    0
64 0.693333    1
..    ...   ...
33 0.658937    0
96 0.656761    1
30 0.656279    0
57 0.655673    1
4  0.652616    0
85 0.648620    1
59 0.648586    1
19 0.646965    0
70 0.646262    1
88 0.644482    1
8  0.643191    0
38 0.642704    0
3  0.640933    0
55 0.640630    1
47 0.640444    0
95 0.639552    1
13 0.639050    0
22 0.638485    0
29 0.635590    0
90 0.634376    1
37 0.632224    0
6  0.631119    0
46 0.630037    0
11 0.629718    0
66 0.627807    1
42 0.624795    0
44 0.621703    0
32 0.614932    0
24 0.603874    0
84 0.603249    1

计算训练集中正确的个数与非正确的个数

运用一下的算式进行TPR和FPR的计算

index = 0
for i in sorted_mat.values:
  if i[1] == 0:
    TPR.append(TPR[index])
    FPR.append(FPR[index] + 1.0/F_num)
  else:
    TPR.append(TPR[index] + 1.0/T_num)
    FPR.append(FPR[index])
  index += 1

最后进行TPR和FPR的描绘

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

时间: 2020-06-26

python3光学字符识别模块tesserocr与pytesseract的使用详解

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程 tesserocr与pytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Goog

python使用梯度下降和牛顿法寻找Rosenbrock函数最小值实例

Rosenbrock函数的定义如下: 其函数图像如下: 我分别使用梯度下降法和牛顿法做了寻找Rosenbrock函数的实验. 梯度下降 梯度下降的更新公式: 图中蓝色的点为起点,橙色的曲线(实际上是折线)是寻找最小值点的轨迹,终点(最小值点)为 (1,1)(1,1). 梯度下降用了约5000次才找到最小值点. 我选择的迭代步长 α=0.002α=0.002,αα 没有办法取的太大,当为0.003时就会发生振荡: 牛顿法 牛顿法的更新公式: Hessian矩阵中的每一个二阶偏导我是用手算算出来的.

Python多进程multiprocessing、进程池用法实例分析

本文实例讲述了Python多进程multiprocessing.进程池用法.分享给大家供大家参考,具体如下: 内容相关: multiprocessing: 进程的创建与运行 进程常用相关函数 进程池: 为什么要有进程池 进程池的创建与运行:串行.并行 回调函数 多进程multiprocessing: python中的多进程需要使用multiprocessing模块 多进程的创建与运行: 1.进程的创建:进程对象=multiprocessing.Process(target=函数名,args=(参

python中的subprocess.Popen()使用详解

从python2.4版本开始,可以用subprocess这个模块来产生子进程,并连接到子进程的标准输入/输出/错误中去,还可以得到子进程的返回值. subprocess意在替代其他几个老的模块或者函数,比如:os.system os.spawn* os.popen* popen2.* commands.* 一.subprocess.Popen subprocess模块定义了一个类: Popen class subprocess.Popen( args, bufsize=0, executable

python3安装OCR识别库tesserocr过程图解

OCR简介 OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程. window环境 环境材料准备 Window10 Python-3.7.3.tgz tesserocr安装包 安装tesserocr 1.打开链接,http

解决windows下python3使用multiprocessing.Pool出现的问题

例如: from multiprocessing import Pool def f(x): return x*x pool = Pool(processes=4) r=pool.map(f, range(100)) pool.close() pool.join() 在spyder里运行直接没反应:在shell窗口里,直接报错,如下: Process SpawnPoolWorker-15: Traceback (most recent call last): File "C:\Anaconda3

python multiprocessing多进程变量共享与加锁的实现

python多进程和多线程是大家会重点了解的部分,因为很多工作如果并没有前后相互依赖关系的话其实顺序并不是非常的重要,采用顺序执行的话就必定会造成无谓的等待,任凭cpu和内存白白浪费,这是我们不想看到的. 为了解决这个问题,我们就可以采用多线程或者多进程的方式,(多线程我们之后再讲),而这两者之间是有本质区别的.就内存而言,已知进程是在执行过程中有独立的内存单元的,而多个线程是共享内存的,这是多进程和多线程的一大区别. 利用Value在不同进程中同步变量 在多进程中,由于进程之间内存相互是隔离的

python 多进程并行编程 ProcessPoolExecutor的实现

使用 ProcessPoolExecutor from concurrent.futures import ProcessPoolExecutor, as_completed import random 斐波那契数列 当 n 大于 30 时抛出异常 def fib(n): if n > 30: raise Exception('can not > 30, now %s' % n) if n <= 2: return 1 return fib(n-1) + fib(n-2) 准备数组 nu

python多进程并行代码实例

这篇文章主要介绍了python多进程并行代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 代码: from multiprocessing import Process import sys, os import time def timetask(string): while True: print(string) def works(func, arg, worknum): proc_record = [] for i in rang

理论讲解python多进程并发编程

一.什么是进程 进程:正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 二.进程与程序的区别 程序:仅仅是一堆代 进程:是指打开程序运行的过程 三.并发与并行 并发与并行是指cpu运行多个程序的方式 不管是并行与并发,在用户看起来都是'同时'运行的,他们都只是一个任务而已,正在干活的是cpu,而一个cpu只能执行一个任务. 并行就相当于有好多台设备,可以同时供好多人使用. 而并发就相当于只有一台设备,供几个人轮流用,每个人用一会就换另一个人. 所以只有多个cpu才能实现并行,而一个c

Python多进程并发与多线程并发编程实例总结

本文实例总结了Python多进程并发与多线程并发.分享给大家供大家参考,具体如下: 这里对python支持的几种并发方式进行简单的总结. Python支持的并发分为多线程并发与多进程并发(异步IO本文不涉及).概念上来说,多进程并发即运行多个独立的程序,优势在于并发处理的任务都由操作系统管理,不足之处在于程序与各进程之间的通信和数据共享不方便:多线程并发则由程序员管理并发处理的任务,这种并发方式可以方便地在线程间共享数据(前提是不能互斥).Python对多线程和多进程的支持都比一般编程语言更高级

深入理解python多进程编程

1.python多进程编程背景 python中的多进程最大的好处就是充分利用多核cpu的资源,不像python中的多线程,受制于GIL的限制,从而只能进行cpu分配,在python的多进程中,适合于所有的场合,基本上能用多线程的,那么基本上就能用多进程. 在进行多进程编程的时候,其实和多线程差不多,在多线程的包threading中,存在一个线程类Thread,在其中有三种方法来创建一个线程,启动线程,其实在多进程编程中,存在一个进程类Process,也可以使用那集中方法来使用:在多线程中,内存中

Python多进程编程技术实例分析

本文以实例形式分析了Python多进程编程技术,有助于进一步Python程序设计技巧.分享给大家供大家参考.具体分析如下: 一般来说,由于Python的线程有些限制,例如多线程不能充分利用多核CPU等问题,因此在Python中我们更倾向使用多进程.但在做不阻塞的异步UI等场景,我们也会使用多线程.本篇文章主要探讨Python多进程的问题. Python在2.6引入了多进程的机制,并提供了丰富的组件及api以方便编写并发应用.multiprocessing包的组件Process, Queue, P

探究Python多进程编程下线程之间变量的共享问题

 1.问题: 群中有同学贴了如下一段代码,问为何 list 最后打印的是空值? from multiprocessing import Process, Manager import os manager = Manager() vip_list = [] #vip_list = manager.list() def testFunc(cc): vip_list.append(cc) print 'process id:', os.getpid() if __name__ == '__main_

Python多进程编程multiprocessing代码实例

在 多线程与多进程的比较 这一篇中记录了多进程编程的一种方式. 下面记录一下多进程编程的别一种方式,即使用multiprocessing编程 import multiprocessing import time def get_html(n): time.sleep(n) print('sub process %s' % n) return n if __name__ == '__main__': # 多进程编程 process = multiprocessing.Process(target=

Python实现并行抓取整站40万条房价数据(可更换抓取城市)

写在前面 这次的爬虫是关于房价信息的抓取,目的在于练习10万以上的数据处理及整站式抓取. 数据量的提升最直观的感觉便是对函数逻辑要求的提高,针对Python的特性,谨慎的选择数据结构.以往小数据量的抓取,即使函数逻辑部分重复,I/O请求频率密集,循环套嵌过深,也不过是1~2s的差别,而随着数据规模的提高,这1~2s的差别就有可能扩展成为1~2h. 因此对于要抓取数据量较多的网站,可以从两方面着手降低抓取信息的时间成本. 1)优化函数逻辑,选择适当的数据结构,符合Pythonic的编程习惯.例如,

python多进程和多线程究竟谁更快(详解)

python3.6 threading和multiprocessing 四核+三星250G-850-SSD 自从用多进程和多线程进行编程,一致没搞懂到底谁更快.网上很多都说python多进程更快,因为GIL(全局解释器锁).但是我在写代码的时候,测试时间却是多线程更快,所以这到底是怎么回事?最近再做分词工作,原来的代码速度太慢,想提速,所以来探求一下有效方法(文末有代码和效果图) 这里先来一张程序的结果图,说明线程和进程谁更快 一些定义 并行是指两个或者多个事件在同一时刻发生.并发是指两个或多个