Python制作数据预测集成工具(值得收藏)

大数据预测是大数据最核心的应用,是它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论,更是能用于帮助企业经营的决策。

在过去,人们的决策主要是依赖 20% 的结构化数据,而大数据预测则可以利用另外 80% 的非结构化数据来做决策。大数据预测具有更多的数据维度,更快的数据频度和更广的数据宽度。与小数据时代相比,大数据预测的思维具有 3 大改变:实样而非抽样;预测效率而非精确;相关关系而非因果关系。

而今天我们就将利用python制作可视化的大数据预测部分集成工具,其中数据在这里使用一个实验中的数据。普遍性的应用则直接从文件读取即可。其中的效果图如下:

实验前的准备

首先我们使用的python版本是3.6.5所用到的模块如下:

  • sklearn模块用来创建整个模型训练和保存调用以及算法的搭建框架等等。
  • numpy模块用来处理数据矩阵运算。
  • matplotlib模块用来可视化拟合模型效果。
  • Pillow库用来加载图片至GUI界面。
  • Pandas模块用来读取csv数据文件。
  • Tkinter用来创建GUI窗口程序。

数据的训练和训练的GUI窗口

经过算法比较,发现这里我们选择使用sklearn简单的多元回归进行拟合数据可以达到比较好的效果。

(1)首先是是数据的读取,通过设定选定文件夹函数来读取文件,加载数据的效果:

'''选择文件功能'''
def selectPath():
  # 选择文件path_接收文件地址
  path_ =tkinter.filedialog.askopenfilename()
  # 通过replace函数替换绝对文件地址中的/来使文件可被程序读取
  # 注意:\\转义后为\,所以\\\\转义后为\\
  path_ =path_.replace("/", "\\\\")
  # path设置path_的值
  path.set(path_)
  return path 

# 得到的DataFrame读入所有数据
data = pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H,I")
# DataFrame转化为array
DataArray = data.values
# 读取已使用年限作为标签
Y = DataArray[:, 8]
# 读取其他参数作为自变量,影响因素
X = DataArray[:, 0:8]
# 字符串转变为整数
for i in range(len(Y)):
  Y[i] = int(Y[i].replace("年", ""))
X = np.array(X) # 转化为array
Y = np.array(Y) # 转化为array 

root = Tk()
root.geometry("+500+260")
# 背景图设置
canvas = tk.Canvas(root, width=600, height=200, bd=0, highlightthickness=0)
imgpath = '1.jpg'
img = Image.open(imgpath)
photo = ImageTk.PhotoImage(img)
#背景图大小设置
canvas.create_image(700, 400, image=photo)
canvas.pack()
path = StringVar()
#标签名称位置
label1=tk.Label(text = "目标路径:")
label1.pack()
e1=tk.Entry( textvariable = path)
e1.pack()
bn1=tk.Button(text = "路径选择", command = selectPath)
bn1.pack()
bn2=tk.Button(text = "模型训练", command = train)
bn2.pack()
bn3=tk.Button(text = "模型预测", command = test)
bn3.pack()
#标签按钮等放在背景图上
canvas.create_window(50, 50, width=150, height=30,
           window=label1)
canvas.create_window(280, 50, width=300, height=30,
           window=e1)
canvas.create_window(510, 50, width=150, height=30,
           window=bn1)
canvas.create_window(50, 100, width=150, height=30,
           window=bn2)
canvas.create_window(510, 100, width=150, height=30,
           window=bn3) 

root.mainloop() 

效果如下可见:

(2)然后是数据的拟合和可视化模型效果:

# 模型拟合
reg = LinearRegression()
reg.fit(X, Y)
# 预测效果
predict = reg.predict(np.array([X[0]]))
Y_predict = reg.predict(X)
print(Y_predict)
# 横坐标
x_label = []
for i in range(len(Y)):
  x_label.append(i)
# 绘图
fig, ax = plt.subplots()
# 真实值分布散点图
plt.scatter(x_label, Y)
# 预测值分布散点图
plt.scatter(x_label, Y_predict)
# 预测值拟合直线图
plt.plot(x_label, Y_predict)
# 横纵坐标
ax.set_xlabel('预测值与真实值模型拟合效果图')
ax.set_ylabel('蓝色为真实值,黄色为预测值')
# 将绘制的图形显示到tkinter:创建属于root的canvas画布,并将图f置于画布上
canvas = FigureCanvasTkAgg(fig, master=root)
canvas.draw() # 注意show方法已经过时了,这里改用draw
canvas.get_tk_widget().pack()
# matplotlib的导航工具栏显示上来(默认是不会显示它的)
toolbar = NavigationToolbar2Tk(canvas, root)
toolbar.update()
canvas._tkcanvas.pack()
#弹窗显示
messagebox.showinfo(title='模型情况', message="模型训练完成!")
其中的效果如下可见:

其中的效果如下可见:

模型的预测和使用

其中模型的预测主要通过两种方式进行预测,分别是:手动输入单个数据进行预测和读取文件进行预测。

其中手动输入数据进行预测需要设置更多的GUI按钮,其中代码如下:

#子窗口
LOVE = Toplevel(root)
LOVE.geometry("+100+260")
LOVE.title = "模型测试"
#子窗口各标签名
label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)", "信号质量因子"]
Label(LOVE, text="1、输入参数预测", font=("微软雅黑", 20)).grid(row=0, column=0)
#标签名称,字体位置
Label(LOVE, text=label[0], font=("微软雅黑",10)).grid(row=1, column=0)
Label(LOVE, text=label[1], font=("微软雅黑", 10)).grid(row=1, column=1)
Label(LOVE, text=label[2], font=("微软雅黑", 10)).grid(row=1, column=2)
Label(LOVE, text=label[3], font=("微软雅黑", 10)).grid(row=1, column=3)
Label(LOVE, text=label[4], font=("微软雅黑", 10)).grid(row=1, column=4)
Label(LOVE, text=label[5], font=("微软雅黑", 10)).grid(row=1, column=5)
Label(LOVE, text=label[6], font=("微软雅黑", 10)).grid(row=1, column=6)
Label(LOVE, text=label[7], font=("微软雅黑", 10)).grid(row=1, column=7)
#编辑框位置和字体
en1=tk.Entry(LOVE, font=("微软雅黑", 8))
en1.grid(row=2, column=0)
en2=tk.Entry(LOVE, font=("微软雅黑", 8))
en2.grid(row=2, column=1)
en3=tk.Entry(LOVE, font=("微软雅黑", 8))
en3.grid(row=2, column=2)
en4=tk.Entry(LOVE, font=("微软雅黑", 8))
en4.grid(row=2, column=3)
en5=tk.Entry(LOVE, font=("微软雅黑", 8))
en5.grid(row=2, column=4)
en6=tk.Entry(LOVE, font=("微软雅黑", 8))
en6.grid(row=2, column=5)
en7=tk.Entry(LOVE, font=("微软雅黑", 8))
en7.grid(row=2, column=6)
en8=tk.Entry(LOVE, font=("微软雅黑", 8))
en8.grid(row=2, column=7)
Label(LOVE, text="", font=("微软雅黑", 10)).grid(row=3, column=0)
#测试输入框预测
def pp():
  x=np.array([int(en1.get()),int(en2.get()),int(en3.get()),int(en4.get()),int(en5.get()),int(en6.get()),int(en7.get()),int(en8.get())])
  # 预测效果
  predict = reg.predict(np.array([x]))
  Label(LOVE, text="预测结果已使用年数为:"+str(predict[0])+"年", font=("微软雅黑", 10)).grid(row=4, column=3)
  print(predict)
Button(LOVE, text="预测:", font=("微软雅黑", 15),command=pp).grid(row=4, column=0)
Label(LOVE, text="2、选择文件预测", font=("微软雅黑", 20)).grid(row=5, column=0)
path1 = StringVar()
label1 = tk.Label(LOVE,text="目标路径:", font=("微软雅黑", 10))
label1.grid(row=6, column=0)
e1 = tk.Entry(LOVE,textvariable=path1, font=("微软雅黑", 10))
e1.grid(row=6, column=2)
label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)",
       "信号质量因子"]
  n = 0
  for i in predict_value:
    print(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n")
    f = open("预测结果.txt", "a")
    f.write(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n")
    f.close()
    f = open("result.txt", "a")
    f.write(str(i) + "\n")
    f.close()
    n += 1
  messagebox.showinfo(title='模型情况', message="预测结果保存在当前文件夹下的TXT文件中!")
  os.system("result.txt")
  os.system("预测结果.txt")
Button(LOVE, text="预测:", font=("微软雅黑", 15), command=ppt).grid(row=7, column=0) 

效果如下可见:

选择文件进行读取预测和模型训练数据的读取类似,代码如下:

#选择文件预测
def selectPath1():
  # 选择文件path_接收文件地址
  path_ =tkinter.filedialog.askopenfilename()
  # 通过replace函数替换绝对文件地址中的/来使文件可被程序读取
  # 注意:\\转义后为\,所以\\\\转义后为\\
  path_ =path_.replace("/", "\\\\")
  # path设置path_的值
  path1.set(path_)
  return path
bn1 = tk.Button(LOVE,text="路径选择", font=("微软雅黑", 10), command=selectPath1)
bn1.grid(row=6, column=6)
def ppt():
  try:
    os.remove("预测结果.txt")
    os.remove("result.txt")
  except:
    pass
  # 文件的名字
  FILENAME =path1.get()
  # 禁用科学计数法
  pd.set_option('float_format', lambda x: '%.3f' % x)
  np.set_printoptions(threshold=np.inf)
  # 得到的DataFrame读入所有数据
  data =pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H")
  # DataFrame转化为array
  DataArray =data.values
  # 读取其他参数作为自变量,影响因素
  X = DataArray[:,0:8]
  predict_value = reg.predict(X)
  print(predict_value) 

效果如下:

由于读取文件进行预测的话,数据较多故直接存储在TXT中方便查看

以上就是Python制作数据预测集成工具(值得收藏)的详细内容,更多关于python 数据预测的资料请关注我们其它相关文章!

时间: 2020-08-21

Python爬取数据并实现可视化代码解析

这次主要是爬了京东上一双鞋的相关评论:将数据保存到excel中并可视化展示相应的信息 主要的python代码如下: 文件1 #将excel中的数据进行读取分析 import openpyxl import matplotlib.pyplot as pit #数据统计用的 wk=openpyxl.load_workbook('销售数据.xlsx') sheet=wk.active #获取活动表 #获取最大行数和最大列数 rows=sheet.max_row cols=sheet.max_colum

python爬虫数据保存到mongoDB的实例方法

爬虫数据保存到mongoDB的方法: import pymongo # 首先需要注意,mongodb数据库存储的类型是以键值对类型进行存储,所以在存储以前一定要进行数据筛选 def save_mongo(传入的数据): # 创建连接 因为使用的为本机数据库,所以IP写localhost即可,端口号为27017 client = pymongo.MongoClient('localhost',27017) # 连接数据库(这里注意一点,mongo数据库有一个优点,就是当自己连接的数据库和表都没有的

Python读写txt文本文件的操作方法全解析

一.文件的打开和创建 >>> f = open('/tmp/test.txt') >>> f.read() 'hello python!\nhello world!\n' >>> f <open file '/tmp/test.txt', mode 'r' at 0x7fb2255efc00> 二.文件的读取 步骤:打开 -- 读取 -- 关闭 >>> f = open('/tmp/test.txt') >>&

比较详细Python正则表达式操作指南(re使用)

就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.使用这个小型语言,你可以为想要匹配的相应字符串集指定规则:该字符串集可能包含英文语句.e-mail地址.TeX命令或任何你想搞定的东西.然後你可以问诸如"这个字符串匹配该模式吗?"或"在这个字符串中是否有部分匹配该模式呢?".你也可以使用 RE 以各种方式来修改或分割字符串. 正则表达式模式被编译成一系列的字节码,然後由用 C

python操作日期和时间的方法

不管何时何地,只要我们编程时遇到了跟时间有关的问题,都要想到 datetime 和 time 标准库模块,今天我们就用它内部的方法,详解python操作日期和时间的方法.1.将字符串的时间转换为时间戳 复制代码 代码如下: 方法:a = "2013-10-10 23:40:00"#将其转换为时间数组import timetimeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S")#转换为时间戳:timeStamp = int(t

Python读取xlsx数据生成图标代码实例

运行结果: 程序代码如下: #将excel中的数据进行读取分析 import openpyxl import numpy as np import math import matplotlib.pyplot as pit wk=openpyxl.load_workbook('信息11.xlsx') sheet=wk.active rows=sheet.max_row cols=sheet.max_column lst1=[] lst2=[] for i in range (1,rows+1):

python中执行shell命令的几个方法小结

最近有个需求就是页面上执行shell命令,第一想到的就是os.system, 复制代码 代码如下: os.system('cat /proc/cpuinfo') 但是发现页面上打印的命令执行结果 0或者1,当然不满足需求了. 尝试第二种方案 os.popen() 复制代码 代码如下: output = os.popen('cat /proc/cpuinfo') print output.read() 通过 os.popen() 返回的是 file read 的对象,对其进行读取 read() 的

Python中for循环详解

与其它大多数语言一样,Python 也拥有 for 循环.你到现在还未曾看到它们的唯一原因就是,Python 在其它太多的方面表现出色,通常你不需要它们. 其它大多数语言没有像 Python 一样的强大的 list 数据类型,所以你需要亲自做很多事情,指定开始,结束和步长,来定义一定范围的整数或字符或其它可重复的实体.但是在 Python 中,for 循环简单地在一个列表上循环,与 list 解析的工作方式相同. 1. for  循环介绍 复制代码 代码如下: >>> li = ['a'

Python如何读写二进制数组数据

问题 你想读写一个二进制数组的结构化数据到Python元组中. 解决方案 可以使用 struct 模块处理二进制数据. 下面是一段示例代码将一个Python元组列表写入一个二进制文件,并使用 struct 将每个元组编码为一个结构体. from struct import Struct def write_records(records, format, f): ''' Write a sequence of tuples to a binary file of structures. '''

Python爬虫基于lxml解决数据编码乱码问题

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串.数值.时间的匹配以及节点.序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择 XPath

Python生成随机数的方法

如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处,下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系,希望你会有所收获,以下就是这篇文章的介绍. random.random()用于生成 用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限.如果a > b,则生成随机数 n: a <= n <= b.如果 a <b, 则 b <= n <= a. print random.uniform(

Python中的Numpy入门教程

1.Numpy是什么 很简单,Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy.matplotlib一起使用.其实,list已经提供了类似于矩阵的表示形式,不过numpy为我们提供了更多的函数.如果接触过matlab.scilab,那么numpy很好入手. 在以下的代码示例中,总是先导入了numpy: 复制代码 代码如下: >>> import numpy as np>>> print np.version.version1.6.2

Python 机器学习库 NumPy入门教程

NumPy是一个Python语言的软件包,它非常适合于科学计算.在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础库. 本文是对它的一个入门教程. 介绍 NumPy是一个用于科技计算的基础软件包,它是Python语言实现的.它包含了: 强大的N维数组结构 精密复杂的函数 可集成到C/C++和Fortran代码的工具 线性代数,傅里叶变换以及随机数能力 除了科学计算的用途以外,NumPy也可被用作高效的通用数据的多维容器.由于它适用于任意类型的数据,这使得NumPy可以无缝和

Python 数据处理库 pandas 入门教程基本操作

pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有表现力的数据结构,目的是使"关系"或"标记"数据的工作既简单又直观.它旨在成为在Python中进行实际数据分析的高级构建块. 入门介绍 pandas适合于许多不同类型的数据,包括: 具有异构类型列的表格数据,例如SQL表格或Excel数据 有序和无序(不一定是固定频率)时间序列数据.

在python中利用numpy求解多项式以及多项式拟合的方法

构建一个二阶多项式:x^2 - 4x + 3 多项式求解 >>> p = np.poly1d([1,-4,3]) #二阶多项式系数 >>> p(0) #自变量为0时多项式的值 3 >>> p.roots #多项式的根 array([3., 1.]) >>> p(p.roots) #多项式根处的值 array([0., 0.]) >>> p.order #多项式的阶数 2 >>> p.coeffs #

python中利用numpy.array()实现俩个数值列表的对应相加方法

小编想把用python将列表[1,1,1,1,1,1,1,1,1,1] 和 列表 [2,2,2,2,2,2,2,2,2,2]对应相加成[3,3,3,3,3,3,3,3,3,3]. 代码如下: import numpy a = numpy.array([1,1,1,1,1,1,1,1,1,1]) b = numpy.array([2,2,2,2,2,2,2,2,2,2]) c = a + b print(type(c)) print(list(c)) 输出结果为: <class 'numpy.nd

在python中安装basemap的教程

1. 确保python环境安装完毕且已配置好环境变量 2. 安装geos: pip install geos 3. 下载.whl文件: (1)pyproj‑1.9.5.1‑cp36‑cp36m‑win_amd64.whl (2)basemap‑1.1.0‑cp36‑cp36m‑win_amd64.whl 注,这两个文件均可在 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到, 需要特别注意的是版本号一定要对应(比如多少位机器,什么版本的python)

Python科学计算之NumPy入门教程

前言 NumPy是Python用于处理大型矩阵的一个速度极快的数学库.它允许你在Python中做向量和矩阵的运算,而且很多底层的函数都是用C写的,你将获得在普通Python中无法达到的运行速度.这是由于矩阵中每个元素的数据类型都是一样的,这也就减少了运算过程中的类型检测. 矩阵基础 在 numpy 包中我们用数组来表示向量,矩阵和高阶数据结构.他们就由数组构成,一维就用一个数组表示,二维就是数组中包含数组表示. 创建 # coding: utf-8 import numpy as np a =

Python中优化NumPy包使用性能的教程

NumPy是Python中众多科学软件包的基础.它提供了一个特殊的数据类型ndarray,其在向量计算上做了优化.这个对象是科学数值计算中大多数算法的核心. 相比于原生的Python,利用NumPy数组可以获得显著的性能加速,尤其是当你的计算遵循单指令多数据流(SIMD)范式时.然而,利用NumPy也有可能有意无意地写出未优化的代码. 在这篇文章中,我们将看到一些技巧,这些技巧可以帮助你编写高效的NumPy代码.我们首先看一下如何避免不必要的数组拷贝,以节省时间和内存.因此,我们将需要深入Num

Python 绘图库 Matplotlib 入门教程

运行环境 由于这是一个Python语言的软件包,因此需要你的机器上首先安装好Python语言的环境.关于这一点,请自行在网络上搜索获取方法. 关于如何安装Matplotlib请参见这里:Matplotlib Installing. 笔者推荐大家通过pip的方式进行安装,具体方法如下: sudo pip3 install matplotlib 本文中的源码和测试数据可以在这里获取:matplotlib_tutorial 本文的代码示例会用到另外一个Python库:NumPy.建议读者先对NumPy

详解Python中的Numpy、SciPy、MatPlotLib安装与配置

用Python来编写机器学习方面的代码是相当简单的,因为Python下有很多关于机器学习的库.其中下面三个库numpy,scipy,matplotlib,scikit-learn是常用组合,分别是科学计算包,科学工具集,画图工具包,机器学习工具集. numpy :主要用来做一些科学运算,主要是矩阵的运算.NumPy为Python带来了真正的多维数组功能,并且提供了丰富的函数库处理这些数组.它将常用的数学函数都进行数组化,使得这些数学函数能够直接对数组进行操作,将本来需要在Python级别进行的循