Pytorch中的图像增广transforms类和预处理方法

2026-02-02 04:40:29

1.随机翻转（水平和垂直）

torchvision.transforms.RandomVerticalFlip函数和torchvision.transforms.RandomHorizontalFlip函数是两个可以实现数据增强的函数，可以将输入的图像进行随机垂直翻转和随机水平翻转，从而增加数据集的多样性。

具体来说，torchvision.transforms.RandomVerticalFlip函数可以将输入图像在垂直方向上进行随机翻转，而torchvision.transforms.RandomHorizontalFlip函数可以将输入图像在水平方向上进行随机翻转。这两个函数都可以通过设置参数来控制翻转的概率。

下面是这两个函数的使用方法：

import torch
import torchvision.transforms as transforms

# 定义随机垂直翻转和随机水平翻转的概率
vflip_probability = 0.5  # 随机垂直翻转的概率
hflip_probability = 0.5  # 随机水平翻转的概率

# 定义图像变换
transform = transforms.Compose([
    transforms.RandomVerticalFlip(p=vflip_probability),
    transforms.RandomHorizontalFlip(p=hflip_probability)
])

在上述代码中，我们首先通过transforms.Compose函数定义了一个图像变换的序列，其中包含了随机垂直翻转和随机水平翻转两个操作。

2.随机裁剪缩放

torchvision.transforms.RandomResizedCrop函数可以进行随机裁剪和缩放，从而增加数据集的多样性。在实际使用中，这个函数有许多可调参数，下面是一个更加完整的介绍：

transforms.RandomResizedCrop(
    size,       # 输出图像的大小
    scale=(0.08, 1.0),  # 缩放范围，将输入图像按照该范围内的随机比例缩放
    ratio=(3.0/4.0, 4.0/3.0),   # 长宽比范围，将输入图像按照该范围内的随机比例进行裁剪
    interpolation=2     # 缩放时使用的插值方法，可选1、2、3、4中的一个，默认为PIL.Image.BILINEAR
)

下面是各个参数的详细介绍：

size：输出图像的大小，可以是一个整数，表示输出图像的边长，或者是一个二元组，表示输出图像的宽和高。例如，如果设置size=224，则输出图像的大小为 224 × 224 224\times224 224×224；如果设置size=(256,192)，则输出图像的大小为 256 × 192 256\times192 256×192。
scale：缩放范围，将输入图像按照该范围内的随机比例缩放。该参数是一个二元组，表示缩放比例的范围，例如(0.08,1.0)表示将输入图像缩放到原来的 0.08 0.08 0.08到 1.0 1.0 1.0倍之间的随机比例。默认值为(0.08, 1.0)。
ratio：长宽比范围，将输入图像按照该范围内的随机比例进行裁剪。该参数是一个二元组，表示长宽比的范围，例如(3.0/4.0,4.0/3.0)表示将输入图像按照宽高比在 3 / 4 3/4 3/4到 4 / 3 4/3 4/3之间的随机比例进行裁剪。默认值为(3.0/4.0, 4.0/3.0)。
interpolation：缩放时使用的插值方法，可选1、2、3、4中的一个，分别表示PIL.Image.NEAREST、PIL.Image.BILINEAR、PIL.Image.BICUBIC和PIL.Image.LANCZOS。默认值为PIL.Image.BILINEAR。

3.随机修改颜色（颜色抖动）

在PyTorch中，torchvision.transforms.RandomColorJitter函数可以用于对图像进行随机颜色抖动，增加数据集的多样性。这个函数可以随机地改变图像的亮度、对比度、饱和度和色相，并且还可以随机地进行灰度化操作。下面是该函数的参数：

transforms.RandomColorJitter(
    brightness=0.1,    # 亮度调整的强度，默认值为0.1
    contrast=0.1,      # 对比度调整的强度，默认值为0.1
    saturation=0.1,    # 饱和度调整的强度，默认值为0.1
    hue=0.1,           # 色相调整的强度，默认值为0.1
    p=0.5,             # 执行颜色抖动的概率，默认值为0.5
)

下面是各个参数的详细介绍：

brightness：亮度调整的强度。默认值为0.1。如果设置为0，则不进行亮度调整。
contrast：对比度调整的强度。默认值为0.1。如果设置为0，则不进行对比度调整。
saturation：饱和度调整的强度。默认值为0.1。如果设置为0，则不进行饱和度调整。
hue：色相调整的强度。默认值为0.1。如果设置为0，则不进行色相调整。
p：执行颜色抖动的概率。默认值为0.5。如果设置为1，则每个图像都会执行颜色抖动。

4.将图像转化为张量

在PyTorch的torchvision库中，ToTensor函数是一种将PIL Image或numpy.ndarray格式的图像转换为PyTorch Tensor格式的函数。它可以将图像中的像素值转换为0到1之间的标准化数值，并调整图像的通道顺序，使其符合PyTorch模型的输入要求。

ToTensor函数的使用方法如下：

from torchvision.transforms import ToTensor
transform = ToTensor()

一般来说，在使用Compose组合在一起的一组transform中，ToTensor函数应该放在最后一个位置，以便将图像转换为PyTorch Tensor格式的图像，并确保其他所有的transform都在Tensor转换之前完成。

5.标准化操作

在PyTorch的torchvision.transforms库中，Normalize函数是一种对图像进行标准化处理的函数。它可以将图像中的像素值进行归一化处理，使得图像的像素值均值为0，标准差为1，从而增强模型的收敛速度和泛化性能。

Normalize函数的使用方法如下：

from torchvision.transforms import Normalize
transform = Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

在上述代码中，我们首先导入了Normalize函数，并创建了一个名为transform的Normalize对象。其中，mean和std参数分别代表图像各通道像素值的平均值和标准差。在这里，我们以ImageNet数据集的图像均值和标准差为例进行了设置。

需要注意的是，Normalize函数应该在图像转换为PyTorch Tensor格式之后应用，即在ToTensor之后。这是因为Normalize需要对每个通道的像素值进行标准化，而ToTensor函数将图像中的像素值转换为PyTorch Tensor格式后，每个通道的像素值将存储在不同的维度上，因此才需要在ToTensor之后进行标准化处理。

6.同时结合多种增广方法

在PyTorch的torchvision库中，Compose函数是一种将多个数据增强操作组合在一起的函数。它可以将多个数据增强操作按照一定的顺序组合在一起，并将它们作为一个整体应用于数据集中的每个样本。Compose函数可以帮助我们方便地实现复杂的数据增强操作，同时也可以使我们的代码更加简洁和易读。

Compose函数的使用方法如下：

from torchvision.transforms import Compose
from torchvision.transforms import RandomCrop, RandomHorizontalFlip, ToTensor

transform = Compose([
    RandomCrop(32),
    RandomHorizontalFlip(),
    ToTensor()
])

在上述代码中，我们首先导入了Compose函数和其他一些数据增强操作，然后创建了一个名为transform的Compose对象。该Compose对象由三个数据增强操作组成：随机裁剪(RandomCrop)，随机水平翻转(RandomHorizontalFlip)和转换为Tensor格式(ToTensor)。

到此这篇关于Pytorch中的图像增广和预处理方法（transforms类）的文章就介绍到这了,更多相关Pytorch图像增广和预处理内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Pytorch中transforms.Resize()的简单使用

目录 transforms.Resize()的简单使用 transforms.Resize([224, 224])解读 transforms.Resize()的简单使用简单来说就是调整PILImage对象的尺寸,注意不能是用io.imread或者cv2.imread读取的图片,这两种方法得到的是ndarray. 将图片短边缩放至x,长宽比保持不变: transforms.Resize(x) 而一般输入深度网络的特征图长宽是相等的,就不能采取等比例缩放的方式了,需要同时指定长宽: transfo
pytorch 中transforms的使用详解

目录 transforms ToTensor transforms使用为什么需要tensor数据类型呢? 常见的transforms 内置方法__call__() Normalize Resize Compose transforms 按住Ctrl查看transforms的源码可以知道,transforms就是一个python文件,里面定义了很多类,每一个类都是一个工具在结构那里,可以看到有很多的类 ToTensor Convert a PIL Image or numpy.ndarray t
pytorch中的transforms模块实例详解

pytorch中的transforms模块中包含了很多种对图像数据进行变换的函数,这些都是在我们进行图像数据读入步骤中必不可少的,下面我们讲解几种最常用的函数,详细的内容还请参考pytorch官方文档(放在文末). data_transforms = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms
关于Pytorch的MNIST数据集的预处理详解

关于Pytorch的MNIST数据集的预处理详解 MNIST的准确率达到99.7% 用于MNIST的卷积神经网络(CNN)的实现,具有各种技术,例如数据增强,丢失,伪随机化等. 操作系统:ubuntu18.04 显卡:GTX1080ti python版本:2.7(3.7) 网络架构具有4层的CNN具有以下架构. 输入层:784个节点(MNIST图像大小) 第一卷积层:5x5x32 第一个最大池层第二卷积层:5x5x64 第二个最大池层第三个完全连接层:1024个节点输出层:10个节点(M
pytorch 图像预处理之减去均值,除以方差的实例

如下所示: #coding=gbk ''' GPU上面的环境变化太复杂,这里我直接给出在笔记本CPU上面的运行时间结果由于方式3需要将tensor转换到GPU上面,这一过程很消耗时间,大概需要十秒,故而果断抛弃这样的做法 img (168, 300, 3) sub div in numpy,time 0.0110 sub div in torch.tensor,time 0.0070 sub div in torch.tensor with torchvision.transforms,tim
pytorch中的transforms.ToTensor和transforms.Normalize的实现

目录 transforms.ToTensor transforms.Normalize transforms.ToTensor 最近看pytorch时,遇到了对图像数据的归一化,如下图所示: 该怎么理解这串代码呢?我们一句一句的来看,先看transforms.ToTensor(),我们可以先转到官方给的定义,如下图所示: 大概的意思就是说,transforms.ToTensor()可以将PIL和numpy格式的数据从[0,255]范围转换到[0,1] ,具体做法其实就是将原始数据除以255.另外
pytorch数据预处理错误的解决

出错: Traceback (most recent call last): File "train.py", line 305, in <module> train_model(model_conv, criterion, optimizer_conv, exp_lr_scheduler) File "train.py", line 145, in train_model for inputs, age_labels, gender_labels in
Pytorch数据读取与预处理该如何实现

在炼丹时,数据的读取与预处理是关键一步.不同的模型所需要的数据以及预处理方式各不相同,如果每个轮子都我们自己写的话,是很浪费时间和精力的.Pytorch帮我们实现了方便的数据读取与预处理方法,下面记录两个DEMO,便于加快以后的代码效率. 根据数据是否一次性读取完,将DEMO分为: 1.串行式读取.也就是一次性读取完所有需要的数据到内存,模型训练时不会再访问外存.通常用在内存足够的情况下使用,速度更快. 2.并行式读取.也就是边训练边读取数据.通常用在内存不够的情况下使用,会占用计算资源,如果分
PyTorch中torch.utils.data.DataLoader简单介绍与使用方法

目录一.torch.utils.data.DataLoader 简介二.实例参考链接总结一.torch.utils.data.DataLoader 简介作用:torch.utils.data.DataLoader 主要是对数据进行 batch 的划分. 数据加载器,结合了数据集和取样器,并且可以提供多个线程处理数据集. 在训练模型时使用到此函数,用来把训练数据分成多个小组 ,此函数每次抛出一组数据 .直至把所有的数据都抛出.就是做一个数据的初始化. 好处: 使用DataLoade
pytorch中如何使用DataLoader对数据集进行批处理的方法

最近搞了搞minist手写数据集的神经网络搭建,一个数据集里面很多个数据,不能一次喂入,所以需要分成一小块一小块喂入搭建好的网络. pytorch中有很方便的dataloader函数来方便我们进行批处理,做了简单的例子,过程很简单,就像把大象装进冰箱里一共需要几步? 第一步:打开冰箱门. 我们要创建torch能够识别的数据集类型(pytorch中也有很多现成的数据集类型,以后再说). 首先我们建立两个向量X和Y,一个作为输入的数据,一个作为正确的结果: 随后我们需要把X和Y组成一个完整的数据集,
pytorch中图像的数据格式实例

计算机视觉方面朋友都需要跟图像打交道,在pytorch中图像与我们平时在matlab中见到的图像数据格式有所不同.matlab中我们通常使用函数imread()来轻松地读入一张图像,我们在变量空间中可看到数据的存储方式是H x W x C的顺序(其中H.W.C分别表示图像的高.宽和通道数,通道数一般为RGB三通道),另外,其中的每一个数据都是[0,255]的整数. 在使用pytorch的时候,我们通常要使用pytorch中torchvision包下面的datasets模块和transforms模
PyTorch 使用torchvision进行图片数据增广

目录使用torchvision来进行图片的数据增广 1. 读取图片 2. 图片增广 2.1 图片水平翻转 2.2 图片上下翻转 2.3 图片旋转 2.4 中心裁切 2.5 随机裁切 2.6 随机裁切并修改尺寸 2. 7 修改图片颜色 3. 训练数据集加载使用torchvision来进行图片的数据增广数据增强就是增强一个已有数据集,使得有更多的多样性.对于图片数据来说,就是改变图片的颜色和形状等等.比如常见的: 左右翻转,对于大多数数据集都可以使用:上下翻转:部分数据集不适合使用:图片切割:
PyTorch中的参数类torch.nn.Parameter()详解

目录前言分析 ViT中nn.Parameter()的实验其他解释参考: 总结前言今天来聊一下PyTorch中的torch.nn.Parameter()这个函数,笔者第一次见的时候也是大概能理解函数的用途,但是具体实现原理细节也是云里雾里,在参考了几篇博文,做过几个实验之后算是清晰了,本文在记录的同时希望给后来人一个参考,欢迎留言讨论. 分析先看其名,parameter,中文意为参数.我们知道,使用PyTorch训练神经网络时,本质上就是训练一个函数,这个函数输入一个数据(如CV中输
C++将CBitmap类中的图像保存到文件的方法

本文实例讲述了C++将CBitmap类中的图像保存到文件的方法.分享给大家供大家参考.具体实现方法如下: 使用下面的代码,可以把CBitmap类中的图像保存到图像文件中.支持格式:BMP.JPG.GIF和PNG. void SaveBitmap(CString strFilePath, CBitmap Bitmap) { if ( Bitmap.m_hObject ) { CImage imgTemp; // CImage是MFC中的类. imgTemp.Attach(Bitmap.operat
Pytorch中的自动求梯度机制和Variable类实例

自动求导机制是每一个深度学习框架中重要的性质,免去了手动计算导数,下面用代码介绍并举例说明Pytorch的自动求导机制. 首先介绍Variable,Variable是对Tensor的一个封装,操作和Tensor是一样的,但是每个Variable都有三个属性:Varibale的Tensor本身的.data,对应Tensor的梯度.grad,以及这个Variable是通过什么方式得到的.grad_fn,根据最新消息,在pytorch0.4更新后,torch和torch.autograd.Variab
Pytorch中的Tensorboard与Transforms搭配使用

这章是结合之前学习的Tensforboard与Transforms的一个练习. 直接上代码: from PIL import Image from torch.utils.tensorboard import SummaryWriter from torchvision import transforms import os root_path = "D:\\data\\basic\\Image" lable_path = "aligned" img_dir = o
C#中的图像Image类与打印Printing类用法

一.Images 1.概述 Image 类为Bitmap(位图) 和 Metafile(矢量图) 的类提供功能的抽象基类.Image类不能直接创建对象的,但Image.FromFile()返回的是Bitmap或者Metafile的对象. 初始化Image: Image img0 = Image.FromFile(@"C:\1.jpg"); Image img1 = Image.FromStream(File.OpenRead(@"C:\1.jpg")); Image