pytorch 实现冻结部分参数训练另一部分

1)添加下面一句话到模型中

for p in self.parameters():
 p.requires_grad = False

比如加载了resnet预训练模型之后,在resenet的基础上连接了新的模快,resenet模块那部分可以先暂时冻结不更新,只更新其他部分的参数,那么可以在下面加入上面那句话

class RESNET_MF(nn.Module):
 def __init__(self, model, pretrained):
  super(RESNET_MF, self).__init__()
  self.resnet = model(pretrained)
  for p in self.parameters():
   p.requires_grad = False #预训练模型加载进来后全部设置为不更新参数,然后再后面加层
  self.f = SpectralNorm(nn.Conv2d(2048, 512, 1))
  self.g = SpectralNorm(nn.Conv2d(2048, 512, 1))
  self.h = SpectralNorm(nn.Conv2d(2048, 2048, 1))
  ...

同时在优化器中添加:

filter(lambda p: p.requires_grad, model.parameters())
optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.001, \
 betas=(0.9, 0.999), eps=1e-08, weight_decay=1e-5)

2) 参数保存在有序的字典中,那么可以通过查找参数的名字对应的id值,进行冻结

查看每一层的代码:

model_dict = torch.load('net.pth.tar').state_dict()
dict_name = list(model_dict)
for i, p in enumerate(dict_name):
 print(i, p)

打印一下这个文件,可以看到大致是这个样子的:

0 gamma
1 resnet.conv1.weight
2 resnet.bn1.weight
3 resnet.bn1.bias
4 resnet.bn1.running_mean
5 resnet.bn1.running_var
6 resnet.layer1.0.conv1.weight
7 resnet.layer1.0.bn1.weight
8 resnet.layer1.0.bn1.bias
9 resnet.layer1.0.bn1.running_mean
....

同样在模型中添加这样的代码:

for i,p in enumerate(net.parameters()):
 if i < 165:
  p.requires_grad = False

在优化器中添加上面的那句话可以实现参数的屏蔽

补充:pytorch 加载预训练模型 + 断点恢复 + 冻结训练(避坑版本)

1、 预训练模型网络结构 = 你要加载模型的网络结构

那么直接 套用

path="你的 .pt文件路径"
model = "你的网络"
checkpoint = torch.load(path, map_location=device)
model.load_state_dict(checkpoint)

2、 预训练模型网络结构 与你的网络结构不一致

当你直接套用上面公式,会出现类似unexpected key module.xxx.weight问题

这种情况下,需要具体分析一下网络信息,再决定如何加载。

# model_dict 是一个字典,保存网络 各层名称和参数,
model_dict = model.state_dict()
print(model_dict.keys()
# 这里打印出 网络 各层名称
checkpoint = torch.load(path,map_location=device)
for k, v in checkpoint.items():
 print("keys:".k)
# 这里打印出 预训练模型网络 各层名称, 是字典 【键】显示的另一种方式。

然后,对比两者网络结构参数 的异同,

若各层网络名称 基本不一致,那这个预训练模型基本就没法用了,直接换模型吧

若两者网络参数有很多 类似的地方,但又不完全一致,那可以采取如下方式。

(1) 部分网络关键字 ---- 完全匹配的情况

model.load_state_dict(checkpoint, strict=True)

load_state_dict 函数添加 参数 strict=True, 它直接忽略那些没有的dict,有相同的就复制,没有就直接放弃赋值!他要求预训练模型的关键字必须确切地严格地和 网络的 state_dict() 函数返回的关键字相匹配才能赋值。

strict 也不是很智能,适用于那些 网络关键字 基本能够匹配的情况。否则即使加载成功,网络参数也是空的。

(2)大部分网络关键字 ---- 部分匹配 (不完全相同,但类似),例如

网络关键字: backbone.stage0.rbr_dense.conv.weight

预训练模型 关键字:stage0.rbr_dense.conv.weight

可以看到,网络关键字 比预训练模型 多了一个前缀,其它完全一致,这种情况下,可以把 预训练模型的 stage0.rbr_dense.conv.weight 读入 网络的 backbone.stage0.rbr_dense.conv.weight 中。

# 对于 字典而言,in 或 not in 运算符都是基于 key 来判断的
model_dict = model.state_dict()
checkpoint = torch.load(path,map_location=device)
# k 是预训练模型的一个关键字, ss是 网络的有一个关键字
for k, v in checkpoint.items():
 flag = False
 for ss in model_dict.keys():
 if k in ss: # 在每一个元素内部匹配
 s = ss; flag = True; break
 else:
 continue
 if flag:
 checkpoint[k] = model_dict[s]

3、断点恢复

我感觉这个和常规【模型保存加载】方法的区别主要是 epoch的恢复

# 模型保存
state = {
 'epoch': epoch,
 'state_dict': model.state_dict(),
 'optimizer': optimizer.state_dict(),
  ... # 有其他希望保存的内容,也可自定义
 }
 torch.save(state, filepath)
# 加载模型,恢复训练
 model.load_state_dict(state['state_dict'])
 optimizer.load_state_dict(state['optimizer'])
 start_epoch = checkpoint['epoch'] + 1

4、冻结训练

一般冻结训练都是针对【backbone】来说的,较多应用于【迁移学习】

例如,0-49 Epoch:冻结 backbone进行训练;50-99:不冻结训练。

Init_Epoch = 0
Freeze_Epoch = 50
Unfreeze_Epoch =100
#------------------------------------#
# 冻结一定部分训练
#------------------------------------#
for param in model.backbone.parameters():
 param.requires_grad = False
for epoch in range(Init_Epoch,Freeze_Epoch):
 # I`m Freeze-training !!
 pass
#------------------------------------#
# 解冻后训练
#------------------------------------#
for param in model.backbone.parameters():
 param.requires_grad = True
for epoch in range(Freeze_Epoch,Unfreeze_Epoch):
 # I`m unfreeze-training !!
 pass

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。如有错误或未考虑完全的地方,望不吝赐教。

时间: 2021-03-26

pytorch 固定部分参数训练的方法

需要自己过滤 optimizer.SGD(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-3) 另外,如果是Variable,则可以初始化时指定 j = Variable(torch.randn(5,5), requires_grad=True) 但是如果是 m = nn.Linear(10,10) 是没有requires_grad传入的 m.requires_grad也没有 需要 for i in m.parameter

Pytorch加载部分预训练模型的参数实例

前言 自从从深度学习框架caffe转到Pytorch之后,感觉Pytorch的优点妙不可言,各种设计简洁,方便研究网络结构修改,容易上手,比TensorFlow的臃肿好多了.对于深度学习的初学者,Pytorch值得推荐.今天主要主要谈谈Pytorch是如何加载预训练模型的参数以及代码的实现过程. 直接加载预选脸模型 如果我们使用的模型和预训练模型完全一样,那么我们就可以直接加载别人的模型,还有一种情况,我们在训练自己模型的过程中,突然中断了,但只要我们保存了之前的模型的参数也可以使用下面的代码直

在pytorch中查看可训练参数的例子

pytorch中我们有时候可能需要设定某些变量是参与训练的,这时候就需要查看哪些是可训练参数,以确定这些设置是成功的. pytorch中model.parameters()函数定义如下: def parameters(self): r"""Returns an iterator over module parameters. This is typically passed to an optimizer. Yields: Parameter: module paramete

pytorch 在网络中添加可训练参数,修改预训练权重文件的方法

实践中,针对不同的任务需求,我们经常会在现成的网络结构上做一定的修改来实现特定的目的. 假如我们现在有一个简单的两层感知机网络: # -*- coding: utf-8 -*- import torch from torch.autograd import Variable import torch.optim as optim x = Variable(torch.FloatTensor([1, 2, 3])).cuda() y = Variable(torch.FloatTensor([4,

浅谈在fetch方法中添加header后遇到的预检请求问题

今天在使用fetch方法 fetch('xxx.com',{header:{bbbbbbb:111}}) 浏览器返回的请求信息中,header变成了 :authority:koss.nocorp.me :method:OPTIONS :path:/?a=1 :scheme:https accept:*/* accept-encoding:gzip, deflate, br accept-language:zh-CN,zh;q=0.8 access-control-request-headers:

pytorch 修改预训练model实例

我就废话不多说了,直接上代码吧! class Net(nn.Module): def __init__(self , model): super(Net, self).__init__() #取掉model的后两层 self.resnet_layer = nn.Sequential(*list(model.children())[:-2]) self.transion_layer = nn.ConvTranspose2d(2048, 2048, kernel_size=14, stride=3)

如何在Windows Vista中预览PDF文件的方法

之前我们曾介绍过Windows Vista的预览功能,即在用户不打开相应文件的情况下查看文件的具体内容,这是个相当有用的功能,可以大大提高日常工作的效率.Windows Vista预览功能可支持的对象包括图片.音频.视频.字体.文本.E-mail乃至Office文档如Word.Excel.PowerPoint文件. 不过,对于PDF(Portable Document Format)文件,则没有这么幸运了,即使在Windows Vista中安装了可以创建PDF的Office 2007后,仍然不能

ASP.NET Core中预压缩静态文件的方法步骤

前言 Web应用程序的优化是非常重要,因为使用更少的CPU,占用更少的带宽可以减少项目的费用. 在ASP.NET Core中我们可以很容易的启用响应压缩,但是针对预压缩文件,就需要做一些额外的功能了. 这篇博客文章展示了如何在ASP.NET Core中预压缩静态文件. 下面话不多说了,来一起看看详细的介绍吧 为什么需要预压缩文件? 虽然在从服务器请求文件时, 我们可以动态压缩文件,但这意味这Web服务器需要做更多的额外工作. 其实只有在新的应用程序部署时才会更改要压缩的文件. 越好的压缩效果需要

服务器中aux,com1,com2,prn,con,nul等特殊文件删除方法

超级批处理: 复制代码 代码如下: DEL /F /A /Q \\?\%1 RD /S /Q \\?\%1 文件-另存为"统统删除.bat" (名字叫什么都可以,不过后缀一定要".bat") 然后,把要删除的文件或者目录拖放到这个bat文件的图标上就可以删除了! 单独删除木马的方法:del \\.\d:\aux\com1.asp 就可以删除这个木马了 直接删除文件夹的方法:rd /q/s \\.\d:\aux 这样整个文件夹就可以删除了 建立的该文件夹的方法:md

php中比较简单的导入phpmyadmin生成的sql文件的方法

我们知道很多在网上下载的论坛或者个人博客程序都有安装的页面,要制作这样的安装程序就需要用到sql文件创建数据库. 只对phpmyadmin导出的sql文件有效 复制代码 代码如下: $dbfile="test.sql"; $content=iconv("UTF-8","GB2312",file_get_contents($dbfile)); //获取创建的数据 //去掉注释 $content=preg_replace("/--.*\n/

基于pytorch 预训练的词向量用法详解

如何在pytorch中使用word2vec训练好的词向量 torch.nn.Embedding() 这个方法是在pytorch中将词向量和词对应起来的一个方法. 一般情况下,如果我们直接使用下面的这种: self.embedding = torch.nn.Embedding(num_embeddings=vocab_size, embedding_dim=embeding_dim) num_embeddings=vocab_size 表示词汇量的大小 embedding_dim=embeding

使用darknet框架的imagenet数据分类预训练操作

最近一段时间一直在研究yolo物体检测,基于网络上很少有yolo的分类预训练和yolo9000的联合数据的训练方法,经过本人的真实实验,对这两个部分做一个整理(本篇介绍yolo的分类预训练) 1.数据准备 1000类的Imagenet图片数据 因为Imagenet不同的类别数据都是单独放在一个文件夹中,并且有特定的命名,如'n00020287',所以在做分类时我们不需要去制作特定的标签,只要训练的图片的path中包含自身的类别标签,而不含有其他类的标签即可. 制作用于训练的数据列表*classf

asp.net中MVC借助Iframe实现无刷新上传文件实例

本文实例讲述了asp.net中MVC借助Iframe实现无刷新上传文件的方法.分享给大家供大家参考.具体实现方法如下: html: 复制代码 代码如下: <div id="uploadwindow" style="display: none;">     <form action="/ShopActivitys/ImportActivityItems" id="form1" name="form1&