pytorch sampler对数据进行采样的实现

 更新时间:2019年12月31日 09:17:31   作者:蓝鲸123  
今天小编就为大家分享一篇pytorch sampler对数据进行采样的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

PyTorch中还单独提供了一个sampler模块,用来对数据进行采样。常用的有随机采样器:RandomSampler,当dataloader的shuffle参数为True时,系统会自动调用这个采样器,实现打乱数据。默认的是采用SequentialSampler,它会按顺序一个一个进行采样。这里介绍另外一个很有用的采样方法: WeightedRandomSampler,它会根据每个样本的权重选取数据,在样本比例不均衡的问题中,可用它来进行重采样。

构建WeightedRandomSampler时需提供两个参数:每个样本的权重weights、共选取的样本总数num_samples,以及一个可选参数replacement。权重越大的样本被选中的概率越大,待选取的样本数目一般小于全部的样本数目。replacement用于指定是否可以重复选取某一个样本,默认为True,即允许在一个epoch中重复采样某一个数据。如果设为False,则当某一类的样本被全部选取完,但其样本数目仍未达到num_samples时,sampler将不会再从该类中选择数据,此时可能导致weights参数失效。

下面举例说明。

from dataSet import *
dataset = DogCat('data/dogcat/', transform=transform)

from torch.utils.data import DataLoader
# 狗的图片被取出的概率是猫的概率的两倍
# 两类图片被取出的概率与weights的绝对大小无关,只和比值有关
weights = [2 if label == 1 else 1 for data, label in dataset]

print(weights)

from torch.utils.data.sampler import WeightedRandomSampler
sampler = WeightedRandomSampler(weights,\
                num_samples=9,\
                replacement=True)
dataloader = DataLoader(dataset,
            batch_size=3,
            sampler=sampler)
for datas, labels in dataloader:
  print(labels.tolist())

输出:

[2, 2, 1, 1, 2, 1, 1, 2]
[1, 1, 0]
[1, 0, 0]
[0, 0, 1]

github 地址:

https://github.com/WebLearning17/CommonTool

以上这篇pytorch sampler对数据进行采样的实现就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python采集C站热榜数据实战示例

    Python采集C站热榜数据实战示例

    这篇文章主要为大家介绍了Python采集C站热榜数据实战示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05
  • 利用python、tensorflow、opencv、pyqt5实现人脸实时签到系统

    利用python、tensorflow、opencv、pyqt5实现人脸实时签到系统

    这篇文章主要介绍了利用python、tensorflow、opencv、pyqt5实现人脸实时签到系统,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • Django基础知识 web框架的本质详解

    Django基础知识 web框架的本质详解

    这篇文章主要介绍了Django基础知识 web框架的本质详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 如何安装并在pycharm使用selenium的方法

    如何安装并在pycharm使用selenium的方法

    这篇文章主要介绍了如何安装并在pycharm使用selenium,本文给大家提到了selenium安装并导入pycharm的教程,本文通过图文实例相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • 使用Python进行有效的数据脱敏的常用方法

    使用Python进行有效的数据脱敏的常用方法

    数据脱敏(Data Masking)是在数据处理和分析过程中,对敏感信息进行处理,以保护个人隐私和企业机密的一种技术手段,数据脱敏的目的是不会泄露敏感信息,同时保持数据的可用性和分析价值,本文给大家介绍了使用Python进行有效的数据脱敏的常用方法,需要的朋友可以参考下
    2025-03-03
  • pandas 实现分组后取第N行

    pandas 实现分组后取第N行

    这篇文章主要介绍了pandas 实现分组后取第N行的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • 使用tf.keras.MaxPooling1D出现错误问题及解决

    使用tf.keras.MaxPooling1D出现错误问题及解决

    这篇文章主要介绍了使用tf.keras.MaxPooling1D出现错误问题及解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • pandas DataFrame 赋值的注意事项说明(index)

    pandas DataFrame 赋值的注意事项说明(index)

    这篇文章主要介绍了pandas DataFrame 赋值的注意事项说明(index),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • 基于pygame实现贪吃蛇小游戏示例

    基于pygame实现贪吃蛇小游戏示例

    大家好,本篇文章主要讲的是基于pygame实现贪吃蛇小游戏示例,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2021-12-12
  • Pandas-Cookbook 时间戳处理方式

    Pandas-Cookbook 时间戳处理方式

    今天小编就为大家分享一篇Pandas-Cookbook 时间戳处理方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12

最新评论