Pytorch Dataset,TensorDataset,Dataloader,Sampler关系解读

更新时间：2023年09月11日 16:45:34 作者：czg792845236

这篇文章主要介绍了Pytorch Dataset,TensorDataset,Dataloader,Sampler关系,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

Dataloader

Dataloader是数据加载器，组合数据集和采样器，并在数据集上提供单线程或多线程的迭代器。

所以Dataloader的参数必然需要指定数据集Dataset和采样器Sampler。

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False)

dataset (Dataset) – 数据集。
batch_size (int, optional) – 每个batch加载样本数。
shuffle (bool, optional) – True则打乱数据.
sampler (Sampler, optional) – 采样器，如指定则忽略shuffle参数。
num_workers (int, optional) – 用多少个子进程加载数据。0表示数据将在主进程中加载
collate_fn (callable, optional) – 获取batch数据的回调函数，也就是说可以在这个函数中修改batch的形式
pin_memory (bool, optional) –
drop_last (bool, optional) – 如果数据集大小不能被batch size整除，则设置为True后可删除最后一个不完整的batch。如果设为False并且数据集的大小不能被batch size整除，则最后一个batch将更小。

Dataset和TensorDataset

所有其他数据集都应该进行子类化。所有子类应该override __len__ 和 __getitem__ ，前者提供了数据集的大小，后者支持整数索引，范围从0到len(self)。

TensorDataset是Dataset的子类，已经复写了 __len__ 和 __getitem__ 方法，只要传入张量即可，它通过第一个维度进行索引。

TensorDataset示例

所以TensorDataset说白了就是将输入的tensors捆绑在一起，然后 __len__ 是任何一个tensor的维度， __getitem__ 表示每个tensor取相同的索引，然后将这个结果组成一个元组，源码如下，要好好理解它通过第一个维度进行索引的意思(针对tensors里面的每一个tensor而言)。

class TensorDataset(Dataset):
	def __init__(self,*tensors):
		assert all(tensors[0].size(0)==tensor.size(0) for tensor in tensors)
		self.tensors = tensors
	def __getitem__(self,index):
		return tuple(tensor[index] for tensor in self.tensors)
	def __len__(self):
		return self.tensors[0].size(0)

Sampler和RandomSampler

Sampler与Dataset类似，是采样器的基础类。

每个采样器子类必须提供一个 __iter__ 方法，提供一种迭代数据集元素的索引的方法，以及返回迭代器长度的 __len__ 方法。

所以Sampler必然是关于索引的迭代器，也就是它的输出是索引。

而RandomSampler与TensorDataset类似，RandomSamper已经实现了 __iter__ 和 __len__ 方法，只需要传入数据集即可。

在这里插入图片描述

猜想理解RandomSampler的实现方式，考虑到这个类实现需要传入Dataset，所以 __len__ 就是Dataset的 __len__ ，然后 __iter__ 就可以随便搞一个随机函数对range(length)随机即可。

综合示例

结合TensorDataset和RandomSampler使用Dataloader

这里即可理解Dataloader这个数据加载器其实就是组合数据集和采样器的组合。

所以那就是先根据Sampler随机拿到一个索引，再用这个索引到Dataset中取tensors里每个tensor对应索引的数据来组成一个元组。

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

基于python实现PDF分页和管理工具开发详解
本文将详细分析一个使用wxPython开发的PDF分离和管理工具,该工具能够将PDF文件按页分离,提供预览功能,并支持别名管理系统,感兴趣的小伙伴可以了解下
2025-09-09
Python如何设置utf-8为默认编码的问题
这篇文章主要介绍了Python如何设置utf-8为默认编码的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-06-06
Python遍历字典方式就实例详解
这篇文章主要介绍了Python遍历字典方式就实例详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-12-12
python政策网字体反爬实例(附完整代码)
大家好，本篇文章主要讲的是python政策网字体反爬实例（附完整代码），感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-01-01
手把手教你在Python里使用ChatGPT
最近几天我一直在玩 ChatGPT,我对使用这个工具的无限可能性着迷,下面这篇文章主要给大家介绍了关于在Python里使用ChatGPT的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
2022-12-12
Python实现Web指纹识别实例
这篇文章主要来带大家探索Web指纹识别：了解主流识别方式，从标题到指纹读取网站信息的简单方法，揭秘Web指纹识别关键字、哈希和URL的魔力
2023-10-10
聊聊Python中的浮点数运算不准确问题
这篇文章主要介绍了聊聊Python中的浮点数运算不准确问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
Django命名URL和反向解析URL实现解析
这篇文章主要介绍了Django命名URL和反向解析URL实现解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
Python+Turtle绘制可爱的小蜜蜂详解
turtle库是一个点线面的简单图像库，在Python2.6之后被引入进来，能够完成一些比较简单的几何图像可视化。本文将利用turtle绘制一个可爱的小蜜蜂，感兴趣的可以试一试
2022-05-05
Python爬虫scrapy框架Cookie池(微博Cookie池)的使用
这篇文章主要介绍了Python爬虫scrapy框架Cookie池(微博Cookie池)的使用,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01