Pytorch DataLoader 变长数据处理方式

 更新时间:2020年01月08日 09:33:00   作者:HappyCtest  
今天小编就为大家分享一篇Pytorch DataLoader 变长数据处理方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据,这篇官方文档已经说得很清楚了,这里就不在赘述。

现在的问题:有的时候,特别对于NLP任务来说,输入的数据可能不是定长的,比如多个句子的长度一般不会一致,这时候使用DataLoader加载数据时,不定长的句子会被胡乱切分,这肯定是不行的。

解决方法是重写DataLoader的collate_fn,具体方法如下:

# 假如每一个样本为:
sample = {
	# 一个句子中各个词的id
	'token_list' : [5, 2, 4, 1, 9, 8],
	# 结果y
	'label' : 5,
}


# 重写collate_fn函数,其输入为一个batch的sample数据
def collate_fn(batch):
	# 因为token_list是一个变长的数据,所以需要用一个list来装这个batch的token_list
  token_lists = [item['token_list'] for item in batch]
  
  # 每个label是一个int,我们把这个batch中的label也全取出来,重新组装
  labels = [item['label'] for item in batch]
  # 把labels转换成Tensor
  labels = torch.Tensor(labels)
  return {
    'token_list': token_lists,
    'label': labels,
  }


# 在使用DataLoader加载数据时,注意collate_fn参数传入的是重写的函数
DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)

使用以上方法,可以保证DataLoader能Load出一个batch的数据,load出来的东西就是重写的collate_fn函数最后return出来的字典。

以上这篇Pytorch DataLoader 变长数据处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • YOLOv5改进系列之增加小目标检测层

    YOLOv5改进系列之增加小目标检测层

    yolov5出来已经很长时间了,所以有关yolov5的一些详细介绍在这里就不一一介绍了,下面这篇文章主要给大家介绍了关于YOLOv5改进系列之增加小目标检测层的相关资料,需要的朋友可以参考下
    2022-09-09
  • 详解Python的函数与异常

    详解Python的函数与异常

    这篇文章主要为大家介绍了Python的函数与异常,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-11-11
  • python 根据时间来生成唯一的字符串方法

    python 根据时间来生成唯一的字符串方法

    今天小编就为大家分享一篇python 根据时间来生成唯一的字符串方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python写入MySQL数据库的三种方式详解

    Python写入MySQL数据库的三种方式详解

    Python 读取数据自动写入 MySQL 数据库,这个需求在工作中是非常普遍的,主要涉及到 python 操作数据库,读写更新等。本文总结了Python写入MySQL数据库的三种方式,需要的可以参考一下
    2022-06-06
  • Python3自动安装第三方库,跟pip说再见

    Python3自动安装第三方库,跟pip说再见

    很多朋友私信小编Python安装第三方库安装技巧,在这就不一一回复大家了,今天小编给大家分享一篇教程关于Python自动安装第三方库的小技巧,本文以安装plotly为例给大家详细讲解,感兴趣的朋友跟随小编一起看看吧
    2021-10-10
  • Python中__call__用法实例

    Python中__call__用法实例

    这篇文章主要介绍了Python中__call__用法,需要的朋友可以参考下
    2014-08-08
  • python 图像的离散傅立叶变换实例

    python 图像的离散傅立叶变换实例

    今天小编就为大家分享一篇python 图像的离散傅立叶变换实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python中join()方法介绍

    python中join()方法介绍

    Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。这篇文章主要介绍了python中join()方法,需要的朋友可以参考下
    2018-10-10
  • django和flask哪个值得研究学习

    django和flask哪个值得研究学习

    在本篇文章里小编给大家整理的是一篇关于django和flask哪个值得研究学习内容,需要的朋友们可以参考下。
    2020-07-07
  • 教你用python提取txt文件中的特定信息并写入Excel

    教你用python提取txt文件中的特定信息并写入Excel

    这篇文章主要给大家介绍了如何利用python提取txt文件中的特定信息并写入Excel的相关资料,Python是一个强大的语言,解决这点问题非常简单,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2021-11-11

最新评论