python如何将数据集按比例随机切分

 更新时间:2023年09月09日 09:06:14   作者:Arxan_hjw  
这篇文章主要介绍了python如何将数据集按比例随机切分问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

python将数据集按比例随机切分

# -*- coding: utf-8 -*-
"""
    将数据按比例切分
"""
from sklearn import model_selection
c = []
j = 0
#filename = r'E:\NER\CCKS2020\Data\ccks2020_2_task1_train\task1_train.txt'
filename = open(r'task1_train.txt','r',encoding='utf-8')
out_train = open(r'train.txt', 'w',encoding='utf-8')
out_test = open(r'temp.txt', 'w',encoding='utf-8')
for line in filename:
    #    items = line.strip().split()
    c.append(line)
c_train, c_test = model_selection.train_test_split(c, test_size=0.2)
for i in c_train:
    out_train.write(i)
for i in c_test:
    out_test.write(i)

sklearn数据集随机切分(train_test_split)

sklearn学习

给定数据集X和类别标签y,将数据集按一定比例随机切分为训练集和测试集。

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
功能:数据集按比例切分为训练集和测试集
时间:2017年3月11日 12:48:57
"""
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split  # 更新
# 生成200个句子,前100个和后100个类别分别对应1和2
X = [[u"这是", u"第1个", u"测试"]] * 100 + [[u"这是", u"第2个", u"测试"]] * 100
y = [1] * 100 + [2] * 100
# 随机抽取20%的测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print len(X_train), len(X_test)
# 查看句子和标签是否仍然对应
for i in range(len(X_test)):
    print "".join(X_test[i]), y_test[i]
if __name__ == "__main__":
    pass

实验结果

切分后的训练集和测试集标签仍然一一对应。

更新

由于sklearn更新,代码应改为:

from sklearn.model_selection import train_test_split

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python比较配置文件的方法实例详解

    Python比较配置文件的方法实例详解

    工作中最常见的配置文件有四种:普通key=value的配置文件、Json格式的配置文件、HTML格式的配置文件以及YMAML配置文件。这篇文章主要介绍了Python比较配置文件的方法 ,需要的朋友可以参考下
    2019-06-06
  • Python 实现使用空值进行赋值 None

    Python 实现使用空值进行赋值 None

    这篇文章主要介绍了Python 实现使用空值进行赋值 None,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python偏函数的实例用法总结

    python偏函数的实例用法总结

    在本篇文章里小编给大家整理的是一篇关于python偏函数的实例用法总结内容,有兴趣的朋友们可以跟着学习参考下。
    2021-07-07
  • pandas重置索引标签的实现示例

    pandas重置索引标签的实现示例

    在使用Pandas进行数据处理时,有时候我们可能会需要对数据进行重置索引的操作,本文主要介绍了pandas重置索引标签的实现示例,具有一定的参考价值,感兴趣的可以了解一下
    2024-04-04
  • python 串口读取+存储+输出处理实例

    python 串口读取+存储+输出处理实例

    今天小编就为大家分享一篇python 串口读取+存储+输出处理实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python免登录实现域名解析的示例详解

    Python免登录实现域名解析的示例详解

    这篇文章主要介绍了如何利用编写python脚本,实现通过dnspod api获取个人域名内的dns解析记录,从而实现域名的解析、修改和删除,需要的可以参考一下
    2023-03-03
  • Python无法安装包的一种解决(Requirement already satisfied问题)

    Python无法安装包的一种解决(Requirement already satisfied问题)

    这篇文章主要介绍了Python无法安装包的一种解决(Requirement already satisfied问题),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • C语言中printf()函数的全面介绍及用法(简单易懂)

    C语言中printf()函数的全面介绍及用法(简单易懂)

    在C语言中,printf()是常用的输出函数,包含在头文件中,它使用格式控制字符串,其中包括格式字符、转义字符和普通字符,格式字符以"%"开头,文中将用法介绍的非常详细,需要的朋友可以参考下
    2024-09-09
  • Python面向对象的程序设计详情

    Python面向对象的程序设计详情

    这篇文章主要介绍了Python面向对象的程序设计详情,面向对象的程序设计在Python中具有非常重要的地位,熟练的使用面向对象编程能够为我们的Python编程提供很多的便利之处,希望您阅读完本文后能够有所收获
    2022-01-01
  • tensorflow 1.X迁移至tensorflow2 的代码写法

    tensorflow 1.X迁移至tensorflow2 的代码写法

    本文主要介绍了tensorflow 1.X迁移至tensorflow2 的代码写法,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-12-12

最新评论