用pandas划分数据集实现训练集和测试集

更新时间：2020年07月20日 11:02:10 作者：MDbabyface

这篇文章主要介绍了用pandas划分数据集实现训练集和测试集，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

1、使用model_select子模块中的train_test_split函数进行划分

数据：使用kaggle上Titanic数据集

划分方法：随机划分

# 导入pandas模块，sklearn中model_select模块
import pandas as pd
from sklearn.model_select import train_test_split
# 读取数据
data = pd.read_csv('.../titanic_dataset/train.csv')
# 将特征划分到 X 中，标签划分到 Y 中
x = data.iloc[:, 2:]
y = data.loc['Survived']
# 使用train_test_split函数划分数据集(训练集占75%，测试集占25%)

x_train, x_test, y_train，y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)

缺点：1、数据浪费严重，只对部分数据进行了验证

2、容易过拟合

2、k折交叉验证（kfold）

原理：将数据集划分成n个不相交的子集，每次选择其中一个作为测试集，剩余n-1个子集作为训练集，共生成 n 组数据

使用方法：sklearn.model_select.KFold（n_splits=5，shuffle=False，random_state=0）

参数说明：n_splits：数据集划分的份数，

shuffle：每次划分前是否重新洗牌 ,False表示划分前不洗牌，每次划分结果一样，True表示划分前洗牌，每次划分结果不同

random_state：随机种子数

（1）shuffle=False 情况下数据划分情况

# 不洗牌模式下数据划分情况
import numpy as np
from sklearn.model_selection import KFold
x = np.arange(46).reshape(23,2)
kf = KFold(n_splits=5,shuffle=False)
for train_index, test_index in kf.split(x):
  print(train_index,test_index)
[ 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22] [0 1 2 3 4]
[ 0 1 2 3 4 10 11 12 13 14 15 16 17 18 19 20 21 22] [5 6 7 8 9]
[ 0 1 2 3 4 5 6 7 8 9 15 16 17 18 19 20 21 22] [10 11 12 13 14]
[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 19 20 21 22] [15 16 17 18]
[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18] [19 20 21 22]

（2）shuffle=True 情况下数据划分情况

import numpy as np
from sklearn.model_selection import KFold
x = np.arange(46).reshape(23,2)
kf = KFold(n_splits=5,shuffle=True)
for train_index, test_index in kf.split(x):
  print(train_index,test_index)
[ 0 3 4 5 6 7 8 9 10 11 12 14 15 16 17 19 20 21] [ 1 2 13 18 22]
[ 0 1 2 3 5 6 7 10 11 13 15 16 17 18 19 20 21 22] [ 4 8 9 12 14]
[ 0 1 2 3 4 7 8 9 10 12 13 14 15 16 17 18 19 22] [ 5 6 11 20 21]
[ 1 2 3 4 5 6 8 9 10 11 12 13 14 15 18 19 20 21 22] [ 0 7 16 17]
[ 0 1 2 4 5 6 7 8 9 11 12 13 14 16 17 18 20 21 22] [ 3 10 15 19]

总结：从数据中可以看出shuffle=True情况下数据的划分是打乱的，而shuffle=False情况下数据的划分是有序的

到此这篇关于用pandas划分数据集实现训练集和测试集的文章就介绍到这了,更多相关pandas划分数据集内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python+PIL实现支付宝AR红包
这篇文章主要为大家详细介绍了Python+PIL实现支付宝AR红包，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-02-02
python cookielib 登录人人网的实现代码
今天晚上不是很忙，所以早早的就在电脑的旁边开始写东西了。我今天给大家分享一个我自己用python写的自动登录人人网的脚本，没办法就是懒！懒的输入帐号和密码,让python给我们减少工作量
2012-12-12
2行Python代码实现给pdf文件添加水印
你们在给PDF文件添加水印时，还在手动一页页添加吗？本文小编为大家带来了一个更方便的方法，即用Python的2行代码来实现，感兴趣的小伙伴可以学习一下
2022-02-02
python try...finally...的实现方法
这篇文章主要介绍了python try...finally...的实现方法，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2020-11-11
Python实现智慧校园自动评教全新版
上一次的智慧校园自动评教是用的selenium库去模拟人去对浏览器进行点击操作,虽然比手动评教要快,但是效率还是不高.从而想去尝试重新写一份不用selenium的评教方案,功夫不负有心人,最终成功了,需要的朋友可以参考下
2021-06-06
python操作数据库之sqlite3打开数据库、删除、修改示例
这篇文章主要介绍了python操作sqlite3打开数据库、删除、修改示例,需要的朋友可以参考下
2014-03-03
基于Tensorflow:CPU性能分析
今天小编就为大家分享一篇基于Tensorflow:CPU性能分析，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
Python实现曲线点抽稀算法的示例
本篇文章主要介绍了Python实现曲线点抽稀算法的示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-10-10
Python使用函数默认值实现函数静态变量的方法
这篇文章主要介绍了Python使用函数默认值实现函数静态变量的方法,是很实用的功能,需要的朋友可以参考下
2014-08-08
Python+Pytest实现压力测试详解
在现代Web应用程序中，性能是至关重要的。为了确保应用程序能够在高负载下正常运行，我们需要进行性能测试。本文就来用Pytest进行压力测试，希望对大家有所帮助
2023-03-03

用pandas划分数据集实现训练集和测试集

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具