Python sklearn KFold 生成交叉验证数据集的方法

更新时间：2018年12月11日 15:13:49 作者：Ichimaru_Gin_

今天小编就为大家分享一篇Python sklearn KFold 生成交叉验证数据集的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

源起：

1.我要做交叉验证，需要每个训练集和测试集都保持相同的样本分布比例，直接用sklearn提供的KFold并不能满足这个需求。

2.将生成的交叉验证数据集保存成CSV文件，而不是直接用sklearn训练分类模型。

3.在编码过程中有一的误区需要注意：

这个sklearn官方给出的文档

>>> import numpy as np
>>> from sklearn.model_selection import KFold
 
>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
...  print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3]

我之前犯的一个错误是将train，test理解成原数据集分割成子数据集之后的子数据集索引。而实际上，它就是原始数据集本身的样本索引。

源码：

# -*- coding:utf-8 -*-
# 得到交叉验证数据集，保存成CSV文件
# 输入是一个包含正常恶意标签的完整数据集，在读数据的时候分开保存到datasetBenign，datasetMalicious
# 分别对两个数据集进行KFold，最后合并保存
 
from sklearn.model_selection import KFold
import csv
 
def writeInFile(benignKFTrain, benignKFTest, maliciousKFTrain, maliciousKFTest, i, datasetBenign, datasetMalicious):
 newTrainFilePath = "E:\\hadoopExperimentResult\\5KFold\\AllDataSetIIR10\\dataset\\ImbalancedAllTraffic-train-%s.csv" % i
 newTestFilePath = "E:\\hadoopExperimentResult\\5KFold\\AllDataSetIIR10\\dataset\\IImbalancedAllTraffic-test-%s.csv" % i
 newTrainFile = open(newTrainFilePath, "wb")# wb 为防止空行
 newTestFile = open(newTestFilePath, "wb")
 writerTrain = csv.writer(newTrainFile)
 writerTest = csv.writer(newTestFile)
 for index in benignKFTrain:
  writerTrain.writerow(datasetBenign[index])
 for index in benignKFTest:
  writerTest.writerow(datasetBenign[index])
 for index in maliciousKFTrain:
  writerTrain.writerow(datasetMalicious[index])
 for index in maliciousKFTest:
  writerTest.writerow(datasetMalicious[index])
 newTrainFile.close()
 newTestFile.close()
 
 
def getKFoldDataSet(datasetPath):
 # CSV读取文件
 # 开始从文件中读取全部的数据集
 datasetFile = file(datasetPath, 'rb')
 datasetBenign = []
 datasetMalicious = []
 readerDataset = csv.reader(datasetFile)
 for line in readerDataset:
  if len(line) > 1:
   curLine = []
   curLine.append(float(line[0]))
   curLine.append(float(line[1]))
   curLine.append(float(line[2]))
   curLine.append(float(line[3]))
   curLine.append(float(line[4]))
   curLine.append(float(line[5]))
   curLine.append(float(line[6]))
   curLine.append(line[7])
   if line[7] == "benign":
    datasetBenign.append(curLine)
   else:
    datasetMalicious.append(curLine)
 
 # 交叉验证分割数据集
 K = 5
 kf = KFold(n_splits=K)
 benignKFTrain = []; benignKFTest = []
 for train,test in kf.split(datasetBenign):
  benignKFTrain.append(train)
  benignKFTest.append(test)
 maliciousKFTrain=[]; maliciousKFTest=[]
 for train,test in kf.split(datasetMalicious):
  maliciousKFTrain.append(train)
  maliciousKFTest.append(test)
 for i in range(K):
  print "======================== "+ str(i)+ " ========================"
  print benignKFTrain[i], benignKFTest[i]
  print maliciousKFTrain[i],maliciousKFTest[i]
  writeInFile(benignKFTrain[i], benignKFTest[i], maliciousKFTrain[i], maliciousKFTest[i], i, datasetBenign,
     datasetMalicious)
 
 datasetFile.close()
 
 
if __name__ == "__main__":
 
 getKFoldDataSet(r"E:\hadoopExperimentResult\5KFold\AllDataSetIIR10\dataset\ImbalancedAllTraffic-10.csv")

以上这篇Python sklearn KFold 生成交叉验证数据集的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python实现经典算法拓扑排序、字符串匹配算法和最小生成树实例
这篇文章主要介绍了Python实现经典算法拓扑排序、字符串匹配算法和最小生成树实例,拓扑排序、字符串匹配算法和最小生成树是计算机科学中常用的数据结构和算法，它们在解决各种实际问题中具有重要的应用价值,需要的朋友可以参考下
2023-08-08
解决pymysql cursor.fetchall() 获取不到数据的问题
这篇文章主要介绍了解决pymysql cursor.fetchall() 获取不到数据的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
Python如何获取模块中类以及类的属性方法信息
python对属性权限的控制是通过属性名来实现的,下面这篇文章主要给大家介绍了关于Python如何获取模块中类以及类的属性方法信息的相关资料,需要的朋友可以参考下
2021-12-12
Python Tornado之跨域请求与Options请求方式
这篇文章主要介绍了Python Tornado之跨域请求与Options请求方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
Python基于回溯法子集树模板解决取物搭配问题实例
这篇文章主要介绍了Python基于回溯法子集树模板解决取物搭配问题,简单描述了搭配问题并结合实例形式分析了Python使用回溯法子集树模板解决取物搭配问题的具体步骤与相关操作技巧,需要的朋友可以参考下
2017-09-09
Python中的列表生成式与生成器学习教程
这篇文章主要介绍了Python中的列表生成式与生成器学习教程,Python中的Generator生成器比列表生成式功能更为强大,需要的朋友可以参考下
2016-03-03
python中argparse模块及action='store_true'详解
argparse 是一个用来解析命令行参数的 Python 库，它是 Python 标准库的一部分，这篇文章主要介绍了python中argparse模块及action=‘store_true‘详解,需要的朋友可以参考下
2023-02-02
Python使用WebSocket和SSE实现HTTP服务器消息推送方式
本文介绍了两种实时数据获取的技术：WebSocket和SSE,WebSocket是全双工通信协议,支持双向通信,但需要专门定义数据协议,SSE是一种单工通信技术,基于HTTP的流式数据传输,客户端开发简单,但只能单工通信
2024-11-11
Python学习之列表和元组的使用详解
如果说在Python语言中找一个最优秀的数据类型，那无疑是列表，如果要在推荐一个，那我选择元组。本篇文章我们的重心会放在列表上，元组可以看成不能被修改的列表，感兴趣的可以了解一下
2022-10-10
Python使用自带的base64库进行base64编码和解码
在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使用Python的base64库进行Base64编码和解码,需要的朋友可以参考下
2025-04-04

Python sklearn KFold 生成交叉验证数据集的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具