python使用pandas抽样训练数据中某个类别实例

 更新时间:2020年02月28日 11:25:28   作者:Yan456jie  
今天小编就为大家分享一篇python使用pandas抽样训练数据中某个类别实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

废话真的一句也不想多说,直接看代码吧!

# -*- coding: utf-8 -*- 
 
import numpy 
from sklearn import metrics 
from sklearn.svm import LinearSVC 
from sklearn.naive_bayes import MultinomialNB 
from sklearn import linear_model 
from sklearn.datasets import load_iris 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import OneHotEncoder, StandardScaler 
from sklearn import cross_validation 
from sklearn import preprocessing 
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data 
 
'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''
 
 
def test():
 df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
 df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
    "positionType","age","gender","education","marriageStatus",
    "haveBaby","hometown","residence","appCategory","label"]]
 print df1["label"].value_counts()
 N_data = df1[df1["label"]==0]
 P_data = df1[df1["label"]==1]
 N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
 #print df1.loc[:,"label"]==0
 print P_data.shape
 print N_data.shape
 
 data = pd.concat([N_data,P_data])
 print data.shape
 data = data.sample(frac=1).reset_index(drop=True) 
 print data[["label"]]
 return

补充拓展:pandas实现对dataframe抽样

随机抽样

import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)

分层抽样

利用sklean中的函数灵活进行抽样

from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)

以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 用python实现读取xlsx表格操作

    用python实现读取xlsx表格操作

    大家好,本篇文章主要讲的是用python实现读取xlsx表格操作,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下
    2022-01-01
  • keras 实现轻量级网络ShuffleNet教程

    keras 实现轻量级网络ShuffleNet教程

    这篇文章主要介绍了keras 实现轻量级网络ShuffleNet教程,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • 关于Python中*args和**kwargs的深入理解

    关于Python中*args和**kwargs的深入理解

    这篇文章主要给大家介绍了关于Python中*args和**kwargs的相关资料,*args和**kwargs代表的是变量, 变量前面的 *(星号)才是必须的,也可以写成*v和**vs;写成*args和**kwargs只是一个常用的书写方式,需要的朋友可以参考下
    2021-08-08
  • python处理RSTP视频流过程解析

    python处理RSTP视频流过程解析

    这篇文章主要介绍了python处理RSTP视频流过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-01-01
  • python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

    python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法)

    这篇文章主要介绍了python爬虫爬取淘宝商品比价(附淘宝反爬虫机制解决小办法),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • 浅谈Python使用Bottle来提供一个简单的web服务

    浅谈Python使用Bottle来提供一个简单的web服务

    这篇文章主要介绍了浅谈Python使用Bottle来提供一个简单的web服务,具有一定借鉴价值,需要的朋友可以参考下
    2017-12-12
  • python 类对象的析构释放代码演示

    python 类对象的析构释放代码演示

    这篇文章主要介绍了python 类对象的析构释放代码演示,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的朋友可以参考一下
    2022-09-09
  • Python Socket库基础方法与应用详解

    Python Socket库基础方法与应用详解

    这篇文章主要介绍了关于Python socket库的详细技术解析,包含基础方法说明、工作原理剖析,以及多个应用领域的完整实现代码,对大家的学习或工作有一定的帮助,需要的朋友可以参考下
    2025-04-04
  • python中dropna()函数的作用举例说明

    python中dropna()函数的作用举例说明

    这篇文章主要给大家介绍了关于python中dropna()函数的相关资料,dropna()是pandas库中的一个函数,用于删除DataFrame中的缺失值,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-11-11
  • win10系统中安装scrapy-1.1

    win10系统中安装scrapy-1.1

    在win10的环境下安装scrapy,并不能直接按照官网的手册(http://doc.scrapy.org/en/1.0/intro/install.html)一次性安装成功,根据我自己的安装过程中遇到的问题,特意整理了一下安装过程
    2016-07-07

最新评论