基于python 等频分箱qcut问题的解决

 更新时间:2020年03月03日 10:51:25   作者:喜东东cc  
这篇文章主要介绍了基于python 等频分箱qcut问题的解决,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

在python 较新的版本中,pandas.qcut()这个函数中是有duplicates这个参数的,它能解决在等频分箱中遇到的重复值过多引起报错的问题;

在比较旧版本的python中,提供一下解决办法:

import pandas as pd
 
def pct_rank_qcut(series, n):
  '''
  series:要分箱的列
  n:箱子数
  '''
  edages = pd.series([i/n for i in range(n)] # 转换成百分比
  func = lambda x: (edages >= x).argmax() #函数:(edages >= x)返回fasle/true列表中第一次出现true的索引值
  return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每个值对应的百分位数,最终返回对应的组数;rank()函数传入的数据类型若为object,结果会有问题,因此进行了astype

补充拓展:Python数据离散化:等宽及等频

在处理数据时,我们往往需要将连续性变量进行离散化,最常用的方式便是等宽离散化,等频离散化,在此处我们讨论离散化的概念,只给出在python中的实现以供参考

1. 等宽离散化

使用pandas中的cut()函数进行划分

import numpy as np
import pandas as pd
 
# Discretization: Equal Width #
# Datas: Sample * Feature
def Discretization_EqualWidth(K, Datas, FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  for i in range(FeatureNumber):
    DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1))
    DisDatas[:, i] = DisOneFeature
  return DisDatas

2. 等频离散化

pandas中有qcut()可以使用,但是边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop',则易出现于分片个数少于指定个数的问题,因此在此处不使用qcut()

import numpy as np
import pandas as pd
 
# Discretization: Equal Frequency #
# vector: single feature
def Rank_qcut(vector, K):
  quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values
  funBounder = lambda x: (quantile >= x).argmax()
  return vector.rank(pct=True).apply(funBounder)
 
# Discretization: Equal Frequency #
# Datas: Sample * Feature
def Discretization_EqualFrequency(K, Datas, FeatureNumber):
  DisDatas = np.zeros_like(Datas)
  w = [float(i) / K for i in range(K + 1)]
  for i in range(FeatureNumber):
    DisOneFeature = Rank_qcut(pd.Series(Datas[:, i]), K)
    #print(DisOneFeature)
    DisDatas[:, i] = DisOneFeature
  return DisDatas

以上这篇基于python 等频分箱qcut问题的解决就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python matplotlib安装和使用的完整教程

    Python matplotlib安装和使用的完整教程

    Python Matplotlib是一个强大的数据可视化库,它允许用户创建各种类型的静态、动态图表和图形,Matplotlib基于NumPy和Pandas等科学计算库,提供了丰富的绘图选项,本文介绍了Python matplotlib安装和使用的完整教程,需要的朋友可以参考下
    2024-07-07
  • Python成功解决TypeError: ‘method’ object is not subscriptable

    Python成功解决TypeError: ‘method’ object is 

    在Python编程中,有时候我们可能会遇到一个让人摸不着头脑的错误信息:TypeError: 'method' object is not subscriptable,本文给大家介绍了Python如何成功解决TypeError: ‘method’ object is not subscriptable,需要的朋友可以参考下
    2024-06-06
  • python中subprocess批量执行linux命令

    python中subprocess批量执行linux命令

    本篇文章给大家详细讲述了python中使用subprocess批量执行linux命令的方法,有兴趣的朋友参考学习下。
    2018-04-04
  • 详解如何使用Python LXML库来解析和处理XML文档

    详解如何使用Python LXML库来解析和处理XML文档

    在数据处理过程中,XML(可扩展标记语言)常常被用作数据存储和传输,Python的lxml库是一个强大的库,用于解析XML和HTML文档,本文将向您介绍如何使用lxml库来解析和处理XML文档,需要的朋友可以参考下
    2023-08-08
  • python使用jenkins发送企业微信通知的实现

    python使用jenkins发送企业微信通知的实现

    公司使用的是企业微信,因此考虑Jenkins通知企业微信机器人的实现方式,本文主要介绍了python使用jenkins发送企业微信通知的实现,感兴趣的可以了解一下
    2021-06-06
  • 详解Python遍历文件和文件路径拼接

    详解Python遍历文件和文件路径拼接

    这篇文章主要为大家详细介绍了Python遍历文件和文件路径拼接的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2024-12-12
  • Python中is和==的区别详解

    Python中is和==的区别详解

    这篇文章主要介绍了Python中is和==的区别详解,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-11-11
  • Python利用Gradio与EasyOCR构建在线识别文本的Web应用

    Python利用Gradio与EasyOCR构建在线识别文本的Web应用

    随着人工智能的不断发展,各种智能算法越来越普遍,本文就给大家介绍一种通过训练好的算法进行文字识别的方法,而且是Web页面可视化操作,方便调用,希望大家喜欢
    2023-04-04
  • python-pymysql如何实现更新mysql表中任意字段数据

    python-pymysql如何实现更新mysql表中任意字段数据

    这篇文章主要介绍了python-pymysql如何实现更新mysql表中任意字段数据问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05
  • 如何用Python中19行代码把照片写入到Excel中

    如何用Python中19行代码把照片写入到Excel中

    这篇文章主要介绍了如何利用Python3中的19行代码把照片写入到Excel中,文章内容实现的不是截取一张图片,粘贴到excel,而是通过像素写入到excel中,需要的朋友可以参考一下
    2022-02-02

最新评论