Pandas处理DataFrame稀疏数据及维度不匹配数据分析详解

 更新时间:2023年02月16日 14:13:42   作者:fanstuck  
这篇文章主要为大家介绍了Pandas处理DataFrame稀疏数据及维度不匹配数据分析详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

前言

众所周知我们获取的第一手数据往往都是比较杂乱无章的,这些文件保存一般都是csv文件或者是excel文件,读取转换成DataFrame还有可能因为缺少列索引或者是各类数据维度不相等而报错。读取成功为DataFrame仍然有很多问题存在,比如列索引缺失,众多NaN数据以及合并计算问题等,这篇文章将具体解决此场景下的内容。

一、索引缺失

读取缺失量较大的数据时,索引并不是能完全覆盖到的。存在着列索引缺失的问题,这是一个比较头疼的问题,使得我们后面的数据特征无法使用:

这是针对机器学习的数据集特征,面对这种情况我们可以通过重新设置索引的方式,倘若特征之间是有规律的话,例如上表5列以后的数据每列的列索引都是features的话那么我们可以通过reindex的方法给它补全索引:

def deal_defect(df,n):
    df_defect=df.iloc[:,n:]
    m=4
    list_columns=[]
    for i in range(df_defect.shape[1]):
        list_columns.append('features%d'%m)
        m=m+1
    df_defect.columns=list_columns
    df_all=pd.concat([df.iloc[:,:n],df_defect],axis=1)
    return df_all
deal_defect(df,5)

二、负值取正

若是要对整个DataFrame的值都取负数,并不需要挨个列都转再使用abs函数,读取的DataFrame一般都是object类型不能直接使用abs,需要使用astype将dataframe类型转换:

当数据中带有NaN时是不能直接转int的:

df_fill=df.astype('int')
IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

但是我们转换为float的时候原始数据集又出现了后面带.0的情况:

这里我们要使用到fillna函数,先转为float取绝对值之后再填充为空值之后替换为-1,这样一来-1的位置就是缺失值的位置,以便于我们识别:

def fill_conver(df):
    df_fill=df.astype('float')
    df_fill=abs(df_fill)
    df_fill=df_fill.fillna('')
    df_fill=df_fill.replace('',-1)
    df_fill=df_fill.astype(int)
    return df_fill
fill_conver(df)

三、提取数值

既然有很多空值我们可以采取侧缺将低于一定比例的数据去除,这部分在上篇缺失值处理文章已经谈到这里不再说明。我们最常遇到的情况就是需要处理空值只提去出相应标签下的数值,这里涉及到列索引的选择和合并操作。例如我们只需要特征列偶数列的数值:

def get_features(df):
    list_all_link=[]
    df=df.iloc[:,2:]
    for i in range(df.shape[0]):
        #flag为控制外层循环开关
        flag=1
        for j in range(df.shape[1]):
            if(flag==0):
                break
            if(j%2==0):
                if(df.iloc[i:i+1,j].item()==-1):
                    flag=0
                else:
                    list_all_link.append(list(df.iloc[i:i+1,j]))
    return list_all_link
get_features(df)

四、提取唯一值

如果我们需要只需要取到的数列中的唯一值,需要对数据集进行处理,可以使用ravel()和unique()函数。此时我们还需要注意删掉-1:

def unique_df(df):
    df_features=df.iloc[:,2:]
    unique_series=pd.Series(pd.Series(df_features.iloc[:,[i%2==0 for i in range(len(df_features.columns))]].values.ravel()).unique())
    list_series=list(unique_series.values)
    return list_series
unique_list=unique_df(df)
unique_list.remove(-1)
unique_list

以上就是Pandas处理DataFrame稀疏数据及维度不匹配数据分析详解的详细内容,更多关于Pandas DataFrame数据分析的资料请关注脚本之家其它相关文章!

相关文章

  • Python实现将MongoDB中的数据导入到MySQL

    Python实现将MongoDB中的数据导入到MySQL

    这篇文章主要为大家详细介绍了如何通过Python封装一个将 MongoDB 中的数据导入到 MySQL 中的 Python 工具类 MongoToMysql,感兴趣的可以了解一下
    2023-05-05
  • 深入探究python中Pandas库处理缺失数据和数据聚合

    深入探究python中Pandas库处理缺失数据和数据聚合

    在本篇文章中,我们将深入探讨Pandas库中两个重要的数据处理功能:处理缺失数据和数据聚合,文中有详细的代码示例,对我们的学习或工作有一定的帮助,需要的朋友可以参考下
    2023-07-07
  • python基础之引用和匿名函数

    python基础之引用和匿名函数

    这篇文章主要介绍了python引用和匿名函数,实例分析了Python中返回一个返回值与多个返回值的方法,需要的朋友可以参考下
    2021-10-10
  • 使用Python读取和写入JSON文件的代码示例

    使用Python读取和写入JSON文件的代码示例

    在Python开发中,处理JSON数据是非常常见的任务,JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成,本文给大家介绍了如何使用 Python 读取和写入 JSON 文件,需要的朋友可以参考下
    2024-12-12
  • python用Tkinter做自己的中文代码编辑器

    python用Tkinter做自己的中文代码编辑器

    这篇文章主要介绍了python用Tkinter做自己的中文代码编辑器,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • 一文教你解决所有Python中文乱码问题

    一文教你解决所有Python中文乱码问题

    我们在编写代码时总是遇到各种中文乱码的问题,所以本文就来为大家总结一下遇到的中文乱码问题和对应的解决方案,以及为什么会出现中文乱码的问题,希望对大家有所帮助
    2023-12-12
  • 在tensorflow中设置使用某一块GPU、多GPU、CPU的操作

    在tensorflow中设置使用某一块GPU、多GPU、CPU的操作

    今天小编就为大家分享一篇在tensorflow中设置使用某一块GPU、多GPU、CPU的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python利用fitz库提取pdf中的图片

    Python利用fitz库提取pdf中的图片

    Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像,它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释,本文主要介绍了如何通过Python的fitz库提取pdf中的图片,需要的朋友可以参考下
    2023-05-05
  • python 使用装饰器并记录log的示例代码

    python 使用装饰器并记录log的示例代码

    今天小编就为大家分享一篇python 使用装饰器并记录log的示例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • 用Python中的字典来处理索引统计的方法

    用Python中的字典来处理索引统计的方法

    这篇文章主要介绍了用Python中的字典来处理索引统计的方法,字典的使用是Python学习当中的基础知识,本文则是相关的一个小实践,需要的朋友可以参考下
    2015-05-05

最新评论