pandas中read_csv的缺失值处理方式
今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。
看pandas文档中read_csv函数中这两个参数的描述,默认会将'-1.#IND', ‘1.#QNAN', ‘1.#IND', ‘-1.#QNAN', ‘#N/A N/A','#N/A', ‘N/A', ‘NA', ‘#NA', ‘NULL', ‘NaN', ‘-NaN', ‘nan', ‘-nan', ''转换为NaN,且na_values参数还支持定义另外的应处理为缺失值的值。
值得注意的是keep_default_na参数,这个参数的作用是决定要不要保留默认应该转换的缺失值列表,将这个参数设为False之后同时不定义na_values参数,就可以在读取文件时不将任何值转换为缺失值NaN。
例:
import pandas as pd
df = pd.read_csv('train.csv', keep_default_na=False)
以上这篇pandas中read_csv的缺失值处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。
相关文章
python sort、sorted高级排序技巧分享(key的使用)
这篇文章主要介绍了python sort、sorted高级排序技巧(key的使用),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教2023-03-03
Python使用urllib2模块抓取HTML页面资源的实例分享
这篇文章主要介绍了Python使用urllib2模块抓取HTML页面资源的实例分享,将要抓取的页面地址写在单独的规则列表中方便组织和重复使用,需要的朋友可以参考下2016-05-05
django配置DJANGO_SETTINGS_MODULE的实现
本文主要介绍了django配置DJANGO_SETTINGS_MODULE,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下2022-03-03
Python IDLE Subprocess Connection Error的简单解决方法
最近用要Python处理一点事,就打开Python IDLE,结果出现错误,下面这篇文章主要给大家介绍了关于Python IDLE Subprocess Connection Error的简单解决方法,需要的朋友可以参考下2023-01-01
关于python tushare Tkinter构建的简单股票可视化查询系统(Beta v0.13)
这篇文章主要介绍了python tushare Tkinter构建的简单股票可视化查询系统(Beta v0.13),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下2020-10-10


最新评论