R语言 出现矩阵/缺失值的解决方案

 更新时间:2021年03月10日 15:36:41   作者:亓了个葩  
这篇文章主要介绍了R语言 出现矩阵/缺失值的解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

缺失值处理一般包括三步:

1. 识别缺失数据;

2. 检查导致数据缺失的原因;

3. 删除包含缺失值的实例或用合理的数值代替(插补)缺失值。

1.判断缺失值

函数is.na()、is.nan()和is.infinite()可分别用来识别缺失值、不可能值和无穷值。每个返回结果都是

TRUE或FALSE

na表示缺失值

nan表示NOT A NUMBER

infinite表示+-Inf

一定要亲手试x = 0/0,以及x = 1/0

>x <- NA
> is.na(x)
[1] TRUE
> is.nan(x)
[1] FALSE
> is.infinite(x)
 [1] FALSE

函数complete.cases()可用来识别矩阵或数据框中没有缺失值的行

超级好用

#加载数据集
>data(sleep,package = "VIM")
#没有缺失值的行
>sleep[complete.cases(sleep),]
#列出有一个或多个缺失值的行
>sleep[!complete.cases(sleep),]

2.图形探究缺失数

#自己生成图形
>library("VIM")
>aggr(sleep,prop = FALSE,numbers = TRUE)

matrixplot()函数可生成展示每个实例数据的图形

#自己生成图形
marginplot(sleep[c("Gest","Dream")],phc=c(20),col=c("darkgray","red","blue"))

3.删除缺失值

函数complete.cases()可以用来存储没有缺失值的数据框或者矩阵形式的实例(行):

#可以把mydata替换成sleep,延续上面的代码
>newdata <- mydata[complete.cases(mydata),]

同样的结果可以用na.omit函数获得:

#可以把mydata替换成sleep,延续上面的代码
>newdata <- na.omit(mydata)

两行代码表示的意思都是:mydata中所有包含缺失数据的行都被删除,然后结果才存储到newdata中,以后拟合就用新数据newdata.

处理含缺失值的数据集时,成对删除常作为行删除的备选方法使用。对于成对删除,观测只是当它含缺失数据的变量涉及某个特定分析时才会被删除:

>cor(sleep,use = "pairwise.complete.obs")

3.1补全缺失值

函数mice()首先从一个包含缺失数据的数据框开始,然后返回一个包含多个(默认为5个)完整数据集的对象。

每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。

由于插补有随机的成分,因此每个完整数据集都略有不同。

然后,with()函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型),最 后 ,pool()函数将这些单独的分析结果整合为一组结果。

最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。

>library(mice)
>data("sleep",package = "VIM")
>imp <- mice(sleep,seed = 1234)
#imp <- mice(sleep)
>fit <- with(imp,lm(Dream~Span+Gest))
fit
>pooled <- pool(fit)
>summary(pooled)
imp
>dataset2 <- complete(imp,action = 2)
>cor(sleep,use = "pairwise.complete.obs")

dataset2 is the newData

下图为完整缺失值处理图片:

补充:R语言读取数据空值

一、Txt文件

1. 文件中的内容有双引号,空值的时候是一对双引号

filename.txt 文件内容形如:

"ID" "ITEM"

"1080254842" "汉字"

"1080254842" "中文"

"1080594798" ""

"1080594798" ""

导入数据:

test <-read.table("filename.txt",header=TRUE)

空值部分并不是NA,R语言不会把他识别为NA,改为下面的语句,即可解决。

test <-read.table("filename.txt",header=TRUE,na.strings = "")

2. 文件中内容无双引号,空值即直接空白,形如下面:

ID ITEM

1080254842 汉字

1080254842 中文

1080594798

1080594798

导入数据:

test <-read.table("filename.txt",header=TRUE)

会出现错误:Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :3行没有2元素

第三行第二元素没有。

修改为如下即可:

test <-read.table("filename.txt",header=TRUE,fill=TRUE)

导入数据成功,但是,空值仍然不是NA,还需加上na.strings = "",

test <-read.table("filename.txt",header=TRUE, fill=TRUE, na.strings = "")

成功导入。

二、csv文件

test <-read.csv("test.csv",header=TRUE,sep=",",na.strings = "")

其中:

header =TRUE,表示把第一行作为标题。

sep=",",因为csv文件的列是用逗号分开的,加上sep=",",帮助R通过识别逗号来分割列。如果没加,会出现原本多列数据导入后变为一列的情况。

na.strings = "":处理缺失值问题。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

相关文章

  • R语言 实现矩阵相乘100次

    R语言 实现矩阵相乘100次

    这篇文章主要介绍了R语言 实现矩阵相乘100次的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • R语言基础画图实例讲解

    R语言基础画图实例讲解

    这篇文章主要介绍了R语言基础画图实例讲解,文中介绍的很清晰,有需要的同学可以研究下
    2021-03-03
  • R语言是什么 R语言简介

    R语言是什么 R语言简介

    R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、开源的软件,它是一个用于统计计算和统计制图的优秀工具
    2021-03-03
  • R语言随机数生成的实现

    R语言随机数生成的实现

    这篇文章主要介绍了R语言随机数生成的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • R语言最简单的向量赋值方法示例

    R语言最简单的向量赋值方法示例

    这篇文章主要给大家介绍了关于R语言最简单的向量赋值方法的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • R语言基本运算的示例代码

    R语言基本运算的示例代码

    这篇文章主要介绍了R语言基本运算的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • R语言-计算平均值不同函数的区别说明

    R语言-计算平均值不同函数的区别说明

    这篇文章主要介绍了R语言-计算平均值不同函数的区别说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • R绘制漂亮的中国地图的实现示例

    R绘制漂亮的中国地图的实现示例

    本文主要介绍了R绘制漂亮的中国地图的实现示例,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-09-09
  • R语言批量读取某路径下文件内容的方法

    R语言批量读取某路径下文件内容的方法

    批量地做就是解放双手地过程,本文主要介绍了R语言批量读取某路径下文件内容的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-04-04
  • 如何用R语言绘制饼图和条形图

    如何用R语言绘制饼图和条形图

    这篇文章主要介绍了如何用R语言绘制饼图和条形图,帮助大家更好的理解和学习使用R语言,感兴趣的朋友可以了解下
    2021-03-03

最新评论