详情介绍
数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
目录
第1章 为什么需要清洗数据 1
第2章 基础知识——格式、 类型与编码 11
第3章 数据清洗的老黄牛——电子表格和文本编辑器 47
第4章 讲通用语言——数据转换 64
第5章 收集并清洗来自网络的数据 85
第6章 清洗PDF文件中的数据 106
第7章 RDBMS清洗技术 118
第8章 数据分享的最佳实践 136
第9章 Stack Overflow项目 149
第10章 Twitter项目 171
下载地址
人气书籍
下载声明
☉ 解压密码:www.jb51.net 就是本站主域名,希望大家看清楚,[ 分享码的获取方法 ]可以参考这篇文章
☉ 推荐使用 [ 迅雷 ] 下载,使用 [ WinRAR v5 ] 以上版本解压本站软件。
☉ 如果这个软件总是不能下载的请在评论中留言,我们会尽快修复,谢谢!
☉ 下载本站资源,如果服务器暂不能下载请过一段时间重试!或者多试试几个下载地址
☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持!
☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。
☉ 本站提供的干净的数据:数据清洗入门与实践 中文pdf扫描版[39MB]资源来源互联网,版权归该下载资源的合法拥有者所有。


![干净的数据:数据清洗入门与实践 中文pdf扫描版[39MB]](http://img.jbzj.com/do/uploads/litimg/170721/16045HH2b.jpg)










![数学之美(第二版) PDF扫描版[45MB] 数学之美(第二版) PDF扫描版[45MB]](http://img.jbzj.com/do/uploads/litimg/150709/1616142R204.png)
![计算机组成原理(第2版)(唐朔飞著) PDF扫描版[9MB] 计算机组成原理(第2版)(唐朔飞著) PDF扫描版[9MB]](http://img.jbzj.com/do/uploads/litimg/141021/16131RTZ4.png)

![计算机组成与体系结构:性能设计(原书第8版) 中文 PDF版 [93M] 计算机组成与体系结构:性能设计(原书第8版) 中文 PDF版 [93M]](http://img.jbzj.com/do/uploads/litimg/120924/145340161941.jpg)

![算法导论(原书第3版) PDF扫描版[101MB] 算法导论(原书第3版) PDF扫描版[101MB]](http://img.jbzj.com/do/uploads/litimg/150625/1AQHR033.png)
![大话设计模式 程杰 著 中文 PDF版 [70M] 大话设计模式 程杰 著 中文 PDF版 [70M]](http://img.jbzj.com/do/uploads/litimg/120917/151555161064.jpg)

![Docker技术入门与实战 完整版 pdf扫描版[47MB] Docker技术入门与实战 完整版 pdf扫描版[47MB]](http://img.jbzj.com/do/uploads/litimg/160621/1G9222H5b.jpg)
