#每日一书#

11.13 干净的数据:数据清洗入门与实践

干净的数据:数据清洗入门与实践

这本书也是强,强到只介绍数据清洗,注意是数据清洗不是数据处理,是data clean。

主要就是围绕不同来源的数据怎么进行数据清洗,介绍了非常多的不同的数据来源的数据收集和清洗方法,包括了写正则从文件中提取, 写爬虫从网站上爬取等等。

当然也包括了常见的文件格式PDF,这里介绍了几个库,包括了pdfMiner和Tabula等等。

然后就是RDBMS清洗了,怎么导入数据,怎么清洗未知字符,清洗日期,分离,提取数据标签,URL等等繁琐的事情。

最后用了2个项目来介绍了怎么数据清洗的流程。确实这本书就介绍了数据清洗,可以算是入门书,很多人会觉得太简单了。其实数据清洗就是一个很繁琐简单的任务,还需要不断积累经验才能提高效率的事情。

这本书非数据挖掘,数据分析的人,不用读。
评论加载中...