#每日一书#
9.15 Spark高级数据分析
Spark高级数据分析
这本书入手于2016年,当时是想学点Spark,记得当时是把spark官网的课程看完了,才买的这本书。这本书的内容是案例教学,不能算是基础的入门。
主要的案例有: 音乐推荐,决策树预测植被,K均值聚类网络流量异常,语义分析维基百科,Graphx分析伴生网络,出租车轨迹的空间和时间分析,蒙特卡罗金融风险分析,基因数据分析和神经网络数据分析等。
这本书上手还是有一些门槛的,需要了解基础知识和scala语言。 你如果还读过大数据的三篇论文,还就更好了。 从MPI到MapReduce,这些计算框架让我们可以利用大量的资源来处理大量的数据,而且还隐藏了分布式系统的实现细节,而spark的出现,真的让大数据分析变得更简单了。
书中的案例都是各行各业的实例,覆盖了大规模分析中的常见的算法,数据集和设计模式,在学习过程中可以好好的练习。
这本书还是有点老了,现在要学spark,可能还有更好的资料。我常用的也只是pyspark,scala不太熟悉,做AI落地的,spark streaming和spark mllib都需要了解一下。
9.15 Spark高级数据分析
Spark高级数据分析
这本书入手于2016年,当时是想学点Spark,记得当时是把spark官网的课程看完了,才买的这本书。这本书的内容是案例教学,不能算是基础的入门。
主要的案例有: 音乐推荐,决策树预测植被,K均值聚类网络流量异常,语义分析维基百科,Graphx分析伴生网络,出租车轨迹的空间和时间分析,蒙特卡罗金融风险分析,基因数据分析和神经网络数据分析等。
这本书上手还是有一些门槛的,需要了解基础知识和scala语言。 你如果还读过大数据的三篇论文,还就更好了。 从MPI到MapReduce,这些计算框架让我们可以利用大量的资源来处理大量的数据,而且还隐藏了分布式系统的实现细节,而spark的出现,真的让大数据分析变得更简单了。
书中的案例都是各行各业的实例,覆盖了大规模分析中的常见的算法,数据集和设计模式,在学习过程中可以好好的练习。
这本书还是有点老了,现在要学spark,可能还有更好的资料。我常用的也只是pyspark,scala不太熟悉,做AI落地的,spark streaming和spark mllib都需要了解一下。