#每日一书#

9.7 构建实时机器学习系统

构建实时机器学习系统

这本书2017年入手,作为当时讲机器学习系统和架构的书,确实还是比较特殊。 作者也是一线做机器学习架构的开发者,算是比较难得的。

这本书开始介绍目前实时机器学习的一些分类,然后列举了为什么需要实时机器学习,遇到了哪些问题。然后就分了几个章节来机器学习模型落地过程中的一些问题。

在第2章,主要是介绍实时监督机器学习,它是思路是什么,怎么做分类器,怎么做训练和冷启动的问题。

第3章和第4章,主要介绍了scikit-learn和Pandas,第5章主要介绍了实时机器学习的几个架构,后面的几章介绍了Docker,消息队列,数据库,数据监控ELK。第10章,主要介绍机器学习系统的设计模式,详细介绍了几个场景,最后就是介绍了serveless架构和深度学习的未来等话题。

看了内容介绍,很多人可能会觉得,机器学习系统为啥要介绍这些东西呢?其实这就是一些人的偏见,做机器学习落地就是需要这些东西,你写chatbot前端也是算落地。

我面了至少200个面试者,真正有模型落地经验的人其实都比较少,很多人工程基础比较差,有人只知道跑一些开放数据集,调整一下参数,有人从来没有部署过模型,这些都是一些常见的问题。 那些年,很多理工科转机器学习,也导致了机器学习基础差,一个有真正模型落地的人不太好找,更不要说做模型优化了。

最近2,3年,ml infra也火了起来,mlops也开始火了,越来越多的人在注意ml system的东西了,机器学习架构也是越来越被重视。

图3中,真正的的ML Code确实只占整个系统的1%都不到,各种围绕机器学习的基础设施是非常多的。

我还做过两年机器学习平台,在架构方面也有一些经验,在知乎上我也经常劝人做机器学习落地。 但是真的要做机器学习模型落地,往全栈机器学习架构上做,你值得。当然,要求也比较高,你能接触到的东西也会非常多,可以先从mlops开始学习。

这本书,介绍的东西是比较初级的,但是也算是有体系的,适合做机器学习系统的人了解了解,入门一下,注意这里也没有深度学习。
评论加载中...