机器学习&数据科学不可不读的十本书 下面的书单将循序渐进的指引你走进AI & ML:从基本的统计学到机器学习,再对前沿的机器学习主题略览二三,最后将前面的各类主题做个总览。经典与时髦的技术主题相结合,希望你能从中找到乐趣,并扩展下视野。 1. Think Stats: Probability and Statistics for Programmers 《统计思维:程序员数学之概率统计》 By Allen B. Downey Think Stats 是一本为 Python 程序员所作、介绍概论统计相关的书籍。内容强调实战,书中并未使用复杂难懂的技术,但能解决一些有趣的问题。作者使用美国卫生研究所的数据作为样本,读者能从实际的DIY中获得最直观的感受。 2. Probabilistic Programming & Bayesian Methods for Hackers 《贝叶斯方法:概率编程与贝叶斯推断》 By Cam Davidson-Pilon 本书介绍概率论及贝叶斯方法,更侧重于概念原理的介绍,而不是数学公式的推导。 通常关于贝叶斯方法的介绍涉及好几章的公式讲解,常常使初学者忽略了该方法的出发点;并且教科书的例子一般比较简单、理想化,让人难以有深入的理解、体会。作者本人在刚开始学习贝叶斯方法就有这种尴尬。 3. Understanding Machine Learning: From Theory to Algorithms 《深入理解机器学习:从原理到算法》 By Shai Shalev-Shwartz & Shai Ben-David 当今机器学习发展极快且应用广泛,是计算机科学的热点之一。本书涉及机器学习的理论基础,并将公式推导以实际的算法代码形式展现。本书涵盖了前面两本书的主题,并且介绍了算法的复杂度、稳定性;算法部分主要包括随机梯度下降、神经网络、structured output learning,书中也提及了如PAC-Bayes、compression-based bounds等相关概念。 4. The Elements of Statistical Learning(esl) 《统计学习要点》 By Trevor Hastie, Robert Tibshirani & Jerome Friedman 本书从统计学角度按部就班的介绍了本领域的重点概念,然而内容讲解更注重理念而不是公式。作者提供了许多例子,穿插彩图介绍。主题包括神经网络、SVM、分类树、boosting,囊括监督学习、非监督学习算法,对统计学家、数据挖掘从业人员而言是一本不可多得的好书。 5. An Introduction to Statistical Learning with Applications in R 《统计学习导论:基于R应用》 By Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani 本书介绍统计学习方法,可用作非数学专业的高年级本科、硕士、博士的教材。作者使用R语言,以真实数据作为实验素材,详细讲解如何实现各类算法,很有实际参考价值。 6. Foundations of Data Science (数据科学基础) (没有official中文名) By Avrim Blum, John Hopcroft, and Ravindran Kannan 尽管经典的计算机技术依然重要,但随着实际应用带来的海量数据,未来的技术人员需要解决如何利用好这些数据的难题。因此,本书写作的目的就是介绍将来40年可能有用的技术理论,这些理论的重要性堪比自动控制原理等相关算法(在过去的40年间还挺重要)。 7. A Programmer's Guide to Data Mining: The Ancient Art of the Numerati 《写给程序员的数据挖掘实践指南》 By Ron Zacharski 使用Python,跟着作者一起进行练习、操作,在实战中学习、理解数据挖掘。随着一点一滴的积累,读完本书时,你已打好数据挖掘技术的基础。 8. Mining of Massive Datasets 《大数据:互联网大规模数据挖掘与分布式处理》 By Jure Leskovec, Anand Rajaraman and Jeff Ullman 本书为斯坦福计算机科学本科课程的教科书(Mining Massive Datasets,Data Mining)。本书假设读者没有相关的预备基础知识,如果想要了解相关主题的更多内容,可以根据书中索引进行深入学习。 9. Deep Learning 《深度学习》 By Ian Goodfellow, Joshua Bengio and Aaron Courville Deep Learning 给了读者一块进入机器学习的敲门砖,尤其是深度学习。网上有完整的在线免费版本可供阅读。 10. Machine Learning Yearning 《机器学习的渴望》 By Andrew Ng AI、机器学习以及深度学习已经得到商业化应用,当你实际构建机器学习系统时,你需要考虑什么:需要更多的训练样本吗?需要采用end-to-end的深度学习吗?当你的训练集与测试集不匹配,如何解决?等等此类问题... 过去,此类决策需要多年的实践学习才能hold;作者就是想加快你关于以上种种“战略性”技能的学习进度,这样你将能够构建更好的AI系统。
|