这本Python爬虫技术书是一个完整大数据应用框架:从数据收集、分析到数据可视化、数据建模。本书各章节以实际案例为出发点,对大数据分析、爬虫技术应用感兴趣的小伙伴们来说,值得购买。 本书是一本通过实战教初学者学习爬取数据、清洗和组织数据进行分析和可视化的Python 读物。书中案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。本书共13 章,包括6 个核心主题,其一是Python 基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是Python 爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、爬虫效率优化、无线端的数据采集、容错处理、反防爬虫、表单交互和模拟页面点击;其三是Python数据库应用,包括MongoDB、MySQL 在Python 中的连接与应用;其四是数据清洗和组织,包括NumPy 数组知识,以及pandas 数据的读写、分组、变形,缺失值、异常值和重复值处理,时序数据处理和正则表达式的使用等;其五是综合应用实例,帮助读者贯穿爬虫、数据清洗与组织的过程;很后是数据可视化,包括matplotlib 和pyecharts 两个库的使用,涉及饼图、柱形图、线图、词云图等图形,帮助读者进入可视化的殿堂。本书以实战为主,适合Python 初学者及高等院校相关专业的学生阅读,也适合Python 培训机构作为实验教材。
|