描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302524892
从爬虫软件开发到自己动手开发爬虫框架
从原理到实践,深入浅出,热门爬虫核心技术全掌握
涵盖丰富的爬虫工具、库、框架,十余个实战项目
资深爬虫工程师倾力奉献,入门、进阶、求职必备
本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。 本书使用Python 3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。
前 言
随着大数据和人工智能的普及,Python的地位也变得水涨船高,许多技术人员投身于Python开发,其中网络爬虫是Python最为热门的应用领域之一。在爬虫领域,Python可以说是处于霸主地位,Python能解决爬虫开发过程中所遇到的难题,开发速度快且支持异步编程,大大缩短了开发周期。此外,从事数据分析的工程师,为获取数据,很多时候也会用到网络爬虫的相关技术,因此,Python爬虫编程已成为爬虫工程师和数据分析师的必备技能。
本书结构
本书共分28章,各章内容概述如下:
第1章介绍什么是网络爬虫、爬虫的类型和原理、爬虫搜索策略和爬虫的合法性及开发流程。
第2章讲解爬虫开发的基础知识,包括HTTP协议、请求头和Cookies的作用、HTML的布局结构、JavaScript的介绍、JSON的数据格式和Ajax的原理。
第3章介绍使用Chrome开发工具分析爬取网站,重点介绍开发工具的Elements和Network标签的功能和使用方式,并通过开发工具分析QQ网站。
第4章主要介绍Fiddler抓包工具的原理和安装配置,Fiddler用户界面的各个功能及使用方法。
第5章讲述了Urllib在Python 2和Python 3的变化及使用,包括发送请求、使用代理IP、Cookies的读写、HTTP证书验收和数据处理。
第6章~第8章介绍Python第三方库Requests、Requests-Cache爬虫缓存和Requests-HTML,包括发送请求、使用代理IP、Cookies的读写、HTTP证书验收和文件下载与上传、复杂的请求方式、缓存的存储机制、数据清洗以及Ajax动态数据爬取等内容。
第9章介绍网页操控和数据爬取,重点讲解Selenium的安装与使用,并通过实战项目“百度自动答题”,讲解了Selenium的使用。
第10章介绍手机App数据爬取,包括Appium的原理与开发环境搭建、连接Android系统,并通过实战项目“淘宝商品采集”,介绍了App数据的爬取技巧。
第11章介绍Splash、Mitmproxy与Aiohttp的安装和使用,包括Splash动态数据抓取、Mitmproxy抓包和Aiohttp高并发抓取。
第12章介绍验证码的种类和识别方法,包括OCR的安装和使用、验证码图片处理和使用第三方平台识别验证码。
第13章讲述数据清洗的三种方法,包括字符串操作(截取、查找、分割和替换)、正则表达式的使用和第三方库BeautifulSoup的安装以及使用。
第14章讲述如何将数据存储到文件,包括CSV、Excel和Word文件的读取和写入方法。
第15章介绍ORM框架SQLAlchemy的安装及使用,实现关系型数据库持久化存储数据。
第16章讲述非关系型数据库MongoDB的操作,包括MongoDB的安装、原理和Python实现MongoDB的读写。
第17章至第21章介绍了5个实战项目,分别是:爬取51Job招聘信息、分布式爬虫——QQ音乐、12306抢票爬虫、微博爬取和微博爬虫软件的开发。
第22章至第25章介绍了Scrapy爬虫框架,包括Scrapy的运行机制、项目创建、各个组件的编写(Setting、Items、Item Pipelines和Spider)和文件下载及Scrapy中间件,并通过实战项目“Scrapy Selenium爬取豆瓣电影评论”、“Scrapy Splash爬取B站动漫信息”和“Scrapy Redis分布式爬取猫眼排行榜”、“爬取链家楼盘信息”和“QQ音乐全站爬取”,深入讲解了Scrapy的应用和分布式爬虫的编写技巧。
第26章介绍爬虫的上线部署,包括非框架式爬虫和框架式爬虫的部署技巧。
第27章介绍常见的反爬虫技术,并给出了可行的反爬虫解决方案。
第28章介绍爬虫框架的编写,学习如何自己动手编写一款爬虫框架,以满足特定业务场景的需求。
本书特色
循序渐进,涉及面广:本书站在初学者的角度,循序渐进地介绍了使用Python开发网络爬虫的各种知识,内容由浅入深,几乎涵盖了目前网络爬虫开发的各种热门工具和前瞻性技术。
实战项目丰富,扩展性强:本书采用大量的实战项目进行讲解,力求通过实际应用使读者更容易地掌握爬虫开发技术,以应对业务需求。本书项目经过编者精心设计和挑选,根据实际开发经验总结而来,涵盖了在实际开发中所遇到的各种问题。对于精选项目,尽可能做到步骤详尽、结构清晰、分析深入浅出,而且案例的扩展性强,读者可根据实际需求扩展开发。
从理论到实践,注重培养爬虫开发思维:在讲解过程中,不仅介绍理论知识,注重培养读者的爬虫开发思维,而且安排了综合应用实例或小型应用程序,使读者能顺利地将理论应用到实践中。
特色干货,倾情分享:本书大部分内容都来自作者多年来的编程实践,操作性很强。值得关注的是,本书还介绍了爬虫软件和爬虫框架的开发,供学有余力的读者扩展知识结构,提升开发技能。
源代码下载
本书所有程序代码均在Python 3.6下调试通过,源代码Github下载地址:
https://github.com/xyjw/python-Reptile
你也可以扫描下面的二维码下载。
如果你在下载过程中遇到问题,可发送邮件至[email protected]获得帮助,邮件标题为“实战Python网络爬虫下载资源”。
技术服务
读者在学习或者工作的过程中,如果遇到实际问题,可以加入QQ群93314951与笔者联系,笔者会在第一时间给予回复。
读者对象
本书主要适合以下读者阅读:
? Python网络爬虫初学者及在校学生。
? Python初级爬虫工程师。
? 从事数据抓取和分析的技术人员。
? 学习Python程序设计的开发人员。
虽然笔者力求本书更臻完美,但由于水平所限,难免会出现错误,特别是实例中爬取的网站可能随时更新,导致源码在运行过程中出现问题,欢迎广大读者和高手专家给予指正,笔者将十分感谢。
黄永祥
2019年1月
评论
还没有评论。