资讯详情

python爬虫-27-python之Selenium入门,动态网页抓取

[外链图片转存失败,源站可能有防盗链机制,建议保存图片并直接上传(img-HhwW6kOo-1655344062971)(https://mmbiz.qpic.cn/mmbiz_jpg/Nwec3GEnHPGwxyBtv4ZSGxr1qQicsC9UlB84675Kkxk47S4gWrX3sFvllONGt6NJicCEqVyhEHCSt7jhItNYEHaQ/640?wx_fmt=jpeg)]

之前我们操作的对象是静态网页,可以直接查看网页源代码。近年来,动态网页的份额越来越大。通过以前的方式获取动态网页的内容并不那么方便,所以我们在这里使用它selenium,他在做什么?简单地说,你可以理解它是一个小机器人可以定义他的操作,帮助您完成一系列操作,以获取我们想要的数据。

1、介绍

1.什么是动态网页?

使用动态网页Ajax技术前端;

AjaxAsynchronous Javascript And XML(异步JavaScriptXML)在 2005年被Jesse James Garrett使用现有技术集合的新方法,包括: HTMLXHTML, CSS, JavaScript, DOM, XML, XSLT, 最重要的XMLHttpRequest。 使用Ajax技术网页应用可以在用户界面上快速更新增量,,这使得程序能够更快地响应用户的操作。(本段内容来自百度百科)

当然,现在很多情况下,会xml换成了json,这与我们无关,知道就好。

我们关注的是,这意味着通过其他方式获得请求地址和参数是很麻烦的。

1.2、Selenium是什么?

Selenium是一个用于Web应用程序测试工具。Selenium测试直接在浏览器中运行,就像真正的用户在运行一样。支持浏览器包括IE(7, 8, 9, 10, 11)Mozilla FirefoxSafariGoogle ChromeOperaEdge等等。该工具的主要功能包括:测试与浏览器的兼容性-测试应用程序,以查看它是否能在不同的浏览器和操作系统上工作良好。测试系统功能-创建回归测试软件功能和用户需求。支持自动录制动作和自动生成.Net、Java、Perl测试不同语言的脚本。(本段内容来自百度百科)

简单地说,你通过了Selenium帮助您操作浏览器界面中的内容,相当于一个小机器人,您给他相应的指令,他帮助您操作相应的内容。

2、安装

需要安装两件事,一件是Selenium模块,另一个是根据你的浏览器版本下载浏览器驱动driver,毕竟Selenium你的浏览器是通过这个驱动器控制的。

2.1、Selenium安装

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple  

2.2、driver驱动安装

我们需要知道的是,这是可变的。您应该根据自己电脑上的浏览器和浏览器浏览器对应的具体版本下载相应的驱动程序,否则将无法生效。不同的浏览器有不同的下载地址。以下是一些常用的,可根据您的实际情况下载:

谷歌Chrome兼容Selenium驱动下载地址:

https://sites.google.com/chromium.org/driver/downloads  

火狐Firefox兼容Selenium驱动下载地址:

https://github.com/mozilla/geckodriver/releases  

Edge兼容Selenium驱动下载地址:

https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/  

Safari兼容Selenium驱动下载地址:

https://webkit.org/blog/6900/webdriver-support-in-safari-10/  

比如我自己用的是实操。Chrome而且版本是浏览器版本 102.0.5005.63(正式版) (64 位)

如何查看Chrome版本,点击右上角的三点–>“帮助”–>“关于Google Chrome如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议保存图片并直接上传(img-fqirbyxs-1655344062972)(https://mmbiz.qpic.cn/mmbiz_jpg/Nwec3GEnHPGwxyBtv4ZSGxr1qQicsC9UlevOiaVDCn0HezLcpfibxCzZjbmxiaBqC9xpCoyqdXPPhZHIibvQfSnxKNA/640?wx_fmt=jpeg)]

然后访问Chrome访问界面如下:

https://sites.google.com/chromium.org/driver/downloads  

出现界面之后,找到对应我们版本的(如果找不到一模一样的,可以找个极其相近的也可):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-s07dpynO-1655344062974)(https://mmbiz.qpic.cn/mmbiz_jpg/Nwec3GEnHPGwxyBtv4ZSGxr1qQicsC9UlG1deKfZM6hXuLlvft7n3plvwCOdgpB58MfR3PvFx9YkNlgUcibBD4Jg/640?wx_fmt=jpeg)]

然后根据你的电脑型号,比如你是windows或者linux选择合适的点击下载:

[外链图片转存失败,源站可能有防盗链机制,建议保存图片并直接上传(img-orpGV25Q-1655344062975)(https://mmbiz.qpic.cn/mmbiz_jpg/Nwec3GEnHPGwxyBtv4ZSGxr1qQicsC9UlK21q2tbnaD4QEspzy14Yb0v9nGGEZjuKGIz6WyNxZAxzq1IUzcJW9g/640?wx_fmt=jpeg)]

比如这里就是windows然后我选择电脑chromedriver_win32.zip可以,下载文件后,放置在您的浏览器安装目录中,或随意放置目录,需要注意的是,目录必须是全部,不能是中文。

我把它放在这里C:\Users\22768\Desktop\python目录下。

3、使用Selenium打开浏览器

3.1.请求百度并获取返回内容

请转移剩余内容VX公众号 “运维家” ,回复 “188” 查看。

------ “运维家” ,回复 “188” ------ ------ “运维家” ,回复 “188” ------ ------ “运维家” ,回复 “188” ------

什么是运维工程师,收单猫运维工程师,武威光伏运维工程师,西安运维交付工程师招聘,石家庄网络运维工程师招聘; 数据中心运维基础工程师,运维工程师刚进公司什么都不会,顺丰的it佛山运维工程师IDC机房运维工程师招聘,武汉仕云运维工程师加班多吗? 运维工程师T1、设施运维工程师转型,erp江西环保运维工程师招聘,通富微电子桌面运维工程师; 成都科技园运维工程师招聘,运维工程师英语怎么说,运维工程师ppt,粤电风 电运维工程咋样,运维工程师的薪酬。

标签: 固态电容ulg

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台