selenium是一个chrome浏览器为核心的WEB测试框架,以前也有类似的其它框架。你甚至可以用pyqt自己开发一套也不是不成。
你可以先安装selenium ide熟悉一下它的使用方式。 然后你找一个教程。这里就不给URL里了。
按它的说明在linux下安装好selenium,记住驱动的版本要与你的chrome版本完全一致。这个是因为它们背后用的qt库如果不一致,就没有办法接起来。
然后试试下面的代码。
#coding:utf-8
from selenium import webdriver
driver=webdriver.Chrome()
driver.get('
)
print driver.title
driver.quit()
应该可以打印出 网站的名称。 这就对了。 详细的内容,可以慢慢看教程。也可以直接看selenium的源代码。里面有完整的接口。
另外你还需要知道一些浏览器的JS知识,还有DOM的知识。HTML的知识当然也必不可少。
如果仅仅是判断404,可能用不着selenium, 你直接用urllib.urlopen(url),判断返回的响应中的status code就可以了。略略看一下python关于urllib的帮助就可以了。
学习也是一个工作,摸索找到你的答案同样也很重要的一个工作。