教育心理学注册
教育心理学下载 / NEWS
  • 公司要闻
  • 行业动态
信息正文
Python自学指南 怎样把最好用的Python教程爬取下来?
时间:2019-06-12 11:26信息来源:本站原创


  相关部门要协同配合、优化服务,方便群众就近、便捷、免费安装不停车快捷收费系统。二是在不增加货车通行费总体负担情况下,优化货车通行费计费方式。对封闭式高速公路收费站入口同步实行不停车称重,防止超载。三是探索经验,完善相关制度和政策,推进修订法律法规。支持设施和系统改造。

  只有这样,才能使自己的学术成果反映趋势、揭示规律。  恪守学者责任是法学研究者推进学术创新的重要基础。

Python自学指南  怎样把最好用的Python教程爬取下来?

很多初学者都是从廖雪峰的教程开始的。 我也是廖老师教程的忠实读者。 今天学到了爬虫,就想把廖老师的教程爬取下来,方便查阅。 下面是我爬取这个教程的简单过程。

一个简单的爬虫大概包含下面的4个步骤:1.获取网页的URL2.下载网页的HTML文件3.解析下载到的HTML,提取所需的数据4.将提取的数据存储起来首先,看一下如何获取廖老师教程的全部URL。 在浏览器中打开教程的首页,查看源文件,发现教程的URL如下图所示:Paste_从源文件中可以看到,每篇教程都是由两串随机码组成的(是不是随机的我不确定,水平有限不知道这些代码是怎么生成的)。

因此,要爬取所有的教程页面,则需要先将各页面的URL提取出来,然后与根url组合,获得完整的URL。 观察整个HTML,URL所在的div标签具备唯一的class属性值“x-sidebar-left-content”,就根据这个特征解析首页的代码,获得URL列表。

使用BeautifulSoup解析获取的各页面的URL和标题。 :tree=BeautifulSoup(html,)data=(,=).find_all()urls=[]titles=[]grades=[]([])(_text())urls,titles接下来,将获得的URL与根URL组合,获得完整的URL。 使用Python的包抓取所有的页面的HTML。

:print(%url):result=(url,timeout=).read():print(,)result=result如果要把自己的爬虫伪装成流量器,也可以给其加上首部的信息(当然这里没有必要)。

:opener=_opener()=headersprint(%url):result=(url,timeout=)result=()print():print(,)result=result第三步就是要解析抓取的HTML文档,提取有用的信息了。

和第一步中提取URL的方法类似,先分析页面的代码,确定有用信息的特征,然后用BeautifulSoup将其提取出来。

Paste_内容部分的特征是div标签具备值为“x-wiki-content”的class属性,并且在全文中是唯一的。 可以利用该属性来提取数据::tree=BeautifulSoup(html,)data=(,=)result=_text()result最后,将获取的数据写到文本文件中进行存储。 一个简单的爬取大神教程的小爬虫算是做完了。 全部的代码如下:urllib,,:print(%url):result=(url,timeout=).read():print(,)result=result:opener=_opener()=headersprint(%url):result=(url,timeout=)result=()print():print(,)result=result:tree=BeautifulSoup(html,)data=(,class_=).find_all()print(data[].attrs[])urls=[]titles=[]grades=[]itemdata:([])(_text())urls,titles:tree=BeautifulSoup(html,)data=(,class_=)result=_text()resulturl=root=headers=[(,),(,),(,),(,)]html=download_browser(url,headers)urls,titles=bs_parser(html)i=item,titlezip(urls,titles):i+=url=root+itemhtml=download_browser(url,headers)result=bs_parser_content(html)fileName=str(i)++(,)+fileName=(,fileName)open(fileName,)f:(result)。

上一篇:罗斯福:轮椅上的巨人
下一篇:没有了