春满大地,富贵花开。微雨众卉新,一雷惊蛰始。敬请关注微信公众号:AiryData。

标签:BeautifulSoup

PYTHON

【进阶】Python爬虫采集整个网站

【进阶】Python爬虫采集整个网站
前言 在之前的文章中Python实现“维基百科六度分隔理论“之基础爬虫 ,我们实现了在一个网站上随机地从一个链接到另一个链接,但是,如果我们需要系统地把整个网站按目录分类,或者要搜索网站上的每一个页面,我们该怎么办?我们需要采集整个网站,但是那是一种非常耗费内存资源的过程,尤其是...

Airy 1年前 (2017-04-17) 3055℃ 0评论 7喜欢

PYTHON

Python实现“维基百科六度分隔理论“之最终版【优化版】

Python实现“维基百科六度分隔理论“之最终版【优化版】
预备阅读:Python实现“维基百科六度分隔理论“之基础爬虫  Python实现“维基百科六度分隔理论“之MySQL数据存储 前言 前面两篇分别说了简单的爬虫从一个页面到另一个页面,以及用MySQL数据库存储爬取到的数据。但是还有许多需要改进的地方,今天来优化完善一下之前的内容。...

Airy 1年前 (2017-03-31) 1632℃ 0评论 4喜欢

PYTHON

Python实现“维基百科六度分隔理论“之MySQL数据存储

Python实现“维基百科六度分隔理论“之MySQL数据存储
预备阅读:Python实现“维基百科六度分隔理论“之基础爬虫 前言 上一篇我们学习了数据采集中一个页面跳转到另一个页面的简单爬虫,虽然获取了这些链接数据,但是由于链接数目太多,不好查看,所以我们要想办法存储起来。 这里使用MySQL进行数据存储,关于MySQL的使用,以及使用Py...

Airy 1年前 (2017-03-30) 1835℃ 0评论 5喜欢

PYTHON

requests‐bs4路线实现中国大学排名定向爬虫

requests‐bs4路线实现中国大学排名定向爬虫
预备阅读:Python中Requests库的用法   Python中Beautiful Soup的用法 前言 最近学习了北京理工大学崇天老师的Python爬虫课程,老师讲了一个实现“中国大学排名定向爬虫”的实例,这里想自己实现一下,并分享给大家。 2016年中国最好大学排名:h...

Airy 1年前 (2017-03-14) 4263℃ 0评论 6喜欢

PYTHON

再端一碗Beautiful Soup

再端一碗Beautiful Soup
前面已经介绍了Python中Beautiful Soup的简单用法,见文章Python中Beautiful Soup的用法。 下面来说一下Beautiful Soup中更进一步的用法。请看正文: 1、遍历文档树 (1)直接子节点 要点:.contents  .children  ...

Airy 1年前 (2017-03-08) 1224℃ 0评论 4喜欢

PYTHON

Python中Beautiful Soup的用法

Python中Beautiful Soup的用法
1、Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档...

Airy 1年前 (2017-03-07) 2756℃ 0评论 5喜欢