春满大地,富贵花开。微雨众卉新,一雷惊蛰始。敬请关注微信公众号:AiryData。

标签:re

PYTHON

【进阶】Python爬虫采集整个网站

【进阶】Python爬虫采集整个网站
前言 在之前的文章中Python实现“维基百科六度分隔理论“之基础爬虫 ,我们实现了在一个网站上随机地从一个链接到另一个链接,但是,如果我们需要系统地把整个网站按目录分类,或者要搜索网站上的每一个页面,我们该怎么办?我们需要采集整个网站,但是那是一种非常耗费内存资源的过程,尤其是...

Airy 2年前 (2017-04-17) 3530℃ 0评论 7喜欢

PYTHON

Python实现“维基百科六度分隔理论“之最终版【优化版】

Python实现“维基百科六度分隔理论“之最终版【优化版】
预备阅读:Python实现“维基百科六度分隔理论“之基础爬虫  Python实现“维基百科六度分隔理论“之MySQL数据存储 前言 前面两篇分别说了简单的爬虫从一个页面到另一个页面,以及用MySQL数据库存储爬取到的数据。但是还有许多需要改进的地方,今天来优化完善一下之前的内容。...

Airy 2年前 (2017-03-31) 1834℃ 0评论 4喜欢

PYTHON

使用Python的正则表达式模块re爬取糗事百科段子

使用Python的正则表达式模块re爬取糗事百科段子
预备阅读:正则表达式基础 ,Python中的正则表达式模块re 学以致用,劳逸结合,最近学习了正则表达式基础以及在MySQL中应用正则表达式,还有学习Python中的正则表达式模块re,今天,使用Python中的re模块来做一个简单的例子。 提示:糗事百科的网站有时候会改版,下面...

Airy 2年前 (2017-02-22) 2949℃ 0评论 10喜欢

PYTHON

Python中的正则表达式模块re

Python中的正则表达式模块re
1.正则表达式相关注解 (1)数量词的贪婪模式与非贪婪模式 正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式”ab*”如果用于查...

Airy 2年前 (2017-02-21) 1992℃ 0评论 9喜欢