春满大地,富贵花开。微雨众卉新,一雷惊蛰始。敬请关注微信公众号:AiryData。

requests实战之爬取京东和亚马逊商品的区别

PYTHON Airy 3088℃ 0评论

前面学习了requests库的基本使用,今天来学习一下实际应用中会出现的问题。这里我们只简单爬取某一个页面的商品,给大家一个参考。

实战1:爬取京东图书“数据实践之美”页面

数据实践之美URL:https://item.jd.com/12106224.html
下面的截图作为测试,可以看到执行正确,得到了书籍的完整页面信息。

下面看完整代码:

1
2
3
4
5
6
7
8
9
import requests
URL = "https://item.jd.com/12106224.html"
try:
    r = requests.get(URL)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("获取失败")

 

实战2:爬取亚马逊图书“极简”页面

极简url = “https://www.amazon.cn/gp/product/B01M8L5Z3Y”
下面的截图作为测试,可以看到执行正确,得到了书籍的完整页面信息。但是注意,此时页面编码变成了UTF-8,同时这里我们添加了headers,即user-agent,有时候访问页面需要添加headers信息,亚马逊就是如此。

下面看完整代码:

1
2
3
4
5
6
7
8
9
10
import requests
URL = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("获取失败")

好了,上面就是Python中requests库的实际操作应用。
希望通过上面的内容能帮助大家。如果你有什么好的意见,建议,或者有不同的看法,我都希望你留言和我们进行交流、讨论。
如果想快速联系我,欢迎关注微信公众号:AiryData。

转载请注明:数据之美 » requests实战之爬取京东和亚马逊商品的区别

喜欢 (8)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(2)个小伙伴在吐槽
  1. @Airy: URL = "https://item.jd.com/12106224.html" r = requests.get(url, headers = kv) 此两行中URL 和 url 不一致,运行出错了。
    zz2017-03-10 20:12 回复
    • 抱歉。失误了,谢谢提醒,已更正。
      Airy2017-03-10 22:33 回复