python定向爬取淘宝商品价格

 更新时间:2018年02月27日 09:08:06   作者:learn_is_happy  
这篇文章主要为大家详细介绍了python定向爬取淘宝商品价格,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

python爬虫学习之定向爬取淘宝商品价格,供大家参考,具体内容如下

import requests
import re

def getHTMLText(url):
  try:
    r = requests.get(url, timeout=30)
    r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_status() 来抛出异常:
    r.encoding= r.apparent_encoding
    return r.text
  except:
    return ""

def parsePage(ilt,html):
  try:
    plt = re.findall(r'\"view_price\"\:\"[\d\.]*?\"',html) #正则表达式来匹配 "view_price":"\d\."类型的字符串
    tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
#正则表达式来匹配 "raw_title":".*?"类型的字符串,.*?是任意字符的最小匹配
    for i in range(len(plt)):
      price = eval(plt[i].split(':')[1])
      title = eval(tlt[i].split(':')[1])
      ilt.append([price,title])
  except:
    print ("")


def PrintGoodsList(ilt):
  tplt = "{:4}\t{:8}\t{:16}"
  print (tplt.format("序号","价格","商品名称"))
  count = 0
  for g in ilt:
    count = count + 1
    print (tplt.format(count,g[0],g[1]))
def main():
  goods = '书包'
  depth = 2
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList=[]
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44*i)
      html= getHTMLText(url)
      parsePage(infoList,html)
    except:
      continue

  PrintGoodsList(infoList)

main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • MATLAB 如何求取离散点的曲率最大值

    MATLAB 如何求取离散点的曲率最大值

    这篇文章主要介绍了MATLAB 求取离散点的曲率最大值操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • 浅析python的Lambda表达式

    浅析python的Lambda表达式

    在本文里我们给大家整理了关于python的Lambda表达式相关知识点以及相关实例,需要的朋友们学习下。
    2019-02-02
  • python把一个字符串切开的实例方法

    python把一个字符串切开的实例方法

    在本篇文章里小编给大家整理的是一篇关于python把一个字符串切开的实例方法,需要的朋友们可以学习参考下。
    2020-09-09
  • Python如何批量更改图像尺寸统一大小

    Python如何批量更改图像尺寸统一大小

    这篇文章主要介绍了Python如何批量更改图像尺寸统一大小问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-03-03
  • PyQt5 QListView 高亮显示某一条目的案例

    PyQt5 QListView 高亮显示某一条目的案例

    这篇文章主要介绍了PyQt5 QListView 高亮显示某一条目的案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python读取xlsx文件报错:xlrd.biffh.XLRDError: Excel xlsx file;not supported问题解决

    Python读取xlsx文件报错:xlrd.biffh.XLRDError: Excel xlsx file;no

    这篇文章主要给大家介绍了关于Python库xlrd中的xlrd.open_workbook()函数读取xlsx文件报错:xlrd.biffh.XLRDError: Excel xlsx file;not supported问题解决的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2022-08-08
  • Python根据输入参数计算结果的实例方法

    Python根据输入参数计算结果的实例方法

    在本篇文章里小编个大家整理了一篇关于Python根据输入参数计算结果的实例方法,有兴趣的朋友们可以跟着学习参考下。
    2021-08-08
  • PyQt5编程扩展之资源文件的使用教程

    PyQt5编程扩展之资源文件的使用教程

    PyQt5支持Qt的资源系统,这是用于在应用程序中嵌入图片和翻译文件等资源的工具,下面这篇文章主要给大家介绍了关于PyQt5编程扩展之资源文件使用的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
    2023-03-03
  • python代码实现将列表中重复元素之间的内容全部滤除

    python代码实现将列表中重复元素之间的内容全部滤除

    这篇文章主要介绍了python代码实现将列表中重复元素之间的内容全部滤除,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-05-05
  • Django admin组件的使用

    Django admin组件的使用

    这篇文章主要介绍了Django admin组件的使用,帮助大家更好的理解和学习Django框架,感兴趣的朋友可以了解下
    2020-10-10

最新评论