python爬虫爬取淘宝商品信息

 更新时间:2018年02月23日 17:04:40   作者:OliverkingLi  
这篇文章主要为大家详细介绍了python爬虫爬取淘宝商品信息,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下

import requests as req 
import re 
 
def getHTMLText(url): 
 try: 
 r = req.get(url, timeout=30) 
 r.raise_for_status() 
 r.encoding = r.apparent_encoding 
 return r.text 
 except: 
 return "" 
 
def parasePage(ilt, html): 
 try: 
 plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) 
 tlt = re.findall(r'\"raw_title\"\:\".*?\"', html) 
 for i in range(len(plt)): 
  price = eval(plt[i].split(':')[1]) 
  title = eval(tlt[i].split(':')[1]) 
  ilt.append([price, title]) 
 except: 
 print("") 
 
 
def printGoodsList(ilt): 
 tplt = "{:4}\t{:8}\t{:16}" 
 print(tplt.format("序列号", "价格", "商品名称")) 
 count = 0 
 for j in ilt: 
 count = count + 1 
 print(tplt.format(count, j[0], j[1])) 
 
def main(): 
 goods = "python爬虫" 
 depth = 3 
 start_url = 'https://s.taobao.com/search?q=' + goods 
 infoList = [] 
 for i in range(depth): 
 try: 
  url = start_url + '&s=' + str(44*i) 
  html = getHTMLText(url) 
  parasePage(infoList, html) 
 except: 
  continue 
 printGoodsList(infoList) 
 
main() 

效果图:

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python安装jieba库详细教程

    Python安装jieba库详细教程

    jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,这篇文章主要介绍了Python安装jieba库教程,需要的朋友可以参考下
    2023-03-03
  • python实现一个简单的ping工具方法

    python实现一个简单的ping工具方法

    今天小编就为大家分享一篇python实现一个简单的ping工具方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • python机器学习实现决策树

    python机器学习实现决策树

    这篇文章主要为大家详细介绍了python机器学习实现决策树,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-11-11
  • 浅谈Pandas dataframe数据处理方法的速度比较

    浅谈Pandas dataframe数据处理方法的速度比较

    这篇文章主要介绍了浅谈Pandas dataframe数据处理方法的速度比较,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • tensorflow保持每次训练结果一致的简单实现

    tensorflow保持每次训练结果一致的简单实现

    今天小编就为大家分享一篇tensorflow保持每次训练结果一致的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Django事务transaction的使用以及多个装饰器问题

    Django事务transaction的使用以及多个装饰器问题

    这篇文章主要介绍了Django事务transaction的使用以及多个装饰器问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • python中文乱码不着急,先看懂字节和字符

    python中文乱码不着急,先看懂字节和字符

    这篇文章主要介绍了python中文乱码不着急,先看懂字节和字符,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • 一文带你了解Python中的生成器和迭代器

    一文带你了解Python中的生成器和迭代器

    生成器(Generators)和迭代器(Iterators)是 Python 中用于处理序列数据的强大工具,本文主要来和大家介绍一下它们的具体使用,方便大家更好的了解它们,需要的可以学习下
    2022-03-03
  • PyTorch使用教程之Tensor包详解

    PyTorch使用教程之Tensor包详解

    这篇文章介绍了PyTorch中的张量(Tensor)数据结构,包括张量的数据类型、初始化、常用操作、属性等,张量是PyTorch框架中的核心数据结构,支持多种数据类型,可以通过工厂函数构造张量,并提供了丰富的操作和属性,感兴趣的朋友跟随小编一起看看吧
    2025-01-01
  • Python WebSocket长连接心跳与短连接的示例

    Python WebSocket长连接心跳与短连接的示例

    这篇文章主要介绍了Python WebSocket长连接心跳与短连接的示例,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-11-11

最新评论