python爬虫数据保存到mongoDB的实例方法

 更新时间:2020年07月28日 14:19:47   作者:yang  
在本篇文章里小编给大家整理的是一篇关于python爬虫数据保存到mongoDB的实例方法,有需要的朋友们可以参考下。

爬虫数据保存到mongoDB的方法:

import pymongo

# 首先需要注意,mongodb数据库存储的类型是以键值对类型进行存储,所以在存储以前一定要进行数据筛选

def save_mongo(传入的数据):

  # 创建连接 因为使用的为本机数据库,所以IP写localhost即可,端口号为27017

  client = pymongo.MongoClient('localhost',27017)

  # 连接数据库(这里注意一点,mongo数据库有一个优点,就是当自己连接的数据库和表都没有的时候,会自动创建,所以不用担心写错或者没有表)

  db = client['自己创建数据库名']

  # 连接表

  collection = db['自己的表名(mongo中叫做集合)']

  # 插入到数据库中(这里使用dict进行强制转换,是为了保证数据为字典格式)

  collection.insert(dict(传入的数据))

mongoDB介绍:

它的特点是高性能、易部署、易使用,存储数据非常方便。主要功能特性有:

*面向集合存储,易存储对象类型的数据。

*模式自由。

*支持动态查询。

*支持完全索引,包含内部对象。

*支持查询。

*支持复制和故障恢复。

*使用高效的二进制数据存储,包括大型对象(如视频等)。

*自动处理碎片,以支持云计算层次的扩展性。

*支持 Golang,RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。

*文件存储格式为BSON(一种JSON的扩展)。

*可通过网络访问。

实例扩展:

# coding=utf-8

import re
import requests
from lxml import etree
import pymongo
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

def getpages(url, total):
 nowpage = int(re.search('(\d+)', url, re.S).group(1))
 urls = []

 for i in range(nowpage, total + 1):
  link = re.sub('(\d+)', '%s' % i, url, re.S)
  urls.append(link)

 return urls

def spider(url):
 html = requests.get(url)

 selector = etree.HTML(html.text)

 book_name = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/a/text()')
 book_author = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/div/a/text()')

 saveinfo(book_name, book_author)

def saveinfo(book_name, book_author):
 connection = pymongo.MongoClient()
 BookDB = connection.BookDB
 BookTable = BookDB.books

 length = len(book_name)

 for i in range(0, length):
  books = {}
  books['name'] = str(book_name[i]).replace('\n','')
  books['author'] = str(book_author[i]).replace('\n','')
  BookTable.insert_one(books)

if __name__ == '__main__':
 url = 'http://readfree.me/shuffle/?page=1'
 urls = getpages(url,3)

 for each in urls:
  spider(each)

以上就是python爬虫数据保存到mongoDB的实例方法的详细内容,更多关于爬虫数据如何保存到mongoDB的资料请关注脚本之家其它相关文章!

相关文章

  • pandas object格式转float64格式的方法

    pandas object格式转float64格式的方法

    下面小编就为大家分享一篇pandas object格式转float64格式的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Tkinter组件实现Radiobutton的示例

    Tkinter组件实现Radiobutton的示例

    Radiobutton组件用于实现多选一的问题,本文主要介绍了Tkinter组件实现Radiobutton的示例,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • Python+matplotlib实现填充螺旋实例

    Python+matplotlib实现填充螺旋实例

    这篇文章主要介绍了Python+matplotlib实现填充螺旋实例,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • django框架实现一次性上传多个文件功能示例【批量上传】

    django框架实现一次性上传多个文件功能示例【批量上传】

    这篇文章主要介绍了django框架实现一次性上传多个文件功能,结合实例形式分析了Django框架批量上传相关实现技巧与操作注意事项,需要的朋友可以参考下
    2019-06-06
  • 只需要这一行代码就能让python计算速度提高十倍

    只需要这一行代码就能让python计算速度提高十倍

    今天教大家一个小方法,只需要这一行代码就能让python计算速度提高十倍,文中介绍的非常详细,对正在学习python的小伙伴有很好的帮助,需要的朋友可以参考下
    2021-05-05
  • Python全排列操作实例分析

    Python全排列操作实例分析

    这篇文章主要介绍了Python全排列操作,结合实例形式分析了Python列表、字符串全排列算法,以及使用标准库itertools进行全排列的相关操作技巧,需要的朋友可以参考下
    2018-07-07
  • 学会使用Python Configparser处理ini文件模块

    学会使用Python Configparser处理ini文件模块

    这篇文章主要为大家介绍了使用Python Configparser处理ini文件模块的学习,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06
  • 使用python xmlrpc连接odoo方式

    使用python xmlrpc连接odoo方式

    这篇文章主要介绍了使用python xmlrpc连接odoo方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-01-01
  • python遍历路径破解表单的示例

    python遍历路径破解表单的示例

    这篇文章主要介绍了python遍历路径破解表单的示例,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-11-11
  • Python全栈之线程详解

    Python全栈之线程详解

    这篇文章主要为大家介绍了Python全栈之线程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2021-12-12

最新评论