python数据分析之将爬取的数据保存为csv格式

 更新时间:2022年06月13日 10:11:33   作者:轩轩是只橘猪猪  
Python内置了CSV模块,可直接通过该模块实现csv文件的读写操作,在web应用中导出数据是比较常见操作,下面这篇文章主要给大家介绍了关于python数据分析之将爬取的数据保存为csv格式的相关资料,需要的朋友可以参考下

csv文件

一种用逗号分割来实现存储表格数据的文本文件。

python的csv模块

python遍历代码:

arr = [12, 5, 33, 4, 1]
#遍历输出1
for i in range(0, len(arr)):
    item = arr[i]
    print(item)

#遍历输出2
for item in arr:
    print(item)

#遍历输出3
string_arr = ["hi", "hello", "你好", "aloha"]
for item in string_arr:
    print("本次循环 item 变量的值", item)

从csv文件读取内容

用DictReader对象的创建方法以及通过filenames属性获取csv表格的表头。

import csv
#打开csv
fo = open("info.csv")
#打开csv文件的文件对象作为参数来创建dictreader类的对象,存在reader变量中
reader = csv.DictReader(fo)
#调用reader对象的filednames属性,获取csv文件表格的开头
headers = reader.fieldnames
#关闭文件
fo.close()
#打印
print(headers)

获取表格实际内容。

fo = open("info.csv")
reader = csv.DictReader(fo)
#创建列表,存储读到的行
row_list = []
#遍历
for row in reader:
    row_list.append(row)
fo.close()
#打印
print(row_list[0])
#遍历row_list
for d in row_list:
    #d是字典,直接打印key为年龄值即可
    print(d["年龄"])
#打印

写入csv文件

python提供了DictWriter方法,可以讲表格数据以字典的形式存储到csv文件中。

import csv
#打开一个文件,假设是info.csv,写入所以是w
#newline='',写入时需要指定
fo = open("info2.csv", "w", newline='')
#将表头存储到一个列表里
header = ["姓名", "年龄", "部门"]
#创建一个DictWriter对象,第二个参数就是上面创建的表头
writer = csv.DictWriter(fo, header)
writer.writeheader()
#写入一行记录,以字典的形式,key需要与表头对应
writer.writerow({"姓名": "小明", "年龄":"28", "部门": "行政部"})
#关闭文件
fo.close()

运行后,相应的文件夹下会出现一个对应的csv文件。

也可以使用writer.writerows(row_list)来写入多个。

运用实例

数据准备

1、打开网页,读取内容,并创建相应的BeautifulSoup对象

2、找到包含新闻的div元素列表

3、从2中抽取标题

4、从2中抽取时间

from bs4 import BeautifulSoup
def create_doc_from_filename(filename):
    fo = open(filename, "r", encoding='utf-8')
    html_content = fo.read()
    fo.close
    doc = BeautifulSoup(html_content)
    return doc

(记得要pip install bs4)

#输入参数是BeautifulSoup对象,返回包含新闻的div元素列表
def find_index_labels(doc):
    index_labels = doc.find_all("div", class_ = "indexs")
    return index_labels
#实现新闻标题的抽取函数
def get_title(label_object):
    #从刚才的参数传入的标签对象中过滤出所有的target = _blank的a标签
    a_labels = label_object.find_all("a", target = "_blank")
    #取得第一个标签对象
    my_label = a_labels[0]
    #将标签的文字内容作为返回值返回
    return my_label.get_text()
#实现获取新闻发布时间的函数
def get_pub_time(label_object):
    #找到class = comment-link的span标签
    spans = label_object.find_all("span", class_ = "comment-link")
    #取第一个
    span = spans[0]
    #返回标题属性
    return span["title"]
#获取新闻标题与列表
#调用create_doc_from_filename函数
doc = create_doc_from_filename("jiandan.html")
#传入BeautifulSoup对象,将返回的div列表存储在index_labels中
index_labels = find_index_labels(doc)
for label_object in index_labels:
    title = get_title(label_object)
    pub_time = get_pub_time(label_object)
    print("标题", title)
    print("发布时间", pub_time)

将数据存为字典的形式

#获取新闻标题与列表
#调用create_doc_from_filename函数
doc = create_doc_from_filename("jiandan.html")
#传入BeautifulSoup对象,将返回的div列表存储在index_labels中
index_labels = find_index_labels(doc)
news_dict_list = []
for label_object in index_labels:
    title = get_title(label_object)
    pub_time = get_pub_time(label_object)
    news = {"标题": title, "发布时间": pub_time}
    news_dict_list.append(news)
print(news_dict_list)

存储到csv文件

#创建csv
fo = open("news.csv", "w", newline='', encoding='utf-8')
#表头
header = ["标题", "发布时间"]
writer = csv.DictWriter(fo, header)
#写入表头
writer.writeheader()
#将上一步的字典写入csv文件中
writer.writerows(news_dict_list)
fo.close()

总结

到此这篇关于python数据分析之将爬取的数据保存为csv格式的文章就介绍到这了,更多相关python爬取数据保存csv格式内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python魔法方法功能与用法简介

    Python魔法方法功能与用法简介

    这篇文章主要介绍了Python魔法方法功能与用法,结合具体实例形式分析了Python面向对象程序设计中魔法方法的概念、功能、原理、用法及相关操作注意事项,需要的朋友可以参考下
    2019-04-04
  • 全网最全python库selenium自动化使用详细教程

    全网最全python库selenium自动化使用详细教程

    这篇文章主要介绍了python库selenium自动化使用详细教程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2021-01-01
  • Python中decimal.Decimal类型和float类型的比较

    Python中decimal.Decimal类型和float类型的比较

    这篇文章主要介绍了Python中decimal.Decimal类型和float类型的比较,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-11-11
  • Python利用ORM控制MongoDB(MongoEngine)的步骤全纪录

    Python利用ORM控制MongoDB(MongoEngine)的步骤全纪录

    MongoEngine是一个对象文档映射器(ODM),相当于一个基于SQL的对象关系映射器(ORM),下面这篇文章主要给大家介绍了关于Python利用ORM控制MongoDB(MongoEngine)的相关资料,需要的朋友可以参考下
    2018-09-09
  • 超级好用的4个Python命令行可视化库

    超级好用的4个Python命令行可视化库

    通常大家都是在自己的电脑上跑程序,直接是可以可视化相应的结果.如果是在服务器上的话,使用终端,是不太方便查看结果. 今天,小F就给大家介绍4个可以在命令行中使用的Python库. 分别是Bashplotlib、tqdm、PrettyTable、Colorama,需要的朋友可以参考下
    2021-06-06
  • Python实现队列的方法

    Python实现队列的方法

    这篇文章主要介绍了Python实现队列的方法,实例分析了Python实现队列的相关技巧,需要的朋友可以参考下
    2015-05-05
  • Numpy随机抽样的实现

    Numpy随机抽样的实现

    本文主要介绍了Numpy随机抽样的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • 使用python实现下拉选择框和页签的方法

    使用python实现下拉选择框和页签的方法

    ttk是Python中的一个模块,它提供了一组用于创建GUI界面的工具和控件,这些控件包括按钮、标签、文本框等,可以帮助开发者更方便地创建用户界面,这篇文章主要介绍了使用python实现下拉选择框和页签的方法,需要的朋友可以参考下
    2023-03-03
  • Python中self关键字的用法解析

    Python中self关键字的用法解析

    在Python中,self是一个经常出现的关键字,特别是在类定义中的方法,这篇文章主要和大家self的作用和用法,希望可以帮助大家更好地理解为什么需要它以及如何正确使用它
    2023-11-11
  • Python Pygame实战之愤怒的小鸟游戏实现

    Python Pygame实战之愤怒的小鸟游戏实现

    《愤怒的小鸟》其实活得还不错,尽管我们一直在嘲笑它的IP帝国梦做得太大。但要知道,把休闲益智游戏的生意做到这个份上的,恐怕也就独此一家了。本文将利用Pygame实现这一游戏,需要的可以参考一下
    2022-04-04

最新评论