Python加载文件内容的两种实现方式

更新时间：2022年09月26日 14:39:31 作者：象在舞

这篇文章主要介绍了Python加载文件内容的两种实现方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

一、利用open()函数进行加载

def load_file(file_name):
    '''
    利用open()函数加载文件
    :param file_name: 文件名
    :return: 特征矩阵、标签矩阵
    '''
    f = open(file_name)  # 打开训练数据集所在的文档
    feature = []  # 存放特征的列表
    label = []  #存放标签的列表
    for row in f.readlines():
        f_tmp = []  # 存放特征的中间列表
        l_tmp = []  # 存放标签的中间列表
        number = row.strip().split("\t")  # 按照\t分割每行的元素，得到每行特征和标签
        f_tmp.append(1)  # 设置偏置项
        for i in range(len(number) - 1):
            f_tmp.append(float(number[i]))
        l_tmp.append(float(number[-1]))
        feature.append(f_tmp)
        label.append(l_tmp)
    f.close()  # 关闭文件，很重要的操作
    return np.mat(feature), np.mat(label)

二、利用Pandas库中的read_csv()方法进行加载

def load_file_pd(path, file_name):
    '''
    利用pandas库加载文件
    :param path: 文件路径
    :param file_name: 文件名称
    :return: 特征矩阵、标签矩阵
    '''
    feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
    feature.columns = ["a", "b"]
    feature = feature.reindex(columns=list('cab'), fill_value=1)
    label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
    return feature.values, label.values

三、示例

我们可以使用上述的两种方法加载部分数据进行测试，数据内容如下：

数据分为三列，前两列是特征，最后一列是标签。

加载数据代码如下：

'''
两种方式加载文件
'''
 
import pandas as pd
import numpy as np
 
def load_file(file_name):
    '''
    利用open()函数加载文件
    :param file_name: 文件名
    :return: 特征矩阵、标签矩阵
    '''
    f = open(file_name)  # 打开训练数据集所在的文档
    feature = []  # 存放特征的列表
    label = []  #存放标签的列表
    for row in f.readlines():
        f_tmp = []  # 存放特征的中间列表
        l_tmp = []  # 存放标签的中间列表
        number = row.strip().split("\t")  # 按照\t分割每行的元素，得到每行特征和标签
        f_tmp.append(1)  # 设置偏置项
        for i in range(len(number) - 1):
            f_tmp.append(float(number[i]))
        l_tmp.append(float(number[-1]))
        feature.append(f_tmp)
        label.append(l_tmp)
    f.close()  # 关闭文件，很重要的操作
    return np.mat(feature), np.mat(label)
 
def load_file_pd(path, file_name):
    '''
    利用pandas库加载文件
    :param path: 文件路径
    :param file_name: 文件名称
    :return: 特征矩阵、标签矩阵
    '''
    feature = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[0, 1])
    feature.columns = ["a", "b"]
    feature = feature.reindex(columns=list('cab'), fill_value=1)
    label = pd.read_csv(path + file_name, delimiter="\t", header=None, usecols=[2])
    return feature.values, label.values
 
if __name__ == "__main__":
    path = "C://Users//Machenike//Desktop//xzw//"
    feature, label = load_file(path + "test.txt")
    feature_pd, label_pd = load_file_pd(path, "test.txt")
    print(feature)
    print(feature_pd)
    print(label)
    print(label_pd)

测试结果：

[[ 1. 1.43481273 4.54377111]
[ 1. 5.80444603 7.72222239]
[ 1. 2.89737803 4.84582798]
[ 1. 3.48896827 9.42538199]
[ 1. 7.98990181 9.38748992]
[ 1. 6.07911968 7.81580716]
[ 1. 8.54988938 9.83106546]
[ 1. 1.86253147 3.64519173]
[ 1. 5.09264649 7.16456405]
[ 1. 0.64048734 2.96504627]
[ 1. 0.44568267 7.27017831]]
[[ 1. 1.43481273 4.54377111]
[ 1. 5.80444603 7.72222239]
[ 1. 2.89737803 4.84582798]
[ 1. 3.48896827 9.42538199]
[ 1. 7.98990181 9.38748992]
[ 1. 6.07911968 7.81580716]
[ 1. 8.54988938 9.83106546]
[ 1. 1.86253147 3.64519173]
[ 1. 5.09264649 7.16456405]
[ 1. 0.64048734 2.96504627]
[ 1. 0.44568267 7.27017831]]
[[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]
[ 0.]]
[[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]
[0]]

从测试结果来看可知两种加载数据的方法得到的数据结果是一样的，故两种方法均适用于加载数据。

注意：

此处是以Logistic Regression模型加载数据为例，数据与数据本身或许会有差异，但加载数据的方式都是大同小异的，要灵活变通。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Windows切换python版本的超快捷方法(推荐!)
这篇文章主要介绍了在Windows中切换Python版本的快捷方法,通过编辑系统变量中的Path变量,可以快速切换到所需的Python版本,文中通过图文介绍的非常详细,需要的朋友可以参考下
2025-02-02
关于python的list相关知识(推荐)
下面小编就为大家带来一篇关于python的list相关知识(推荐)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-08-08
python下载的库包存放路径
在本篇文章里小编给大家整理的是一篇关于python下载的库包存放路径，需要的朋友们可以参考学习下。
2020-07-07
Pycharm配置Anaconda环境的详细图文教程
PyCharm是一款很好用很流行的python编辑器,Anaconda通过管理工具包、开发环境、Python版本,大大简化了你的工作流程,下面这篇文章主要给大家介绍了关于Windows系统下Pycharm配置Anaconda环境的相关资料,需要的朋友可以参考下
2023-02-02
python如何输入根号
这篇文章主要介绍了python如何输入根号，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
Python内存泄漏和内存溢出的解决方案
这篇文章主要介绍了Python内存泄漏和内存溢出的解决方案，帮助大家维护后台进程，感兴趣的朋友可以了解下
2020-09-09
Python时间处理模块time和datetime详解
本文详细介绍了Python中常用的时间处理模块time和datetime,time模块提供多种时间获取和转换功能,datetime模块则在time的基础上增加了日期和时间的组合处理,如datetime.now()获取当前日期时间,两个模块在日常编程中非常有用,尤其是在需要时间日期计算和转换的场景下
2024-10-10
python操作ini类型配置文件的实例教程
这篇文章主要给大家介绍了关于python操作ini类型配置文件的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-10-10
Python Traceback异常代码排错利器使用指南
这篇文章主要为大家介绍了Python Traceback异常代码排错利器使用指南,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01
Django 聚合查询及使用步骤
本文详细介绍了Django中聚合查询的使用方法和步骤,包括aggregate()和annotate()两种聚合查询方式,以及F()和Q()查询的使用场景,文中通过具体代码示例解释了如何在Django项目中实现数据聚合,感兴趣的朋友跟随小编一起看看吧
2024-09-09