Python 中为 ML 项目加载 CSV 数据的各种方法

2026-06-02 4 花语

要成功构建机器学习项目，正确加载数据是最重要也是最具挑战性的任务之一。CSV是机器学习项目最常用的格式。它是一种用于存储表格数据的简单格式。

以下是Python中三种最常见的方法，您可以借助它们为机器学习项目加载CSV数据-

使用Python标准库

为了加载CSV数据文件，Python标准库为我们提供了一个内置函数，即csv模块。

例子

在这个例子中，我们将加载鸢尾花数据集的CSV数据文件-

#导入csv模块 import csv #要将数据转换为NumPy数组，请导入numpy模块： import numpy as np #提供存储在我们本地目录中的CSV数据文件的完整路径： datafile_path = r"c:/Users/ Desktop/iris.csv" #使用csv.reader()函数读取数据： with open(datafile_path,r) as f: reader = csv.reader(f,delimiter = ,) data_headers = next(reader) data = list(reader) data = np.array(data).astype(float) #打印数据标题的名称和数据文件的前5行： print(data_headers) print(data[:5])

输出

[sepal_length, sepal_width, petal_length, petal_width] [ [5.1 3.5 1.4 0.2] [4.9 3. 1.4 0.2] [4.7 3.2 1.3 0.2] [4.6 3.1 1.5 0.2] [5. 3.6 1.4 0.2] ]

使用熊猫

我们可以用来加载CSV数据文件的另一种方法是函数。此函数将返回一个可立即用于绘图的pandas.DataFrame。pandas.read_csv()

例子

在这个例子中，我们将加载皮马印第安人数据集的CSV数据文件-

#从Pandas导入read_csv函数 from pandas import read_csv #提供存储在我们本地目录中的CSV数据文件的完整路径： datafile_path = r"C:/Users/Leekha/Desktop/pima-indians-diabetes.csv" #使用read_csv()函数提供标题名称和读取数据： headernames = [preg, plas, pres, skin, test, mass, pedi, age, class] data = read_csv(datafile_path, names=headernames) #打印文件中的行数和列数以及数据文件的前5行： print(data.shape) print(data[:5])

输出

(768, 9) preg plas pres skin test mass pedi age class 0 6 148 72 35 0 33.6 0.627 50 1 1 1 85 66 29 0 26.6 0.351 31 0 2 8 183 64 0 0 23.3 0.672 32 1 3 1 89 66 23 94 28.1 0.167 21 0 4 0 137 40 35 168 43.1 2.288 33 1