要成功构建机器学习项目,正确加载数据是最重要也是最具挑战性的任务之一。CSV是机器学习项目最常用的格式。它是一种用于存储表格数据的简单格式。
以下是Python中三种最常见的方法,您可以借助它们为机器学习项目加载CSV数据-
为了加载CSV数据文件,Python标准库为我们提供了一个内置函数,即csv模块。
在这个例子中,我们将加载鸢尾花数据集的CSV数据文件-
#导入csv模块 import csv #要将数据转换为NumPy数组,请导入numpy模块: import numpy as np #提供存储在我们本地目录中的CSV数据文件的完整路径: datafile_path = r"c:/Users/ Desktop/iris.csv" #使用csv.reader()函数读取数据: with open(datafile_path,r) as f: reader = csv.reader(f,delimiter = ,) data_headers = next(reader) data = list(reader) data = np.array(data).astype(float) #打印数据标题的名称和数据文件的前5行: print(data_headers) print(data[:5])我们可以用来加载CSV数据文件的另一种方法是函数。此函数将返回一个可立即用于绘图的pandas.DataFrame。pandas.read_csv()
在这个例子中,我们将加载皮马印第安人数据集的CSV数据文件-
#从Pandas导入read_csv函数 from pandas import read_csv #提供存储在我们本地目录中的CSV数据文件的完整路径: datafile_path = r"C:/Users/Leekha/Desktop/pima-indians-diabetes.csv" #使用read_csv()函数提供标题名称和读取数据: headernames = [preg, plas, pres, skin, test, mass, pedi, age, class] data = read_csv(datafile_path, names=headernames) #打印文件中的行数和列数以及数据文件的前5行: print(data.shape) print(data[:5])