数据集(Datasets)


以下数据集都来源于公开数据集,主要用于《机器学习》、《深度学习》、《计算机视觉》等课程教学使用。


序号 名称 数据集描述 课程 下载
1 鸢尾花数据集
  • 鸢尾花数据集最初由Edgar Anderson 测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用,用其作为线性判别分析(Linear Discriminant Analysis)的一个例子,证明分类的统计方法,从此而被众人所知,尤其是在机器学习这个领域。
  • 鸢尾花数据集共收集了三类鸢尾花,即Setosa鸢尾花、Versicolour鸢尾花和Virginica鸢尾花,每一类鸢尾花收集了50条样本记录,共计150条。数据集包括4个属性,分别为花萼的长、花萼的宽、花瓣的长和花瓣的宽。
  • 《机器学习》
2 MNIST手写字体
  • MNIST数据集包含70000个样本,其中训练集60000个,测试集10000个。每个样本都分为图片和标签,图片是28*28的像素矩阵,标签是0~9的10个数字。
  • 《机器学习》
  • 《深度学习》
3 Adult成人相亲
  • 该数据集由Barry Becker从1994人口普查数据库中提取得到。该数据集包含48842个连续或离散的实例。其中训练集32561个,测试集16281个。 预测任务是确定一个人年薪是否超过50K。
  • 《机器学习》
4 糖尿病预测数据集
  • 该数据集包含数据集中共包含768个样本(entries),每个样本8种特征。其中Outcome是样本的标签(即类别),0表示没有糖尿病,1表示患有糖尿病。
  • 《机器学习》
5 LFW人脸识别数据集
  • LFW (Labled Faces in the Wild)人脸数据集:是目前人脸识别的常用测试集,其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心坐标的人脸作为目标,其他区域的视为背景干扰。LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。当然,在深度学习流行的今天,LFW数据集的识别率已经达到99.78%。
  • 《机器学习》
6 Stock股票信息
  • 该数据集是2020年2月15日收盘之后从证券交易软件中导出的数据。包含3776个样本,每个样本包含10种特征。可以用来演示各种回归算法,预测股票的涨跌。
  • 《机器学习》
7 CIFAR10数据集
  • CIFAR-10 是一个包含60000张图片的数据集。其中每张照片为32*32的彩色照片,每个像素点包括RGB三个数值,数值范围 0-255。所有样本分为10个类别,分别是: 'airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck'。其中50000张训练集,10000张测试集。
8 蔬菜数据集(三类)
  • 该数据包含黄瓜(cuke)、莴笋(lettuce)、莲藕(lotus_root)三个类别,共计300个样本。 数据中包含一个划分数据集的代码,可实现按照7:1:2的比例划分vegetables数据集。此外,数据集中包含额外的12幅图片用于做预测。
9 Gesture手势识别
  • Gesture是土耳其Ankara Ayrancı Anadolu高中搜集的学生手势数据集,该数据集包含数据集中共包含0-9的手势共10个类别,2062个样本(entries),每个样本都是彩色图片。 Gesture文件夹中,包含Main和infer两个子文件夹,其中Main包含训练和测试的所有样本,infer是用于推理的10个样本。
  • 值得注意的是,手势的表示各地差异较大,本数据集仅代表一种特殊的手势表示方法。
  • Gesuture手势识别
  • 《深度学习》
10 车牌识别数据集
  • VehicleLicense车牌识别数据集包含16151张单字符数据,所有的单字符均为严格切割且都转换为黑白二值图像(如下第一行:训练数据所示)。真实检测的数据如下图(第二行:原始车牌)所示。第三行处理后的车牌是根据真实检测的车牌进行精致编辑,总共包含8幅720×170的测试样本(test01-08)。
  • 注意:由于本例中的测试代码并没有包含严格图像分割及预处理代码,因此无法很好识别原始车牌及非标准车牌(标准车牌为蓝底白字,光线充足),此例仅供简单验证。
  • 数据集中包含三个文件夹:dataset, Infer, Infer0。其中dataset为训练验证测试数据,Infer为处理后的车牌,Infer0为原始车牌。
  • VehicleLicense车牌识别
  • 《深度学习》
10 蝴蝶数据集
  • 蝴蝶数据集Butterflies数据集包含619张7个不同种类的彩色蝴蝶照片。所有的样本都放在 Data 文件夹中,文件夹中包含一个数据划分数据集的代码,可实现按照7:1:2的比例划分为训练集、验证集、测试集和训练验证集。
  • 《深度学习》
11 十二生肖数据集
  • Zodiac十二生肖数据集由互联网收集而得,包括12个不同的类,共计8508张图片。图像类型多种多样,包括真实照片,简笔画,漫画等。
  • 数据集已经事先实现了训练(train)、验证(valid)和测试(test)的分割。因此,在进行数据列表生成的时候,不需要手动进行分割,但要注意确保三种类型数据标签和类别的统一。
  • 在数据集中存在若干损坏的图像,若直接生成图像列表,在训练的时候会报错。因此,需要实现对损坏的样本进行处理。本数据集已经给出一种数据清理的建议,详见代码data_clean.py。
  • VehicleLicense十二生肖数据集
  • 《深度学习》
12 垃圾分类数据集
  • Garbage垃圾分类数据集是Paddle平台的一个比赛数据集,所用训练和测试图片均来自生活场景。总共四十个类别,类别和标签对应关系在训练集中的dict文件里。图片中垃圾的类别,格式是“一级类别/二级类别”,二级类别是具体的垃圾物体类别,也就是训练数据中标注的类别,比如一次性快餐盒、果皮果肉、旧衣服等。一级类别有四种类别:可回收物、厨余垃圾、有害垃圾和其他垃圾。
  • 数据文件包括训练集(有标注)和测试集(无标注),训练集的所有图片分别保存在train文件夹下面的0-39个文件夹中,文件名即类别标签,测试集共有400张待分类的垃圾图片在test文件夹下。
  • 文件夹编号及标签由 garbage_dict.json 文件给出。
  • Garbage垃圾分类数据集
  • 《深度学习》