[转]50 个最实用的免费机器学习数据集

用于机器学习的开放数据集有哪些呢？Lionbridge 团队为高质量的数据集创建了一份最终备忘单。这些高质量的数据集或者涵盖范围广泛（比如 Kaggle），或者非常细化（比如自动驾驶汽车的数据）。

首先，在搜索数据集时要记住几点。Dataquest 是这么说的：

数据集不应脏乱，这样就无需花太多时间来清洗数据。
数据集不应包含太多的行或者列，这样更易于使用。
数据越干净越好 —— 清洗大型数据集相当耗时。
这些数据可以用来回答一些有趣的问题。

我们一起来看看吧！

数据集查找器

Kaggle ：这是一个数据科学网站，内有各种有趣的数据集。在网站的主列表中有各种各样的利基数据集，有拉面评级、有篮球数据，甚至还有西雅图的宠物许可证的数据。

UCI机器学习库 (UCI Machine Learning Repository)：这是网络上最早的数据集来源之一，如果想要寻找有趣的数据集，这个站点值得优先访问。虽然用户提供的数据集的清洁度不太一样，但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据，无需注册。

一般数据集

公共政府数据集

Data.gov：在这里可以下载到多个美国政府机构的数据，数据范围从政府预算到学校的绩效分数都有。但要注意的是，很多数据还有待进一步研究。

食品环境地图集 (Food Environment Atlas)：内有当地的食物选择如何影响美国饮食的数据。

学校系统财务状况 (School system finances)：美国学校系统财务状况的调查报告。

慢性病数据 (Chronic disease data)：关于美国各地区慢性病指标的数据。

美国国家教育统计中心 (The US National Center for Education Statistics)：来自美国和世界各地的关于教育机构和教育人口统计的数据。

英国数据服务 (The UK Data Service)：英国最大的社会、经济和人口数据集。

数据美国 (Data USA)：全面的、可视化的美国公共数据。

金融与经济

Quandl：经济和金融数据的良好来源 —— 对于建立预测经济指标或股票价格的模型很有用。

世界银行开放数据 (World Bank Open Data)：该数据集涵盖了世界各地的人口统计数据和大量的经济和发展指标。

国际货币基金组织数据 (IMF Data)：国际货币基金组织在这里发布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。

金融时报市场数据 (Financial Times Market Data)：关于世界各地金融市场的最新信息，包括股票价格指数、商品和外汇。

Google 趋势 (Google Trend)：检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。

美国经济协会 (AEA)：这是查找美国宏观经济数据的良好来源。

机器学习数据集

图像

Labelme：注释图像的大型数据集。

ImageNet：新算法的实例图像数据集。按 WordNet 层次结构进行组织，层次结构中的每个节点都有成千上万张图像。

LSUN：场景理解以及许多辅助任务（比如房间布局估算、图像显著性预测等）。

MS COCO：通用图像的理解和文字描述。

COIL100：在 360 度旋转中以各个角度成像的 100 个不同的物体。

Visual Genome：非常详细的视觉知识库，约有 10 万张带有文字描述的图像。

Google’s Open Images：“知识共享”（Creative Commons）下的“使用 6,000 多个类别的标签进行注释”的 900 万张图像的 URL 数据集。

Labelled Faces in the Wild：13,000 个人脸标记图像，用于开发涉及面部识别的应用程序。

斯坦福犬类数据集 (Stanford Dogs Dataset)：内有 20,580 张图像和 120 个不同的犬种类别。

室内场景识别 (Indoor Scene Recognition)：这是一个非常细化的数据集，由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳，因而这个数据集非常有用。内有 67 个室内类别，共 15,620 张图像。

情绪分析

多域情绪分析数据集 (Multidomain sentiment analysis dataset)：这是一个稍微早期一点的数据集，内有来自亚马逊的产品评论。

IMDB 影评：用于二元情绪分类的较早的、相对也较小的数据集，内有 25,000 条电影评论。

斯坦福情绪树数据集 (Stanford Sentiment Treebank)：带情绪注释的标准情绪数据集。

情绪140 (Sentiment140)：这是一个流行数据集，内有 16 万条预先清除表情符号的推文。

Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment)：自 2015 年 2 月以来美国航空公司的 Twitter 数据，分类为正面、负面和中性推文。

自然语言处理

安然数据集 (Enron Dataset)：来自安然高层的电子邮件数据，按文件夹分组。

亚马逊评论 (Amazon Reviews)：内有亚马逊 18 年来约 3,500 万条的评论。数据包括产品和用户信息、评级和纯文本评论。

Google Books Ngrams：来自 Google 图书的词汇集。

博客语料库 (Blogger Corpus)：从 blogger.com 收集的 681,288 篇博客文章，每篇博客至少包含 200 个常用的英语单词。

维基百科链接数据 (Wikipedia Links data)：维基百科的全文。该数据集包含来自 400 多万篇文章的近 19 亿个单词。可以按单词、段落或段落的一部分进行搜索。

古腾堡电子书列表 (Gutenberg eBooks List) ：来自古腾堡项目 (Project Gutenberg) 的电子书注释列表。

Hansards 加拿大国会文本块（Hansards text chunks of Canadian Parliament：来自第 36 届加拿大国会记录的 130 万对文本。

危险边缘 (Jeopardy)：来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。

英文垃圾短信集 (SMS Spam Collection in English)：由 5,574 条英语垃圾短信组成的数据集。

Yelp 评论 (Yelp Reviews)：Yelp 发布的开放数据集，内有超过 500 万条评论。

UCI 垃圾邮件数据集 (UCI’s Spambase)：大型的垃圾邮件数据集，对于过滤垃圾邮件很有用。

自动驾驶

Berkeley DeepDrive BDD100k: 这是目前最大的自动驾驶 AI 数据集。内有超过 10 万个在一天中不同时段以及在不同天气条件下共 1,100 多个小时的驾驶体验的视频。这些带注释的图像来自纽约和旧金山地区。

百度 Apolloscapes: 定义了 26 种不同的语义项（如汽车、自行车、行人、建筑物、路灯等）的大型数据集。

Comma.ai: 7 个多小时的公路驾驶数据，细节包括汽车的速度、加速度、转向角和 GPS 坐标。

牛津的机器人车 (Oxford’s Robotic Car)：在一年的时间里，在英国牛津重复 100 多次同样的路线所捕获的数据。该数据集记录了天气、交通和行人的不同组合，以及建筑和道路工程等的长期变化等。

城市景观数据集 (Cityscape Dataset)：这是一个大型数据集，内有 50 个不同城市的街景记录。

CSSAD数据集 (CSSAD Dataset)：该数据集对于自动驾驶车辆的感知和导航非常有用，但着重于发达国家的道路。

KUL 比利时交通标志数据集 (KUL Belgium Traffic Sign Dataset)：以比利时佛兰德斯地区数千个不同的交通标志为基础的 10,000 多条交通标志注释。

麻省理工 AGE 实验室 (MIT AGE Lab)：在 AgeLab 收集的 1,000 多小时的多传感器驾驶数据集的样本。

加州大学圣地亚哥分校智能与安全汽车实验室数据集(LISA)：该数据集内有交通标志、车辆检测、交通信号灯和轨迹模式。