从文本处理到自动驾驶:机器学习最常用的50大免费数据集

云效力器_域名注册_虚拟主机

2018-06-22

阳江电子商务发展取得了一定进展,特别是运用电子商务平台开拓国内外市场,取得比较好的效果。电商销售渠道的开拓让刀剪企业尝到了“甜头”。

  从文本处理到自动驾驶:机器学习最常用的50大免费数据集 每次创作莫妮卡都会花费数小时不辞辛劳地勾勒线条,上色,涂抹阴影。她还将自己作品的照片发到社交媒体上,目前粉丝已经超过10万。

      本文分享地址:  据了解,为了加强对的质量监督管理,规范市场秩序,保障人民群众使用化妆品产品的质量安全,上海市食品药品监督管理局于2016年上半年度对全市化妆品的生产、经营和使用单位实施了质量监督抽检,共完成检验701件,4批次产品不合格。    2批次不合格产品涉及的标称生产(代理)企业和不合格项目为:标称广州柏俐臣化妆品有限公司生产的丝碧澳妮滋润轻盈露检出甲醇;标称上海文峰生物技术有限公司生产的文峰防晒霜霉菌和酵母菌总数超标。

这样的话,让我们看看能找到点什么一、查找数据集:一个数据科学竞赛网站,其中包含大量外部贡献的有趣数据集。

你可以在它长长的列表中(https:///datasets)找到各种小众数据集,从拉面的评分、篮球数据,到西雅图的宠物牌照。

:它是网络中最古老的数据集源之一,是寻找各种有趣数据集的第一选择。

在这里,尽管数据集都是用户自行贡献的,但清洁程度仍然很高。 此外,你可以直接从UCIMachineLearningRepository上下载数据,无需注册。

二、通用数据集公共政府数据集:这个网站可以从多个美国政府机构下载数据,从政府预算到学校成绩。 不过要注意:其中的大部分数据需要进一步研究。 链接:https:///:包含有关本地食物选择如何影响美国饮食习惯的数据。 链接:https:///dataset/:美国学校系统财务状况调查。

链接:https:///dataset/:美国各地慢性病指标数据。

链接:https:///dataset/:美国和世界各地教育机构和教育人口统计数据。

链接:https:///:英国最大的社会、经济和人口数据收集。

链接:https:///:美国公共数据的全面可视化。 链接:http:///金融类:很好的财经数据来源有助于建立预测经济指标或股票价格的模型。 链接:https:///:涵盖人口统计和世界各地大量经济和发展指标的数据集。 链接:https:///:国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。 链接:https:///en/:世界金融市场的最新信息,包括股票价格指数、商品和外汇。

链接:https:///data/:观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

链接:http:///trendsq=googlectab=0geo=alldate=allsort=(AEA):寻找美国宏观经济数据的来源。 链接:https:///resources/data/us-macro-regional三、机器学习数据集图像:注释图像的大数据集。 链接:http:////browserTools/php/:著名的ImageNet,由斯坦福大学教授李飞飞等人发起,它是面向新算法的真实图像数据集。 根据WordNet层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。

链接:http:///:场景理解和许多辅助任务(房间布局估计、显著性预测等)。

链接:http:///2016/:ImageNet之外另一个常用的图像数据集,包含通用图像理解和注释。

链接:http:///:100个不同的物体在360旋转中以每个角度成像。 链接:http:///CAVE/software/softlib/:非常详细的视觉知识库,配有约100K个图像的注释。 链接:http:///sOpenImages:CreativeCommons下的900万个图片的网址集合,「已经标注了跨越6000多个类别的标签」。

链接:https:///2016/09/:13000张贴有标签的人脸图像,用于开发涉及人脸识别的应用。 链接:http:///lfw/:包含20580个图像和120个不同品种的狗类别。

链接:http:///aditya86/ImageNetDogs/:非常具体的数据集,适用于大多数场景识别模型,因为后者在「外部」表现更好。

包含67个室内类别,总共15620个图像。

链接:http:///torralba/www/情感分析:有点旧的一个数据集,以亚马逊的产品评论为特色。 链接:http:///~mdredze/datasets/sentiment/:用于二进制情感分类的较旧的、相对较小的数据集,具有25000个电影评论。 链接:http:///~amaas/data/sentiment/:带有情感注释的标准情感数据集。 链接:https:///sentiment/:一个流行的数据集,使用16万条预先删除表情符号的推文链接:http:///for-students/:2015年2月以来美国航空公司的推特数据,分为正面、负面和中性。 链接:https:///crowdflower/twitter-airline-sentiment自然语言处理:Enron公司高层管理人员的电子邮件数据,整理成文件夹。 链接:https:///~./enron/:包含来自亚马逊长达18年的约3500万条评论。

数据包括产品和用户信息、评级和明文审查。 链接:https:///data/:Google书籍中的词汇集合。

链接:https:///cn/datasets/google-books-ngrams/:从收集的681288篇博客文章。 每个博客至少包含200个常用英语单词。

链接:http:///~koppel/:维基百科全文。 数据集包含400多万篇文章中的近19亿字。 你可以根据单词、短语或段落本身的一部分进行搜索。

链接:https:///p/wiki-links/downloads/:古腾堡计划电子书注释清单。

链接:http:///wiki/Gutenberg:Offline_:加拿大第36届国会记录130万对文本。

链接:https:///natural-language/download/hansard/:机智问答节目Jeopardy中存档的20多万个问题。 链接:https:///r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/:由5574条英文短信垃圾邮件组成的数据集链接:http:///~tiago/smsspamcollection/:Yelp发布的开放数据集包含500多万条评论。 链接:https:///sSpambase:大型垃圾邮件数据集,可用于垃圾邮件过滤。

链接:https:///ml/datasets/Spamb(https:///ml/datasets/Spambase)自动驾驶:目前最大的自动驾驶人工智能数据集。

包含100000多段视频,内容涉及一天中不同时间和天气条件下1100多小时的驾驶体验。

注释图像来自纽约和旧金山地区。

链接:http:///:百度Apollo计划开放的大规模自动驾驶数据集。 它定义了26个不同语义项目,如汽车、自行车、行人、建筑物、路灯等。 链接:http:///:7小时以上的公路行驶体验。 详细信息包括车速、加速度、转向角和GPS坐标。 链接:https:///details/sRoboticCar:一年内在英国牛津同一条路线重复100多次的行驶。

数据集捕捉天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。 链接:http:///:记录50个不同城市街道场景的大型数据集。

链接:https:///:该数据集可用于自主车辆的感知和导航。 数据集在发达国家的道路上出现严重偏差。 链接:http:///Personal/jbhayet/:比利时佛兰德区数以千计截然不同的超过10000个的交通标志标注。 链接:http:///~timofter/traffic_signs/:在AgeLab收集的1000多个小时的多传感器驱动数据集样本。

链接:http:///carsync/:LaboratoryforIntelligentSafeAutomobiles,UCSanDiegoDatasets:此数据集包括交通标志、车辆检测、交通灯和轨迹模式。 链接:http:///LISA/【本文是51CTO专栏机构机器之心的原创文章,微信公众号机器之心(id:almosthuman2014)】【编辑推荐】【责任编辑:TEL:(010)68476606】。