quickdraw_dataset

https://console.cloud.google.com/storage/browser/quickdraw_dataset

Quick Draw!数据集

image

Quick Draw数据集是345种类别中的5000万张图纸的集合,由游戏玩家Quick,Draw!提供。绘图被捕获为带时间戳的向量,标记有元数据,包括要求玩家绘制的内容以及玩家所在的国家/地区。您可以在quickdraw.withgoogle.com/data上浏览已识别的图纸。

我们在这里分享它们,供开发人员,研究人员和艺术家探索,研究和学习。如果您使用此数据集创建内容,请通过电子邮件AI实验告知我们。

我们还在tensorflow.org上发布了用于培训您自己的绘图分类器的教程和模型。

请记住,虽然这些图纸集合是单独审核的,但它可能仍包含不适当的内容。

内容

原始主持数据集

原始数据以ndjson文件的形式分类,按类别分隔,格式如下:

钥匙 输入 说明
key_id 64位无符号整数 所有图纸的唯一标识符。
字符串 提示玩家绘制的类别。
认可 布尔值 这个词是否被游戏识别。
时间戳 datetime 绘图创建时。
国家代码 字符串 播放器所在位置的双字母国家代码(ISO 3166-1 alpha-2)。
绘图 字符串 表示矢量绘图的JSON数组

每行包含一个图纸。以下是单个绘图的示例:

  { 
    “KEY_ID”: “5891796615823360”,
    “字”:“鼻子”,
    “COUNTRYCODE”: “AE”,
    “timestamp”:“2017-03-01 20:41:36.70725 UTC”,
    “认可”:真实,
    “绘图”:[[[129,128,129,129,130​​,130,131,132,132,133,133,133,133,...]]]
  }

绘图数组的格式如下:

[ 
  [//第一击 
    [x0,x1,x2,x3,...],
    [y0,y1,y2,y3,...],
    [t0,t1,t2,t3,...]
  ]
  [//第二次中风
    [x0,x1,x2,x3,...],
    [y0,y1,y2,y3,...],
    [t0,t1,t2,t3,...]
  ]
  ... //额外的笔画
]

其中xy是像素坐标,t是自第一个点以来的毫秒数。```和y是实数值,而t是整数。由于用于显示和输入的不同设备,原始图纸可以具有极大不同的边界框和点数。

预处理数据集

我们已经预处理并将数据集拆分为不同的文件和格式,以便更快,更轻松地下载和浏览。

简化的图形文件(.ndjson)

我们简化了向量,删除了时序信息,并将数据定位并缩放到256x256区域。数据以ndjson格式导出,其格式与原始格式相同。简化过程是:

1.将图形与左上角对齐,使其最小值为0。
2.均匀缩放图形,最大值为255。
3.以1像素间距重新采样所有笔划。
4.使用Ramer-Douglas-Peucker算法以epsilon值2.0简化所有笔划。

[examples / nodejs / simplified-parser.js](examples / nodejs / simplified-parser.js)中有一个示例,展示了如何在NodeJS中读取ndjson文件。
此外,[examples / nodejs / ndjson.md](examples / nodejs / ndjson.md)文档详细介绍了一组命令行工具,可以帮助探索这些相当大的文件的子集。

二进制文件(.bin)

简化的图纸和元数据也以自定义二进制格式提供,以实现高效压缩和加载。

[examples / binary_file_parser.py](examples / binary_file_parser.py)中有一个示例,展示了如何在Python中加载二进制文件。
[examples / nodejs / binary-parser.js](examples / nodejs / binary-parser.js)中还有一个示例,展示了如何读取NodeJS中的二进制文件。

Numpy位图(.npy)

所有简化的图纸都以numpy.pypy格式渲染成28x28灰度位图。可以使用np.load()加载这些文件。这些图像是从简化数据生成的,但是与图形边界框的中心对齐,而不是左上角。

获取数据

该数据集在Google Cloud Storage上以ndjson文件的形式分类。请参阅Cloud Console中的文件列表,或阅读有关[访问公共数据集]的更多信息(https://cloud.google.com/storage) / docs / access-public-data)使用其他方法。

按类别分隔的完整数据集

Sketch-RNN QuickDraw数据集

该数据还用于训练Sketch-RNN模型。这个模型的开源TensorFlow实现可以在Magenta Project中找到,(链接到GitHub repo /树/主/品红/模型/ sketch_rnn))。您还可以在此Google研究博客文章中阅读有关此模型的更多信息。数据以适合输入到递归神经网络的格式存储在压缩的.npz文件中。

在此数据集中,从每个类别中随机选择75K样本(70K训练,2.5K验证,2.5K测试),使用[RDP]处理(https://en.wikipedia.org/wiki/Ramer%E2%80% 93Douglas%E2%80%93Peucker_algorithm)线条简化,epsilon参数为2.0。每个类别都将存储在自己的.npz文件中,例如cat.npz

如果您想使用超过70K的培训示例,我们还提供了每个类别的完整数据。它们与.full.npz扩展一起存储。

使用数据集的项目

以下是一些以有趣的方式使用或展示数据集的项目和实验。有东西要补充吗?告诉我们!

创意和艺术项目

数据分析

指南和教程

代码和工具

变化

2017年5月25日:更新了Sketch-RNN QuickDraw数据集,创建了.full.npz互补集。

执照

这些数据由Google,Inc。根据[知识共享署名4.0国际许可证]提供。(https://creativecommons.org/licenses/by/4.0/)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容