设为首页收藏本站

弧论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2655|回复: 0
打印 上一主题 下一主题

这种数据图你肯定见过,但是我猜你不知道它背后的故事

[复制链接]

5905

主题

6600

帖子

7160

积分

坛主

Rank: 10Rank: 10Rank: 10

积分
7160
跳转到指定楼层
楼主
发表于 2018-5-6 21:00 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
这种数据图你肯定见过,但是我猜你不知道它背后的故事

2018-05-07
统计之都
中科院物理所


本文转载自统计之都
原标题:叠嶂图的前世今生
1979 年,英国乐队快乐小分队(Joy Division)发行了自己的首张唱片《Unknown Pleasuers》,这张专辑发行两周内就卖了 5000 份,但问题是……印了 10000 份。然而,当乐队的单曲《Transmission》发布后,这张后朋克唱片很快销售一空。作为一个乐盲,我是没搞懂这歌的意思(好像对收音机很不满)。整个 70 年代不断衰落的英国社会使青少年群体对现实极度不满,采取了一些很强烈的表现形式来抒发感情,这催生了朋克运动,至于后朋克运动,据说比朋克更具实验性质。有意思的是这个专辑在 2017 年又重新流行了,倒不是因为社会再度衰落,而是那个设计极为特殊的封面。

                               
登录/注册后可看大图
《Unknown Pleasuers》封面(图片来自维基百科)
这里说的封面流行是指在数据可视化领域里,其实它本就很流行……在流行文化里。很多人用这个类似波谱的图来指征一种波动、起伏的感受,恰恰应和《Unknown Pleasuers》中那种迷茫而强烈的情感,同时封面设计师又开放了版权,所以我们可以看到其在很多场景中的再现。例如 3D 打印版、服装版、电影版等。甚至有人制作了一个网站来用鼠标生成类似风格的图。不过这个图仔细看是很有问题的:坐标轴是什么?线的间隔是固定的吗?有什么意义?这图又是怎么做出来的?
冤有头债有主,《科学美国人》曾经对这张封面的源头进行过探索,据封面设计师 Peter Saville 的说法,这张图是从 1977 年出版的《The Cambridge Encyclopaedia of Astronomy》上面一幅关于脉冲星 CP1919 所发出的脉冲波叠加图(不是山峰,也不是波浪)上获取灵感进行的创作,但这所谓的“创作”实质上就是把颜色做了反转还去掉了坐标轴。不过这就说明源头是这本书吗?不,顺着这本书,有人追溯到了1974年《Graphis diagrams: The graphic visualization of abstract data》 。进一步追溯,会发现更早出版的《科学美国人》(1971年1月刊)上也使用了这幅图。也就是《科学美国人》的考古队出门绕了个圈,又回到起点了。这种溯源到最后挖了自己祖坟的事其实并不稀奇,即使在有搜索引擎的今天,二手、三手乃至十八手资料的源头很可能就是自己发布的资料,不过改头换面后亲爹亲妈可能都认不出来。用个赶时髦的话说,该放到区块链上做存在性证明了。
那么《科学美国人》又是哪里搞到这幅图的呢?事实上 1971 年的文章之所以要用这幅图,是因为要介绍脉冲星这个上世纪 60 年代的重大发现,而这个发现的确切时间是 1967 年,也就是说这个图的出生日期就在 1967 年与 1971 年之间。然后我们就找到了 Harold D. Craft, Jr. 在康奈尔大学的博士论文《Radio Observations of the Pulse Profiles and Dispersion Measures of Twelve Pulsars》,到这个时候真正的源头才出现。

                               
登录/注册后可看大图
《Unknown Pleasuers》封面的源头,Harold D. Craft, Jr. 博士论文插图。Radio Observations of the Pulse Profiles and Dispersion Measures of Twelve Pulsars, Harold D. Craft, Jr. (PhD Thesis, September 1970 pages 214-216), Cornell University
当《科学美国人》联系到 Harold D. Craft, Jr. 时,他也顺道说了下这幅图背后的故事。刚开始在脉冲星在剑桥被发现后,他所在的团队就意识到自己其实拥有当时世界上最好的测量脉冲星的设备,其实也就是电子设备。然后,从测量结果上他们很快就发现脉冲星的脉冲存在一些漂移,也就是大脉冲里有小脉冲,这个结果发表在《自然》上。但他们觉得需要一个更直观的方式来观察这些脉冲的模式,然后就做了一些叠加图,很快就发现这种图前后的遮挡太过严重。作为一个程序员,遮挡问题其实就是一个漂移问题,所以他操起键盘(也可能是打孔卡)做出了一个漂移版,这样当峰强度足够时才会出现遮挡,而这类峰正是我们想看的模式。不过不要高估那个年代的技术,他还得再找人用印度墨水(其实就是中国墨汁)重新勾描一遍才能清晰的放到博士论文里。不过他显然不是流行文化爱好者,因为直到他同事有天闲逛时发现后告诉他他才发现自己的图这么流行,然后他毫不犹豫的买下了有这张图的专辑与海报:
It’s my image, and I ought to have a copy of it.
这是我的图,我应该有一个图的副本。
我能想象很多人要考虑版权问题了,说实话我也没搞清楚,不过看起来创作者并不在意,而封面设计者也不在意,也许正是不在意促进了某些文化的流行。好了,前世就这样了,那么今生呢?

这事要从去年 7 月份说起,twitter 上突然出了这么一张图

                               
登录/注册后可看大图
由于 @hnrklndbrg 给出了作图的 R 源码,一时间大家都开始纷纷回复转发并做出了自己的版本。当然 joyplot 的名字也伴随这条推文开始走红。据说是 Jenny Bryan 首先提出的这个名字并联系到了上面所说的快乐小分队的专辑封面。
这个图在增加了坐标轴后的突然流行其实跟最近在可视化里要求展示大量原始数据的需求不谋而合。我们现在考虑这样一个场景,有三组数据,每组 1000 个数值,如果进行比较,用什么来可视化?(为了演示效果,这里模拟数据用了不同分布)

                               
登录/注册后可看大图

                               
登录/注册后可看大图

                               
登录/注册后可看大图
从上例可以看出 joyplot 在展示原始数据状态时属于比较直观的,犹如重山叠嶂,不论是对比峰值还是对比特定数值上概率密度都很简单。而峰值上的遮挡在多数情况下不会影响数据展示,因为能放到一起比较的数据分布不会差太远。一般而言,x 轴是一个连续变量,y 轴是分类变量,而高度则是 y 分类下 x 的概率密度分布,符合这个数据结构的数据都适合用 joyplot 来进行展示。
故事还没完,你也注意到了,现在 joyplot 又改名了。新的英文名叫做 ridgeline,中文名暂时就叫叠嶂图吧。原因还是出在快乐小分队上,快乐小分队其实是纳粹集中营里提供性服务的犹太妇女团体,而这个乐队起名的时候就是用的这个典故。这样的黑历史在西方世界乃至全世界都是不愿意提及的,所以很快可以画叠嶂图的 ggjoy 包退休,功能完全一致的 ggridges 包闪亮登场。
这就是叠嶂图的前世今生了,前前世比较黑暗,前世是流行文化,今生则是可视化领域的新贵。这里我们还是举个比较实际的例子,下面这组数据收集了348414 份期刊论文里的 3623355 个 p 值,横跨 28 个学科:

                               
登录/注册后可看大图


                               
登录/注册后可看大图
现在我想问你在这张图上有啥发现呢?
作 者 介 绍
于淼,中科院环境科学博士,目前海外漂泊,业余跨学科理论搬运工,博客 https://yufree.cn
作者:于淼
审稿:谢益辉
编辑:吴佳萍
原文经过部分删改


大道至简 万物于弧
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|小黑屋|国际弧学研究会    

GMT-7, 2024-5-5 08:39 , Processed in 0.457910 second(s), 24 queries .

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表