实操案例分享 | 关系网络可视化 | 自由微信

实操案例分享 | 关系网络可视化

Original 余欲鱼于寓遇雨 VisIt有视没事 2020-02-03

本文介绍我跟同学合作的一篇论文，以一个数字化档案库为例，如何使用可视化工具帮助一般读者对文本进行分析，同时连接细读（close reading）与远读（distant reading），并在文中展示这个可视化工具的设计过程，以及个人参会感想。

稍早在会议上分享论文的设计思路，现在赶紧写这篇文章，不然又会继续拖稿了。

论文收录于可视化顶会 IEEE VIS 2018 的 VIS4DH （数字人文可视化）Workshop 小规模研讨。

10/21在柏林举行的可视化会议 ieeevis.org/year/2018/welcome

今天workshop的开场短讲：

所有workshop收录的文章都刊登于此 http://vis4dh.dbvis.de/

会写这篇文章（以及这一系列的关系网络文章），是因为去年底修了一堂博士生的课程。在课堂期末时，我跟一位同学合作，完成了一个交互可视化与一篇短论文，然后在今年初时，跟授课老师与同学一起修改这篇短论文，再发到今年的VIS4DH Workshop，最后很荣幸的被收录了

论文的作者，依次是：Sarah Cambell（同学）、Zhengyan Yu、Sarah Connell（数据项目负责人）、Cody Dunne（授课老师）。

可视化工具的简要交互如下（gif图）：

https://github.com/VisDunneRight/WWOVis

鼠标移到左边的圆圈上，在中间的关系网络可视化中，会显示出这篇文本最常见的文本元素（In-text elements）；也可以直接对关系网络做交互，看这个文本元素跟文本类别的关系；最右边的是文本清单，点击任何一个文本会直接连接到另一个网站，阅读这个文本的完整内容。

不同颜色代表不同文本类别：戏剧、虚构小说、非虚构小说、诗词。

–––

细读（close reading）与远读（distant reading）

这篇论文最主要探讨的是 close reading 跟 distant reading。

Close reading 指的是传统阅读一个文本的过程，distant reading 在 close reading 的对立面，distant reading 提供了较为抽象的分析，可以针对一个文本或数个文本。

这两个概念在数字人文（digital humanity）中，很常被探讨与使用，虽然我在最后改论文的时候才知道hhh。

eMargin 是 close reading 的一个代表例子。eMargin是一个协作工具，可以对文章、句子、单词进行高亮或是撰写备注：

eMargin

Stefanie Posavec的这个作品是 distant reading的一个经典例子，有在关注可视化的人应该对这个作品不陌生：

Literary organism

树状结构代表了单词结构，而不同的颜色代表不同的主题。

虽然有许多的可视化或是工具被开发来探讨 close reading 跟 distant reading，然而只有少数的可视化可以同时结合 close reading 与 distant reading，并提供数据分析给使用者探索。因为，我们这篇论文的最主要的贡献是，开发了一个可以同时进行 close reading 与 distant reading 的可视化分析工具。

此外，在论文当中，也公开了我们的设计思路，从草稿阶段到完成作品，透明化这个过程，希望能对设计师或是其他研究数据人文相关问题的研究人员，在设计可视化工具的思路上有所帮助。

–––

数据

我们获得的数据有三类：

1. 元数据

标题、作者、发布时间、发布地点、文本类别。

2. 文本元素数据

组织名称、位置名称、人物名称，下图是人物名称的例子：

3. 全文数据

从1526年到1850年汇集的文本（TEI-encoded），下图是一个文本全文的部分截图：

–––

设计目标 & 设计过程

这里展示我们从头脑风暴阶段到后续不断改进的过程。在画草稿阶段，我跟Sarah Cambell同学各自画了自己想要呈现的可视化，并讨论这些可视化的优缺点。

弧线图(Arc Diagram) 与 Node-link图可视化

弧线图（左边）展示了文本元素跟文本的关系，若两个文本元素（蓝色方框）被红线连接起来，代表这两个文本元素属于同一个文本。

Node-link图可视化（右边），展示了机构名称跟发表地点的关系，若三角形（机构名称）跟发表地点（圆圈）被连接起来，代表属于同一个类型的文本，不同的颜色连接线，代表不同种类。

但这两种可视化对一般使用者并不友好，在解读上比较不直观，加上容易产生视觉上的杂乱（visual clutter）。

多视角的可视化

这个草稿同时使用了两种不同的可视化：右边是概览可视化，展示了文本的发布时间分布，数据分析维度较宏观；左边是Bipartite图可视化，展示了文本元素跟标题、作者的关系，数据分析维度较微观。

我们最后决定使用这个多视角的可视化展现方式。在看了许多的关系网络可视化作品后，我们发现很多作品对使用者并不友好，在交互上或是信息获取上，都不太直观。用多视角的可视化，可以较好的解决这个问题。另外，使用Bipartite图可视化可以减少视觉杂乱，为了让一般使用者容易解读，考量这个因素非常重要。

在决定使用的可视化样式后，我们开始使用代码导入数据，并继续迭代修改：

概览可视化

从左到右是迭代的设计修改过程，一开始使用半透明的圆圈来展示文本的发布时间分布。但我们想要让使用者可以对每一个文本进行交互，所以每一个圆圈要可以让使用者选取，但阶段一有许多圆圈相互重叠，所以我们摒弃这个方式。阶段二在阶段一的基础上修改，若圆圈重叠，我们增加的每一个圆圈的半径，但视觉上仍有许多圆圈重叠；最后我们使用了蜂群图（Bee Swarm），才解决这个问题。

Bipartite图可视化

这里展示了Top 20的文本元素的对应关系。一开始是将Top 20的文本元素对应到每一个文本，我们想要看这些文本元素到底在哪些文本有较高的出现频率。但因为有401个文本，所以在视觉展现上非常差。我们在阶段二摒弃401个文本，使用了文本类别来跟Top 20的文本元素展示对应关系，并将连接线曲线化，视觉杂乱的问题在阶段二已经有显著的改善，但仍有所不足。在阶段三，我们将不同的线平均分布，让每一条线得以清晰展示。清晰展示关系线，在关系网络分析中是非常重要的。

PS.在这一阶段中，我自己不断反思可视化设计师的重要性到底在哪。课堂中，只有我跟我同学是可视化设计项目的学生，其他都是Computer Science的本硕博学生。在代码的作业上我们确实不如这些学生，但在可视化草稿构思阶段与后续的设计修改迭代阶段，我跟我同学这组获得授课老师的高度赞扬，只有我们可以想出各种不同的可视化样式，也只有我们在视觉上有更多的改进想法，这是在其他组别中所没有的。或许，设计本身而言就是一个不断迭代的过程，身为设计师，在视觉上有较高的敏锐性、以及愿意不断的改进视觉呈现吧。

–––

讨论

这个可视化工具呈现了一些有趣的分析结果，例如选取了机构名称后，British Parliament（英国议会）大量的出现在非虚构小说中，时间是纷乱的十七世纪。

–––

后续

因为在报告的过程中太紧张，最后在问答环节没有表现好，所幸仍然有收到其他学者给的正面回馈，还好没有被我完全搞砸。我下次若还有机会，真要好好准备，尤其是回答问题的部分。

Photo credit: Jonathan C. Roberts

应该是看了许多龙应台笔下的东西德，柏林是我在所有欧洲国家（甚至是整个西方国家）中，最想拜访的城市。下午吃完饭后就去柏林围墙跟附近逛逛：

后续文章会继续更新，继续讲一些我在关系网络课程中学到的基础知识，以上。

–––

本文作者

👇🏼点击原文链接直接下载本论文

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

股市暴涨背后的社会心态