查看原文
其他

实操案例分享 | 关系网络可视化

余欲鱼于寓遇雨 VisIt有视没事 2020-02-03


本文介绍我跟同学合作的一篇论文,以一个数字化档案库为例,如何使用可视化工具帮助一般读者对文本进行分析,同时连接 细读(close reading)与 远读(distant reading),并在文中展示这个可视化工具的设计过程,以及个人参会感想。


稍早在会议上分享论文的设计思路,现在赶紧写这篇文章,不然又会继续拖稿了。


论文收录于可视化顶会 IEEE VIS 2018 的 VIS4DH (数字人文可视化)Workshop 小规模研讨。


10/21在柏林举行的可视化会议 ieeevis.org/year/2018/welcome


今天workshop的开场短讲:


所有workshop收录的文章都刊登于此 http://vis4dh.dbvis.de/


会写这篇文章(以及这一系列的关系网络文章),是因为去年底修了一堂博士生的课程。在课堂期末时,我跟一位同学合作,完成了一个交互可视化与一篇短论文,然后在今年初时,跟授课老师与同学一起修改这篇短论文,再发到今年的VIS4DH Workshop,最后很荣幸的被收录了


论文的作者,依次是:Sarah Cambell(同学)、Zhengyan Yu、Sarah Connell(数据项目负责人)、Cody Dunne(授课老师)。


可视化工具的简要交互如下(gif图):


https://github.com/VisDunneRight/WWOVis


鼠标移到左边的圆圈上,在中间的关系网络可视化中,会显示出这篇文本最常见的文本元素(In-text elements);也可以直接对关系网络做交互,看这个文本元素文本类别的关系;最右边的是文本清单,点击任何一个文本会直接连接到另一个网站,阅读这个文本的完整内容


不同颜色代表不同文本类别:戏剧虚构小说非虚构小说诗词


–––


细读(close reading) 与 远读(distant reading)


这篇论文最主要探讨的是 close reading 跟 distant reading。


Close reading 指的是传统阅读一个文本的过程,distant reading 在 close reading 的对立面,distant reading 提供了较为抽象的分析,可以针对一个文本或数个文本。

 

这两个概念在数字人文(digital humanity)中,很常被探讨与使用,虽然我在最后改论文的时候才知道hhh。


eMargin 是 close reading 的一个代表例子。eMargin是一个协作工具,可以对文章、句子、单词进行高亮或是撰写备注:


eMargin


Stefanie Posavec的这个作品是 distant reading的一个经典例子,有在关注可视化的人应该对这个作品不陌生:


Literary organism


树状结构代表了单词结构,而不同的颜色代表不同的主题。


虽然有许多的可视化或是工具被开发来探讨 close reading 跟 distant reading,然而只有少数的可视化可以同时结合 close reading 与 distant reading,并提供数据分析给使用者探索。因为,我们这篇论文的最主要的贡献是,开发了一个可以同时进行  close reading 与 distant reading 的可视化分析工具。


此外,在论文当中,也公开了我们的设计思路,从草稿阶段到完成作品,透明化这个过程,希望能对设计师或是其他研究数据人文相关问题的研究人员,在设计可视化工具的思路上有所帮助。


–––


数据


我们获得的数据有三类:


1. 元数据

标题、作者、发布时间、发布地点、文本类别。


2. 文本元素数据

组织名称、位置名称、人物名称,下图是人物名称的例子:



3. 全文数据

从1526年到1850年汇集的文本(TEI-encoded),下图是一个文本全文的部分截图:



–––


设计目标 & 设计过程


这里展示我们从头脑风暴阶段到后续不断改进的过程。在画草稿阶段,我跟Sarah Cambell同学各自画了自己想要呈现的可视化,并讨论这些可视化的优缺点。


弧线图(Arc Diagram) 与 Node-link图可视化


弧线图(左边)展示了文本元素跟文本的关系,若两个文本元素(蓝色方框)被红线连接起来,代表这两个文本元素属于同一个文本。


Node-link图可视化(右边),展示了机构名称跟发表地点的关系,若三角形(机构名称)跟发表地点(圆圈)被连接起来,代表属于同一个类型的文本,不同的颜色连接线,代表不同种类。


但这两种可视化对一般使用者并不友好,在解读上比较不直观,加上容易产生视觉上的杂乱(visual clutter)。


多视角的可视化


这个草稿同时使用了两种不同的可视化:右边是概览可视化,展示了文本的发布时间分布,数据分析维度较宏观;左边是Bipartite图可视化,展示了文本元素跟标题、作者的关系,数据分析维度较微观。


我们最后决定使用这个多视角的可视化展现方式。在看了许多的关系网络可视化作品后,我们发现很多作品对使用者并不友好,在交互上或是信息获取上,都不太直观。用多视角的可视化,可以较好的解决这个问题。另外,使用Bipartite图可视化可以减少视觉杂乱,为了让一般使用者容易解读,考量这个因素非常重要。


在决定使用的可视化样式后,我们开始使用代码导入数据,并继续迭代修改:


概览可视化


从左到右是迭代的设计修改过程,一开始使用半透明的圆圈来展示文本的发布时间分布。但我们想要让使用者可以对每一个文本进行交互,所以每一个圆圈要可以让使用者选取,但阶段一有许多圆圈相互重叠,所以我们摒弃这个方式。阶段二在阶段一的基础上修改,若圆圈重叠,我们增加的每一个圆圈的半径,但视觉上仍有许多圆圈重叠;最后我们使用了蜂群图(Bee Swarm),才解决这个问题。


Bipartite图可视化

这里展示了Top 20的文本元素的对应关系。一开始是将Top 20的文本元素对应到每一个文本,我们想要看这些文本元素到底在哪些文本有较高的出现频率。但因为有401个文本,所以在视觉展现上非常差。我们在阶段二摒弃401个文本,使用了文本类别来跟Top 20的文本元素展示对应关系,并将连接线曲线化,视觉杂乱的问题在阶段二已经有显著的改善,但仍有所不足。在阶段三,我们将不同的线平均分布,让每一条线得以清晰展示。清晰展示关系线,在关系网络分析中是非常重要的。


PS.在这一阶段中,我自己不断反思可视化设计师的重要性到底在哪。课堂中,只有我跟我同学是可视化设计项目的学生,其他都是Computer Science的本硕博学生。在代码的作业上我们确实不如这些学生,但在可视化草稿构思阶段与后续的设计修改迭代阶段,我跟我同学这组获得授课老师的高度赞扬,只有我们可以想出各种不同的可视化样式,也只有我们在视觉上有更多的改进想法,这是在其他组别中所没有的。或许,设计本身而言就是一个不断迭代的过程,身为设计师,在视觉上有较高的敏锐性、以及愿意不断的改进视觉呈现吧。


–––


讨论


这个可视化工具呈现了一些有趣的分析结果,例如选取了机构名称后,British Parliament(英国议会)大量的出现在非虚构小说中,时间是纷乱的十七世纪。


–––

后续


因为在报告的过程中太紧张,最后在问答环节没有表现好,所幸仍然有收到其他学者给的正面回馈,还好没有被我完全搞砸。我下次若还有机会,真要好好准备,尤其是回答问题的部分。



Photo credit: Jonathan C. Roberts


应该是看了许多龙应台笔下的东西德,柏林是我在所有欧洲国家(甚至是整个西方国家)中,最想拜访的城市。下午吃完饭后就去柏林围墙跟附近逛逛:




后续文章会继续更新,继续讲一些我在关系网络课程中学到的基础知识,以上。


–––


本文作者




👇🏼点击原文链接直接下载本论文

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存