查看原文
其他

学术活动 | 林海青•“关联数据与图书馆:案例分析”讲座纪要


伯克利东亚图书馆于2016年从香港私人收藏家处收购的一项电影资料库。该库拥有超过7万余件电影藏品,包括涉及5910期的436种电影老期刊、4195张电影海报、21233张电影大堂剧照、3332张电影传单、9214张电影剧照底片、4145张明星照片以及大量电影剧本、电影说明书;数据量级大、种类丰富,涵盖从电影制作到放映整个生命周期的实体资源。如何利用关联数据技术对电影资料库中的数据进行合理组织,成为伯克利东亚图书馆近年来开展的一项特藏项目。



图片|林海青


录音整理|撰稿 冯婕

PPT提供 林海青

1

引言

关联数据(Linkeddata)是由Tim Berners-Lee于2006年提出的一种实现语义Web的轻量级方式,用于为资源赋予语义化、结构化、可访问性及人机可读的特征描述,从而建立资源间互为关联的数据网络。图书馆正是在关联数据对实现数据集成与共享发挥的巨大潜力下,不仅应用关联数据技术变革了传统的信息组织方式,拓宽了书目记录提供数据服务的能力;还为馆藏资源的数字化建设探索出新的路径,为图书馆开展资源发现服务带来新的契机。

 

为了分享图书馆基于关联数据的最佳实践,推动培养高校师生在科研活动中的实践创新能力,2018年10月25日上午,加州大学伯克利分校东亚图书馆技术部主任林海青研究员主讲的“关联数据与图书馆:案例分析”讲座,在武汉大学文理学部教三402举行。

 

林海青主任从关联数据定义出发,贯穿众多国际项目简要介绍了图书馆关联数据的应用类型;以伯克利电影特藏关联数据化项目为例,深入浅出的阐述了包含资源获取、目标挑战、构建过程、工作难点及解决方案等方面的开发过程;最后,林主任精炼总结了关联数据技术指导科学研究的技巧,并针对现场提问与师生进行了深入的探讨。


2

关联数据及其在图书馆的应用类型

维基百科对“Linkeddata”词条的定义赋予了新的内涵,旨在强调图书馆工作协同关联数据技术的服务受众是人和机器,原因在于人与其他信息系统都能通过软件访问图书馆资源。以HTTP协议作为技术底层架构的关联数据为其持续的生命力提供了较强的稳定性、语义性和逻辑性。


目前,图书馆关联数据应用的类型主要有关联书目数据、关联规范数据、数据中继和数据平台,以及其他一些由厂商驱动的关联数据化项目,例如大英图书馆的关联书目数据项目(Linked Open Bibliography Data)、AGROVOC叙词表、虚拟国际规范文档(Virtual International Authority File)、美国国会图书馆PCC关联数据化计划(Programfor Cooperative Cataloging)、LD4P项目(Linked Datafor Production)等。随着语义网技术的成熟及其对信息组织与检索领域带来的变革,图书馆界已突破了对关联数据的理论探讨,产品化是图书馆应用关联数据技术的一项重大变迁,这种趋势在未来将愈加明显。







3

伯克利电影特藏关联数据化项目

伯克利东亚图书馆特藏的种类包括古籍、历史地图及拓片等,其来源是受历史上英国籍传教士及学者傅兰雅、华人学者江亢虎的捐赠及学校收购三井文库所得。目前,馆内对赵元任先生的档案、致公堂档案进行组织和整理,电影资料关联数据化是一项应用关联数据技术开展的特藏项目。


3.1 资源来源及规模

电影资料来源于伯克利东亚图书馆于2016年从香港私人收藏家处收购的一项电影资料库。该库拥有超过7万余件电影藏品,包括涉及5910期的436种电影老期刊、4195张电影海报、21233张电影大堂剧照、3332张电影传单、9214张电影剧照底片、4145张明星照片以及大量电影剧本、电影说明书;数据量级大、种类丰富,涵盖从电影制作到放映整个生命周期的实体资源。








3.2 目标与挑

项目的目标是针对电影资料的合理组织,揭示电影实例之间的关联,发挥其内在价值,以帮助和支持本校教学和科研工作。然而,由于传统编目系统对处理大规模资源所呈现的局限性,以及缺乏对电影海报等资源编目工作的标准规范,如何组织这批电影资料、最大限度揭示电影资源和其他资源的关系,以满足教研之需成为项目团队面临的主要挑战。


3.3 构建过程

电影特藏关联数据化项目的开发过程主要包括前期访谈、功能设计、项目预期、技术架构设计、确定数据建模原则、本体构建及测试等内容。


3.3.1 前期访谈

在项目正式开展之前,项目团队需以本校电影系教师为访谈对象,明确电影资料的特殊性,了解电影学领域的研究范式、相关科研人员对可用于研究的数据要求,并据此设定用例,即预估用户应当能使用哪些功能,这也是指导确定系统功能需求及构建原则的重要依据之一。此外,项目团队还向太平洋电影博物馆及本校档案图书馆的专家进行了咨询,目的是汲取其工作经验,确定对电影资料统一的描述框架,减少中英文电影资料的构建差异。




3.3.2 功能设计

依据对以上三类访谈对象的结果,设计系统的功能需求,主要包括提供查询、发现关联、资源整合、支持推理及来源标注。在此,林主任强调项目采用RDF框架和本体构建技术的目的是基于关联数据的逻辑性,严密的逻辑为推理和挖掘新的隐性知识提供保障;其次,研究的价值在于研究数据的真实、准确和完整,学术图书馆作为数据处理的专业机构,应当为高校教研工作提供可靠的数据源保障。



3.3.3 项目预期

本项目的预期结果侧重于电影资源的有效利用,包括构建电影资料的在线知识库、电影本体、供师生检索的数据平台及基于关联数据的中国电影规范控制词表。图书馆应充分发挥开展规范控制工作经验的优势,这对电影名称消歧归一具有重要意义。


3.3.4 技术架构设计

在平台技术架构方面,电影本体作为逻辑层的原因是能为资源提供统一的描述框架,形成电影实体与电影资源之间的关联;该技术架构的优势在于应用本体对系统查询和推理算法的基础作用,实现与其他数据集进行语义互操作。



3.3.5 数据建模原则

项目的数据建模基本原则共分为四个方面:一是以电影实体为中心,建立数据资源与电影实体的连接;二是用现有的电影资料表示电影本身,为研究缺失存档资源的历史电影提供了有迹可循的价值,如形式化描述电影海报;三是关注电影实体之间的关系;四是遵循电影的生命周期;需注意的是,创建“Equipment”阶段是十分有必要的,一方面是因为在前期专家访谈的内容中,涉及到相关人员对电影设备的研究主题;另一方面是源于电影资源的丰富性与复杂性。





3.3.6 本体构建及测试结果

基于生命周期的电影本体分别呈现了电影与电影资料、人物、机构、事件和地理位置等实体之间的五种关系,重用了Schema.org和国际电影资料联合会(International Federationof Film Archives,FIAF)的词汇集;利用Protégé本体构建工具,为电影本体定义了75个类,其中包含35个映射类,用于与DBpedia等外部数据集建立链接,形成可共享的数据访问;160种对象属性及60种数值属性,还预设了20个用于推理机制的限定类,以通过电影资料实现对客观事件的抽取。



在项目构建过程中,由于数据类型的种类不同,致使数据采集是一项艰巨的工作任务。项目团队从上海年鉴中采集了民国30年代所有的电影院数据,结合上海商用老地图为其增加了GIS信息;提取了电影海报及电影剧本中呈现的全部文字信息,并将它们转换成RDF数据,旨在拓展电影资源的可利用性。



目前,电影本体进入数据测试阶段,小型测试集的运行结果包含约42000个三元组,涉及1200余部电影,4000余人和机构,2000余张海报。


3.4 难点及解决方案

开发电影本体项目过程中的难点主要有5个,分别为关系查询、本体映射及数据整合、溯源和N-ary、推理和如何支持数字人文研究。以下重点阐述对多重关系描述问题的解决方案及目前支持的数字人文项目。



3.4.1 多重关系描述

关联数据技术的最大优势是资源的关系揭示及查询;然而由于电影资源的特殊性,如电影海报包含的数据是多元的,可能涉及一个主语指向多个宾语或宾语是由从句构成等情况,因此如何用RDF三元组表达资源的多重关系成为构建过程中的难点。

 

针对这种情况,林主任结合具体实例,分析了三种处理方法及各自的优劣。一是运用RDF定义的Reification词汇分解三元组,缺点是增加了SPARQL查询语言的难度及应用情况的稀缺性;二是美国农业图书馆提出的Singleton Property方法,其弊端在于关系的复杂化。三是电影本体项目采用的、使用不同的从句描述资源的N-ary方法,项目团队通过定义Class:statement、Property:contains、Property:about从逻辑上组织了多种关系,整合了电影实体的多项资源,还提供关系的回溯查看。






3.4.2 支持数字人文研究

(1)通过1950-1955年的电影海报,查看当时境内所放映的电影情况及电影生产地分布。该研究能支持历史领域及政治领域的学者做相关主题的研究。



(2)制作社会网络分析图,将电影、导演及演员的关系可视化。



4

关联数据技术指导科学研究的技巧

曾国藩亲属关系案例诠释了利用关联数据技术揭示复杂关系的研究技巧,它运用RDF框架,充分发挥了RDF具备一阶谓词逻辑为描述一层关系提供了全面、严谨的逻辑性,为自动揭示多层关系、建立人物之间的家族图谱提供便利。


最后,林主任还结合东亚图书馆目前的所做工作,探讨了高校图书馆与师生建立科研合作关系的重要性,为树立图书馆事业认同感和图书馆服务转型作出启示。





Q&A

(1)在构建过程中,电影资源中是否存在矛盾数据?

答:存在矛盾数据。图书馆的工作是客观呈现电影资源中的数据,即照录数据,保证数据来源的可靠性;但是可靠性并非准确性,由于数据内容与图书馆馆员学科背景的差异性,图书馆不能参与判断数据准确性的工作,而是要依靠专业研究人员进行判断。


(2)当电影资源显示出额外的数据时,如日期、编号等有用信息,如何进行处理?

答:这种情况正是项目使用关联数据所要发挥的作用,关联数据技术具有灵活的可扩展性,本身具有语义,所以面对这种情况,通过描述statement增加新的记录。本体构建过程是变化的,任何项目都不能一次性采集和录入完整的数据,因此要通过不断完善声明和类加以解决,这种操作并不影响整个系统;SPARQL语言驱动系统运行,只需要改写对应的语句,就能重新整合资源。


(3)图书馆在参与系统开发中充当什么作用及图书馆馆员应重视什么技术?

答:高校图书馆最大的作用是充当资源和系统开发人员之间的桥梁,因为图书馆掌握资源的情况,熟悉校内师生的研究方向及研究特点,了解用户的需求,而系统开发者拥有技术优势,但不了解用户及系统最终目标。因此,图书馆应在项目前期为系统开发人员提供相关信息,善于分析系统用例和研究目的,即学会Use Cases方法。图书馆馆员应重视的技术是建模,因为建模技术应用非常广泛,包括目前数字人文的核心也是运用建模方法,因此它是作为连接研究问题和数据的中介,是图书馆馆员未来应具备的素质之一。当然,图书馆馆员也应学习编程知识,掌握其基本思路,提升数据处理能力。目前,对图书馆馆员的要求比较高,这既是机遇也是挑战。


*本文版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。

制版编辑 | 朱静

--END--


学术活动 | 第六期  “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(二)

学术活动 | 第六期  “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(一)

学术活动 | 第五期 第九届全国情报学博士生学术论坛征文通知

学术活动 | 第四期 2018年第十二届全国图书馆学博士生学术论坛会议通知

学术活动 | 第三期 “浮现中的数字学术:社交媒体与学术成果传播”专题研讨会会议通知

学术活动 | 第二期 林墨·科学家与科学数据研究趋势——2018科学计量与科技评价天府论坛学术沙龙纪要

学术活动 | 第一期 MIS Quarterly副主编、丹麦哥本哈根商学院陈致玮教授来我院作专题报告


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存