查看原文
其他

学术活动 | “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(一)

第一期

一一2018年11月1日,我们举办了“浮现中的数字学术:社交媒体与学术成果传播”专题研讨会,来自学界和业界的六位嘉宾与我们分享了他们的研究成果和心得。我们对现场录音进行了整理,将分6期在公众号上连续刊发(按照发言顺序),包括文字和发言人的PPT内容。

一一敬请关注,欢迎转发。

发言人:吴丹教授  武汉大学

报告题目:社交网络上的学术信息组织与检索

录音整理:祁凡

学术社交网络概述

网络学术交流模式的产生导致了知识创造方式、研究方式的变化,信息获取方式的变化,研究成果的发布、评价、传播方式的变化,以及出版物形态与出版模式的变化等。随着web2.0技术与服务的广泛发展,网络环境下参与群体具有广泛性、开放性、互动性、存储方式的便利化等特征,为科研学者提供了更加多样的学术交流方式,如学术博客、论坛、学术问答、维基、社会化标签等;与此同时,学术社交网络也广泛发展起来,包括一般社交网络如Facebook, Twitter等上的学术平台,以及专门的学术社交平台如Google Scholar, 学者网、百度学者、CNKI学者圈等等,尤其是2008年开发的三个平台ResearchGate, Academia, 和Mendely,使用数量大,范围广。关于学术社交网络的定义目前没有达成统一的定义,仅少数学者对社交网络进行了明确的定义。比如匹兹堡大学的Jung等将学术社交网络定义为,是为学者们提供支持,并以研究为导向的在线活动,以及以社会网络建立为目的的在线服务。另外南京理工大学王曰芬老师团队认为,学术社交网络指的是以促进知识交流和扩散为目的,能够帮助研究者建立和维护他们的人际关系网络,同时能够支持他们在研究过程中从事各项活动的服务或者平台。


学术社交网络类型

根据目前学术社交网络的相关的研究以及发展的现状,我们按照社交的目的将学术社交网络划分为三种类型(1)图书分享网络,主要指用于图书/著作的发布、交流和分享的网络社交平台,如LibraryThing、豆瓣等。(2)科研成果社交网络,主要是指用于科研人员或者科研团队之间进行学术成果存储、发现、交流、信息共享、科研项目查询、学术内容分析与可视化等的社交平台。也可以把它再进一步地分为三类,科研分析工具,如Profiles 、VIVO等;科研社交网络平台,如ResearchGate、CiteULike、Bibsonomy、Mendeley等;科研数据库,如谷歌学术、百度学术学者、CNKI学者圈、Emerald Crescendo等。(3)在线学术社区,主要是指科研人员以博客、论坛、问答等形式进行自我展示和学术交流的学术社区平台,如新浪博客、Facebook、Twitter、知乎、LinkedIn、科学网等。


学术社交网络对于学术传播的重要性

我们都知道学术社交网络对于学术传播是非常重要的,这个也是我们今天论坛的议题之一。我认为学术社交网络对于学术传播的重要性有这样几个方面的体现。

(1)便于学者发现。通过这种学术社交网络,能方便学者进行学术成果管理,有利于学者进行学术在线分享,促进同行学术交流;有利于学者自我推广,提高学者认知度;有利于促进同行学者发现,在网络上构建虚拟学术团队。关于同行学者发现也是我们近期正在研究的一项内容。(2)促进知识发现。通过学术社交网络可以促进学者生产原生内容,促进学术知识的积累与传播。能够为学术成果分析软件、文献管理软件或者替代计量提供知识发现的指标和内容,促进科研知识的深度挖掘。促进学术成果的开放存取,增强学术成果的可见度。(3)加强跨学科交流。在这种社交平台上,对于学科之间的划分界限没有那么明显,所以可以通过学术社交网络认识来自不同专业背景的专家学者,促进跨学科交流,寻找合作伙伴,建立跨学科科研团队,合作攻关科研项目。


社交网络学术信息获取存在的问题

目前的学术社交网络虽然发展得很迅速,但是在学术信息获取方面依然还存在一些问题,可以从信息组织和信息检索两个方面来进行分析。


(1)关于学术信息的组织,我们都知道社交网络的信息组织和我们传统的学术数据库是不一样的,学术数据库的信息组织往往是结构化的,都是采用了主题受控的一些字段来对知识进行标引,然后提供结构化的检索。但是学术社交网络往往是非结构化的,采取的也主要是一些非结构化的或者是半结构化的信息组织方式,允许用户提供个性化的信息标注,标注词就是我们通常所说的社会化标签,它是不受控的,像豆瓣图书上存在大量的社会化标签。


(2)从信息检索的角度来说,在社交网络上进行的信息检索,往往用户的检索需求是更加复杂多样的,他可能不仅仅只是为了获取一篇文章,还可能会有社交的需求、有自我展示的需求、有成果传播的需求、有建立学术团队的需求、有进行科研合作的需求等。所以学术社交网络上的信息检索从用户角度来说,需求会更加复杂多样。另外从检索的方式来看,正是因为信息组织它是非结构化的,所以社交网络上的学术信息的检索,往往也不是字段匹配的,也是无法进行精确检索的。而且用户在学术社交网络上的检索,往往是一种探寻式的检索,有时候目的不是很明确。再从多语言的角度来看,也存在术语翻译方面的障碍。


这些都是需要我们从信息组织和检索方向上要解决的问题。下面就从这两个方面谈谈我们已经做的和正在做的关于社交网络上的信息组织和检索的一些研究。


学术社交网络中的社会化标签的规范化

首先是关于学术社交网络当中社会化标签的组织和利用,我们做的研究主要有两个方面。


一是关于社会化标签的规范化问题。因为学术社交网络当中的学术信息组织是比较自由的,这些社会化标签是用户自由给出来的,所以我们想要探究一下由用户给出的这种社会化标签的规范性如何。于是,我们就设计了三个实验,分别针对三类学术资源,第一类是图书,第二类是学术博客,第三类是学术论文。针对这三类资源,把这些资源在学术社交网络当中的社会化标签进行提取,并且把这些标签和主题词表进行对比分析,以得到他们的重合度,从而探究社会化标签的规范性到底有多大。

(1)针对于图书的社会化标签的分析,我们主要有三个研究问题。一是社会化标签跟主题词表的关系是怎么样的?二是关于多语言的问题,中文标签和英文标签之间有何不同?三是社会化标签跟主题词表之间是不是可以进行补充,如何进行利用?


于是我们首先进行了数据的采集,从LibraryThing和豆瓣网站分别获取了很多关于图书的中英文标签。LibraryThing是一个社会化编目网站,网站上的社会化标签是数量非常庞大的一个集合,大概有5300多万的社会化标签,是一个使用非常广泛的学术社交网站,因此我们采用这个网站进行了英文标签数据的抓取。中文方面利用的是豆瓣读书,这是国内使用广泛的图书分享网站。从这两个网站上分别采集了500本中文图书和500本英文图书以及他们的所有的标签。然后在美国国会图书馆和中国国家图书馆的OPAC当中对这些图书进行检索,通过OPAC中的MARC字段来确定标引词,然后去和社会化标签进行比较。如果标引词对不上这个社会化标签的话,我们还会直接放到这个国会图书馆主题词表(LCSH)和中国分类主题词表(CCT)里面去进行比较。


我们对数据也进行了一些预处理,把标签分为主观标签和客观标签,客观标签就是描述一本书的内容或主题的术语,主观标签通常是描述个人主观情感。然后根据MARC字段把标引词也进一步分为了内容相关的标引词和形式相关的标引词。然后再把标签和标引词进行比较,如果没有匹配上,就去直接跟LCSH和CCT进行比较。具体的数据分析可以参见我们在Journal of Information Science上发表的论文,这里就不再赘述。


研究发现标签中使用的词汇类似主题词表中的词汇的使用,但很多标签没有在主题词表中的明确定义的语义关系,用户构建的词汇库可以看做是传统受控词汇的补充。我们认为这两者结合起来,有利于用户词汇和专家词汇的相互补充,正是基于此研究发现,我们后面进一步做了将用户词汇与专家词汇结合利用的研究。

(2)针对于学术博客的社会化标签的分析。现在也有很多学者在博客上面发表一些跟学术有关的博文,我们就对此做了一个对比实验。关于学术博客的获取方式,我们做了一个调查,发现中文的期刊中把学术博客作为引文的这种情况是比较常见的,但是在英文的期刊论文里面,我们发现很少有这种把博客作为引文的情况。所以对于中文博文采用了博客引文的方式,从CSSCI期刊里面找所有被引用的博客,然后提取他们的标签。对于英文的期刊,因为引文比较少,所以我们就直接采用博客搜索引擎来进行检索。研究思路与前面类似,也是对这两种方式所获取的中文博客和英文博客的标签进行提取,并分为主观标签和客观标签,这里就不存在标引词的问题了,所以就直接和CCT和LCSH进行了匹配。

结果发现社会化标签的客观性都比较强,而且社会化标签和词表的重合度是比较低的,所以说社会化标签的规范性比较差。从中英文学术博客的标签差异性来看,英文博客的标签从数量到频次都要更多一些,他们对标签的重视程度也是不同的。


(3)针对于学术论文的社会化标签的分析。学术论文比较特殊,因为学术论文除了用户给出的社会化标签,在写作的时候作者也会给关键词,论文被收录到数据库里面,数据库还会对它进行标引。所以对学术论文来说,实际上存在三类标签,即读者标注的社会化标签、数据库给的标引词以及作者给的关键词,它实际上代表了三类人群对这篇文章的主题内容的提取。我们希望考察这三者之间的关系,即学术论文标注的标签和数据库的标引词的重合率,以及学术论文的标签和作者所给的关键词之间的关系。


我们采用了学术论文标注系统来获取标签,因为中文没有这方面的系统,所以就只做了英文的。英文论文标注系统主要以CiteULike为主,CiteULike是一个允许用户保存和共享学术论文引文的一个服务平台,用户会在平台上分享自己的引文,然后会给引文一些标签。另外还有一个网站是Bibsonomy,这个和CiteULike类似,也是一个社会化标签和出版共享的系统,能够为用户提供存储和组织服务,还有出版物条目等一些功能。对比这两个网站,CiteULike的用户群体要更广泛一些,所以我们是以CiteULike为主,以Bibsonomy为辅来做数据的提取。这些论文也会在数据库里面进行标引,所以我们也利用LISA文摘数据库提取了关于文章的一些标引词。


同样也是分为客观标签和主观标签,区分内容标引词与形式标引词,然后把这些内容标引词与客观标签进行比较,同时客观标签也跟论文关键词进行比较。


研究结果发现,学术论文标注的社会化标签与数据库的标引词的重合率是比较低的。同样,学术论文的社会化标签和作者关键词的重合率也是比较低的。


基于以上的分析,我们认为标签和受控主题词的重合率比较低。但是标签的噪音比较大,因为用户在进行标注的时候会给出一些含义不明的词。不过这些标签更能够代表用户的信息需求,尤其是在信息检索中的需求。我们认为标签的语义关系并没有被充分的挖掘,它是一种平面的关系。实际上这些标签他们可以对词表构成非常好的补充,可以应用到学术社交网络的信息检索里面。另外从语种的角度看,中英文标签的差异性比较大,其实这些不同语种的标签,尤其是针对同一个主题领域下的,是很有价值的,因此可以进行映射,应用到多语言学术信息检索当中。

学术社交网络中的社会化标签的利用

二是针对多语言社会化标签的利用问题。我们做了一个工作,把中英文的图书情报领域的标签,应用到跨语言学术信息检索里面。我们利用这个标签构建了中英文图书情报领域的标注词典,这个词典是一个机读词典,带有翻译概率的特点。后来我们又开发了一个跨语言学术信息检索系统,这个系统用到的翻译资源主要有三个,(1)通用词典,即一般可以用于跨语言检索的机读词典,(2)中英文图书情报领域的一个专业词典,(3)把中英文图书情报领域的社会化标签做了映射,构建了一个标注词典。希望这三个词典结合起来的跨语言检索效果会更好一些。

关于专业词典的构建,我们利用中国知网CNKI的翻译助手爬了图书情报领域的词条,然后把它改造成了一个带有翻译概率的图书情报领域的基础词典。对于标注词典,我们把中英文的社会化标签做了映射,然后进行了一些翻译、概率计算、词根还原等处理,去重以后,得到了一个图书情报领域的标注词典。从标注词典上来看,它有大量的术语,都是比较长的一些短语,也都是我们一般词典里面所没有覆盖到的。为了完成测评,我们还建立了一个测评体系。参照TREC测评体系的构建模式,以图书情报领域为例,构建一个该领域的学术信息文档集合,我们爬取了web of science里面20多万条题录信息,再设计了50个图书情报领域的检索主题,然后我们去找用户对每一个检索主题进行了搜索,并且进行了相关性判断,得到了这样的一个ground truth。


最后我们开发了一个图书情报领域的跨语言信息检索系统。这个系统主要采用三种翻译资源,把通用词典作为Baseline,然后加上专业词典和标注词典去比较,看他们是不是结合起来使用效果会更好。另外,还做了不同长度查询式的实验,最后发现不管是短的查询还是长的查询,把这三种翻译资源结合在一起使用的效果是最好的,也就证明了标注词典和我们对这个社会化标签的提取和利用是非常有效的。


以上就是我们关于学术社交网络上的社会化标签的组织和利用的研究。下面就谈一谈关于学术社交网络上的信息检索研究。我们知道学术信息检索方式主要是数据库的检索,但随着社交网络的产生,社交网络也成为了学术信息检索的一种主要信息检索的方式。因为大家的信息检索需求是不一样的,比如说可能会在ResearchGate上去查找某位专家学者的学术成果,也可能是需要在Mendeley上去建立自己的学术社交网络,还有可能会去LinkedIn上面搜索专业匹配的职位,或者是相关的人脉资源,所以大家在学术社交网络上的检索,可能需求比较多元化,不只是为了获取一篇文章那么单一的。因此关于学术社交网络上信息检索的内容,我觉得值得研究的包括关于用户的使用意愿,需求或动机、社交网络上信息检索到底有哪些类型,以及关于检索优化设计、个性化推荐,再就是用户的搜索行为等。在搜索行为这一块我们比较关注的是两个方面,第一个就是学习式搜索(Search as Learning),第二个就是同行用户的搜索,也称为同行发现(Peer Discovery)。


学术社交网络中的学习式搜索

一是关于学术社交网络当中的学习式搜索。互联网统计报告显示,现在网民利用互联网进行在线学习的人数是在增长的,也就是说越来越多的用户利用网络信息,是可以进行自我的学习和提升的,那么通过信息检索来提升就是其中的一个重要途径。学习式搜索,借鉴了教育领域的一些理念,指的是用户利用信息检索系统来获取信息和学习知识的方式,英文把它叫做search as learning。用户可能在检索的时候,同时也获得了知识结构的改变,所以它注重的其实是学习的结果,而不仅仅只是检索的结果,注重的是用户在整个搜索过程当中,或者说搜索结束后,知识的构建。为什么要研究学术社交网络当中的学习式搜索?因为我们认为学术社交网络既有大量学术资源,又能够进行学术交流,所以它更能够给用户带来搜索过程中的学习效果提升,所以我们就想来做这个方面的一个研究。

 

研究问题有三个,就是学习式搜索的动机、过程,以及效果,即如何改变用户的知识结构。关于这个研究,我们主要是采取以下思路。

 

首先从理论上要探索一下关于学习式搜索的行为模型以及用户知识结构的变化,它是增强现有知识还是调整现有知识,或者是重构现有知识,以及整个过程是怎样的。我们采用ResearchGate和Mendeley上真实的用户去做这个调查,然后再进行分析。基本思路是先构建理论模型,然后通过爬取用户的一些联系方式,对这些真实的用户进行调查,最后做模型的验证。

 

目前现阶段我们是已经把模型做出来了,然后正在进行用户的调查。我们的模型是参考了北大的张鹏翼老师在2014年的时候做的一个关于信息检索的用户知识构建方面的一个模型,他们的模型主要是基于传统意义构建理论,同时也结合了学习领域、认知领域的理论,对用户在整个检索过程当中知识变化和认知机制的过程的一个建模,我们把它作为一个基础模型。(1)这个模型首先是综合了多个搜索模型,归纳出来了一个基本过程,即识别信息需求到搜索结果的整合以及应用。(2)他们也综合了多个意义构建的模型,总结出来了信息结构有两种类型,一个就是数据检索循环,还有一个是知识架构循环。张老师也综合了一些学习方面的理论,将新的数据、新的知识融入到原有知识结构当中。(3)最后也借鉴了认知领域的理论,将学习结果分成三种类型,即增强知识结构,调整知识结和重构知识结构。在这个基础模型的基础之上,因为我们是把它放在学术社交网络的环境下面,所以我们就补充了社交方面的内容,然后就提出了我们自己的关于学术社交网络当中的学习式搜索行为模型

(1)基础模型中动机的完善。基础模型中,用户认识到任务或者问题作为模型的出发点。但是,对于学术社交网站来说,用户的使用动机还包括社交与互动,即与其他学者保持联系、关注其他学者、查找其他学者、响应他人或合著者的邀请;信息获取和知识分享,即保持及时更新、传播研究成果、获取论文和资料、为新研究获取观点、扩散观点、发现感兴趣的研究;进行学术合作,即组建研究群组、参与合作研究活动。(2)识别知识信息需求。首先是识别信息需求,然后补充了识别社交需求,这部分根据刘晓娟等人提出的理论,进一步将社交需求分为三个方面:获取社交信息:包括与其他学者保持联系、关注其他学者、查找其他学者、发布工作机会等;接受信息推荐:接受推荐(包括推荐研究主题、推荐学者等等);寻求合作:组建研究群组、参与合作研究活动等。(3)在最后的结果输出部分,对基础模型的输出结果进行了补充,主要增加了用户社交需求的输出结果,并进行不断的循环,直至满足用户的需求。同时,在结果输出部分,用户增强了社交关系,也会促进学术成果的传播和交流。这是关于模型的构建。我们目前正在调查的过程当中,等有了结果以后再跟大家分享。


学术社交网络中的同行发现

二是关于学术社交网络当中的同行发现。因为之前有看到Nature有一篇文章,是对社交网络的使用行为做了一个调查,调查了95个国家,回收了3500多个样本。他们的研究发现discovery peers,即发现同行是用户使用社交网络的第二大动机,仅次于保持联系。同时ResearchGate是目前使用的比较多的学术社交网络,所以基于这样的一个大规模的调查结果,我们就想从信息检索的角度,即信息搜索行为的角度,研究学术社交网络平台上用户会通过哪些途径去搜寻感兴趣的学者。在搜寻同行的时候,他的搜索路径和搜索行为的特征是什么样子的?不同搜索路径的搜索效果是不是会有差异?哪些因素会影响他的搜索效果?这就是我们想要研究的问题。可以概括为对同行发现行为的研究,以及同行发现的途径模式的研究。我们希望能够对学术社交平台的交互设计方面有一些帮助。

我们准备首先向ResearchGate的用户做一个基本的调查,然后通过实验的设计来更深入地分析用户的比如说搜索路径、访问的页面、搜索的入口、渠道所用的时长、提供的搜索策略等,就是关于信息检索的一个用户实验。当然也会配合访谈的方式获取用户的一些大体原因、动机等方面的数据.这个目前也是还在进行的过程当中,等以后有了结果再来跟大家分享。


展望

展望部分,学术社交网络研究趋势从网络社交平台本身的使用逐渐向社交网络的使用行为主体上转变,研究内容纵向深入。关于学术社交网络的研究,从趋势上来说有这样几个方面,(1)首先是对学术社交网络的一些基础研究,比如说从平台的利用,还有信息传播的特征,这些方面是一个研究趋势,(2)基于替代计量学的学术社交网络研究,如论文影响力评价与预测。(3)学术社交网络的使用行为方面的研究,这个也是我比较关注的一个领域,比如说资源的推荐、同行的发现、学习式搜索等。


从目前学术社交平台存在的问题来看,有这样几个问题,(1)学术社交平台的性能优化问题,现在这种学术社交平台国外的比较多,国内的平台比较少,这些平台在比如说像信息推荐、资源推荐或者学者推荐这些方面,其实还有进步的空间。(2)关于学术社交网络的相关理论构建有待进一步的加强,缺乏学术社交网络用户行为理论研究,如知识共享行为的影响因素等。(3)学术社交网络本土化的研究,正是因为我们这些研究都是以国外的一些学术社交平台为主,我们也要思考如何能够构建我们国内的学术社交网络的品牌,推进本土平台的发展,加强本土学术社交网络在行为规律、传播特征等方面的研究。


PPT分享请戳右方二维码

(发言人已授权)

温馨提示


识别二维码后,请在手机浏览器中打开并下载

① IOS系统,请在点击界面右上方 “…”图标,选择在浏览器中打开下载

② Android系统,会出现自动提示,在浏览器中打开下载


*本文版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。


--END--


学术活动 | 第五期 第九届全国情报学博士生学术论坛征文通知

学术活动 | 第四期 2018年第十二届全国图书馆学博士生学术论坛会议通知

学术活动 | 第三期 “浮现中的数字学术:社交媒体与学术成果传播”专题研讨会会议通知

学术活动 | 第二期 林墨·科学家与科学数据研究趋势——2018科学计量与科技评价天府论坛学术沙龙纪要

学术活动 | 第一期 MIS Quarterly副主编、丹麦哥本哈根商学院陈致玮教授来我院作专题报告

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存