查看原文
其他

学术活动 | “浮现中的数字学术:社交媒体与学术成果传播”专题研讨会纪要(二)

图书情报知识 图书情报知识 2021-03-14

第二期

一一2018年11月1日,我们举办了“浮现中的数字学术:社交媒体与学术成果传播”专题研讨会,来自学界和业界的六位嘉宾与我们分享了他们的研究成果和心得。我们对现场录音进行了整理,将分6期在公众号上连续刊发(按照发言顺序),包括文字和发言人的PPT内容。

一一敬请关注,欢迎转发。

发言人:徐申萌  美国北卡罗来纳大学博士生

报告题目:学术传播活动中的数字足迹

录音整理:祁凡

我这次分享是围绕促进研究活动足迹展开的,从传统被最广泛研究的引文足迹到数字时代的各类数字足迹,本次研讨将分享相关理论背景,结合相关实证探索,分析学者信息行为与足迹的关系,探讨各类数字足迹的意义与局限。


学术传播 Scholarly Communication

我今天讲的是学术传播中的数字足迹,那自然就是要先谈一谈这个框架范围。


学术传播和学术交流,有可能是两种最常见的表述方式,我个人更倾向于学术传播,但是我知道学术交流也是被广泛使用的。我的观察是在我们这个非常小的领域的背景下,比如说今天的讨论中,他们是可以当作同义词使用的。所谓学术传播,都是学者透过正式还有非正式渠道来使用和传播信息。正式传播渠道,包括出版期刊、书目、书目的章节,或者论文集等。非正式的渠道,主要是人际沟通,包括了信函、会议、无形学院还有学术社群交流等。其实最传统、最主流的学术传播手段当然还是出版。但是现在随着人们对互联网的使用增多,学者也是不例外的,尤其是随着学术出版整体的电子化,在投稿还有与其他学者交流合作的时候,我们很少会通过书信的方式了。


引文足迹 Citation Traces

下面谈一谈引文。基于引文或者引用的研究,其实很多,我在这里都不一一细说,在我们这个计量学的小领域里,“引用”很经常被当作一个名词,例如说你那个文章很厉害,有很多引用。但是现在我想大家把“引用”当做一个动词来思考,来考察“引用”的这个动作,引用的这个行为文化、文化足迹是怎样的。概括来就有三大块数据可以供研究。

(1)首先引文的数量。基于引用数字的计量指标是最多的。引用行为的特点、意义、价值也是被很多人做过的、探讨过的。虽然这个是科学学科、科学社会学以及信息科学一直在探讨的话题。(2)引文的数据,是符合引文的数量的。再加上被引文字、施引文献的目录信息,比如说作者、出版物、出版时间、作者单位等信息,不但会有更多的技能渠道的研究,也有更多的网络和关系的研究。(3)引用的内容,随着现在开放获取运动的加深,开放获取的文章以及个人形式的比如说预印本,都让我们有更多的机会进行全文本的引文分析。


所以我认为,重点是关于引用行为的特点、意义和价值方面的探讨。其实从很多年前开始,关于引文足迹、引用理论和引文理论的讨论已经很多了,最主要的应该算是规范主义理论和构建主义理论。


引文理论 Citation Theories

(1)首先要讲的是规范引用理论,也就是基于社会规范的理论,因为他是诺顿为代表的理论,诺顿是社会科学数据学的奠基人。有句话说教育是人以群分的,每一个社会群体都有自己不成文的规矩或者规则,这些规矩大家共同遵守,违反这个共同规则的人会得不到大家的认同,甚至会被清除出去,在一个群体中大家都必须遵守的成文或不成文的规则就称为社会规范。社会规范了很多的方面,能够影响人的行为,实际上是一个群体的价值取向,规范主义科学社会学者认为,现代科学兴盛的原因在于科学制度存在,自身持有的ethos of science,即科学的精神特质,也就是普遍主义、公有性、无私性以及组织的怀疑态度。这四大精神会规范着科学共同体的价值观,会约束着科学家的行为。在普遍主义精神特质的影响下,引文就变成了对研究成果的优劣性,还有它的支持共性的一种工具性的承认。也就是说在规范理论的基本观点下,当作者引用文献资料的时候,就证明了这个文献资料对这个作者是有价值的。

 

这个理论认为科学是一个由内部奖励和惩罚机制进行规范的机构。在这样的一个机构批评下,科学家们都是无私的,他们都遵守一种不实际的社会规范。他们认为遵守这种规范是一种义务。科学行为具有一致性,也就是说他们在做引用协议的时候,不会受到功能不相关特征的影响。也就是说不会受到比如说作者的性别,种族、宗教、级别等的影响。只要你引用了这篇文章,不管我是谁,不管你是谁,引用这个行为就说明了我对你文章的认可和致敬。所以说规范主义理论促进了引文的发展,也促进了引文分析的发展。当一篇文献对另外一篇文献引用的时候,就等于这个施引文献受到了被引文献的启发。用引文的形式向被引文的作者表示承认或是否认。一篇文献的知识贡献度越大,对其他后续研究就越具有启发性,被其他文献引用的次数越多。因此引用关系体现为文献竞争的知识传承和知识生产的累积性。引文网络体现了人类知识空间的扩散过程。

 

(2)然而这个理论与现实是有一定差距的,为什么有差距?就是要找到下面这样一个建构的理论。建构主义认为科学知识是被社会建构的,引文动机的理论解释也得到了实证研究的支持,它认为科学事实的发现,特别是知识的生产是一个社会建构的过程。受到各种社会因素的制约,科学论文是融合事实诚信与价值判断、逻辑论证,还有说服征服于一体的文本形式。引文是科学文本中一种有组织化的修辞方式。构建主义理论认为科学的形成是协商过程的结果。在这过程中,一方靠劝说的手段使得其他人信服。当作者引用文献的时候,他们通过总结以前的文献,将传统的文献引用到自己的写作中,用重新的文字去支撑自己的文章,用以前的文字去表达自己的观点和想法,说服读者去相信他们观点的合理性。

 

大多数情况下,作者常常仅仅是为了自身的需要,而去选择引用文献,这其实是和科研成果转化成科学知识的这个社会过程是密不可分的。科学研究的发现要进行下去,必须经过一个同行承认的社会化的一个过程。而且引文大概都是展示研究成果的有效性、重要性的一种修辞工具。通过引用新发表的文献和已有知识之间建立起了联系,作者使用已经被认可的各种文献,为自己的研究提供一些支持。关于这个理论过程,有很多的实证研究,这些研究发现了很多在现实中一些很有意思的现象,比如说作者引用是为了达到自己的目的,而去歪曲之前的文献的本意,或者为了获得认同,不同比例的去引用已有的权威作品,多引用与自己观点相符的作品,少引用与自己观点相反的作品,作者的引用动机是一个很复杂的社会化心理过程,受到学术权威等制约因素的影响。大量的实证发现,是科学文献之间的引用诠释了显著的马太效应。文献引用中马太效应可以在一定程度上证实引文动机受到社会因素的影响。也就是说引用行为无法用刚才提到的普遍主义的科学规范精神进行解释,就像说服和解释,为了达到说服的目的,作者会倾向引用那些被读者认为有权威性的文献,而这一动机又加强了权威作者,还有权威机构,更容易成为高被引对象。

 

规范主义理论和构建主义理论算是目前在引文理论中影响最大的两个。这两种理论都有合理的原因,都有共同之处。因为引文的形式以及所处的外部环境都在不断发展和变化,人们对它的认识是随着发展变化的。但是因为引文现象的复杂性受到了学科领域所在地区、获取、评价体制的不同等方面的影响,所以学者在执行这个引用行为的时候,观念态度想法也都不同。想想我们自己引用其他人的文章时候,都是因为什么样的原因呢?我们对其他人的引用都说明了我们对其他人的赞同、承认、致敬。

 

(3)其他理论我认为比较重要的是概念符号理论,概念符号理论大意就是说引文是符号,当一个作者引用这篇文章的时候,就是作者在用这个符号将那篇文章和自己的想法联系在一起,这里这个想法可以说是一种概念,也可以说是一种观点,也可以是一种方法论,也可以是一个研究结果等。这个和加菲尔德最早提出的把引文当作主题标引的描述符号有关系。

说了这么多关于引用的一些理论,现在就是从文章的实际上讲。刚才我们已经大概分析了左边的这个案例,更加广义和普遍的数字足迹,其实有很多类似的引文基础。我们刚才已经仔细分析了,围绕着引用这个动词,这个行为所产生的踪迹和数据,现在我们把引用这种行为mark到更广义的数字足迹的大框架来讨论一下。


广义数字足迹(Digital Traces)

我认为的引文固然有其特殊性,但是在本质上归根结底,也是广义上数字足迹的一种。尤其是在现在数字出版的大背景下,一切都电子化,都数字化,所以围绕着更加广义的学术行为,也有各种各样的途径。(1)首先就是这些数字的本身了,就是他们的发生,他们发生本身,基于他们发生的次数的一些计量指标,还有对它们的种类特点意义和价值的探索。(2)二是这些行为产生的一些东西,比如说时间戳、什么时间、地理信息、什么地点、施动者信息等。施动者的信息,也就是说你是谁,你是一个学者还是对科学比较感兴趣的人?还是科学记者、科学的传播者。如果你是学者,你是在哪里的学科、什么样的身份、什么样的结构等。第三方也类似于引用一篇文章的时候所产生的引用、被citation的方法,或者叫引用内容content。比如说我们刚才提到的,在引用里有资源引用,有负面引用,在社交网络上对一篇固定论文的讨论和推进,也是有负面的。事实上有很多实证研究发现,其实百分之八九十科学文章在Twitter上的推文都是不含有任何内容的,只提供了文章链接,然而那一小部分提供了一定的观察动性、背景内容等这些内容的推文其实也还是值得研究的。


这些广义学术行为的种类、特点、意义、价值方面的研究,就是替代计量学Altmetrics不够重视的。我们对于引用这个行为更加深入的理解,其实很好地帮助我们理解了基于引文的那些计量指标、实证研究的作用以及不足,同样对于这些更广义的行为和学习的更深入的理解也是同样重要的。


广义学术行为 Scholarly Acts

在分享一些实证研究之前,再和大家分享一个我很喜欢的广义学术行为框架。这个不是我们的作品,是Haustein他们提出的一个学术行为的一个框架。在这个框架里大家看中间的那个螺旋,所有的各种各样的指示行为都可以看作是围绕着这一条曲线的。这些学术课题,可以是学术成果,可以说是一篇文章,一本书,也可以是个人,也可以是一个科学家,或者一个学者。学术成果在这里包含了很多,大家知道在Altmetrics的框架下,学术成果的概念是非常广的。从正式的经过了同行评审的出版物,到比如说数据、演讲、书籍等,都涵盖了文章的这个学术课题。他们三种颜色表示说三种行为就是获取、评价和应用。但这三种行为在概念上有一个特点,就是它们反映出来的对于这个学术客体,我们可以理解为兴趣、投入,甚至是认为有用,让你有价值的程度。获取,或者看这篇文章,看这篇文章的元数据,甚至是包括我们存储这篇文章,在一定程度上反映了我或者这个施动者对这篇文章有一定的兴趣。如果获取进行到下一步,我会在微博上对他进行讨论,或者是把它写到我的博客里,把它编辑到维基百科里,这就说明了我对这篇文章的兴趣承认是更大的。如果我已经把这篇文章包含到我研究的理论方法里面,这更加说明了我对这个文章的兴趣和承认度是越来越高。

就像刚才吴丹老师也在做社交媒体上同行发现的一些研究,人也可以被看成是一个研究的客体,围绕着文献发生的一些动作都可以围绕着人发生。我们会去看一个学者的主页,也可以在社交网络上去搜索他、联系他、与他交流等,我们甚至还可以与他合作。这也是一个逐渐上升螺旋上升的这样的一个过程。目前在很多Altmetrics的平台上,比如说Altmetrics ,ImpactStory, PLoS ,他们的数字足迹大致归为以下4类,它们的归类方法不是完全重合的,但是大致归为就是看、保存、分享还有引用

(1),其实这个有很多说法,有不同方法收集的看。比如说看这篇文章的html网页和看这个文章的pdf,其实是有所不同的。比如说在这个出版商的网站上看,和作者自己存储的一篇文章,也是不同的。很多时候这个收集到的看的数据其实是点击的数据,没有人知道是具体怎样看的,看得多仔细。(2)保存(save)有两种,大致有两种不同的保存,一种就是下载,还有一种就是保存到我们系统管理软件里。下载其实有很多种,有的人可能只是下载到的桌面,或者是download的文件。我们可能会进行进一步动作,比如说修改名字,把它保存到相应的文件夹里,有一个管理组织的这样一个过程。(3)分享其实也有很多种,比如说您的分享是讨论还是带着正面意义的推荐,比如说从一个平台分享到另一个平台,比如说我在Twitter上,推一篇文章的链接,相当于将这篇文章带到了Twitter这个平台上。(4)引用、引文。我们之前有试图探索过各种包含的信息和数字足迹,下面我来分享几个例子,讨论一下利用不同的数字足迹,我们可以进行哪方面的探索。


从数字足迹看科学家工作时间——以Springer下载数据为例

比如说这个研究是我还在读大学的时候跟王老师做过的一篇,它是从数字足迹看科学家工作时间的。在这篇文章里面我们主要收集到的数字足迹、数据有什么,就是地理数据,还有时间数据。然后我们根据时区,把时间都归为当地的时间之后,分析了三个国家,美国德国和英国的科学家下载论文的情况。这个时候就得到了一些比较有意思的发现。中国科学家起的都比较早,然后中国科学家在午饭和晚餐的时候都很有明显的休息的节奏。美国科学家通宵工作了很多等。这就是一个通过下载数据来看科学家工作时间的例子。

从数字足迹看学术传播的语言使用情况——以Twitter为例

第二个研究是之前我和余厚强老师合作的一篇文章,从数字足迹看学术传播的引文使用情况,我们探索在Twitter上分享科普文章的时候,大家都使用什么样的语言。我觉得比较有意思的一个是欧洲一个是东亚的结果。可以看到在欧洲国家英语的使用情况,那个线是很多的。但是在几个国家,比如说西班牙和法国,还有土耳其,英语使用率是比较低的。就是使用他们本土语言的占比比较高,东亚的国家也比较有意思,很多国家也都是更想、更喜欢用

英语去推送自己文章,但是在日本却有绝大多数的项目是用日语的。

文章类型与数字足迹的关系——以PLoS Publications为例

接下来的研究是跟我现在博士时候老师一起做,就是他是在探索文章的类型与数字的一些双方关系。我们都知道科学文章有很多种,当然我们大部分的时候研究的,大概都是研究类的文章,就是research articles,但是我们有的时候当然也会读到一些综述类的文章,一些应用性的文章,然后也有一些教育类的文章,我们也有一些比较有意思的发现。比如说有六篇都不同的文章,它们的引用和被阅读的概率都是非常高的。然后opinions articles,他被看和被分享的次数是比较高的。教育类的文章被保存的很多。右边的图其实是这样看,右上角是综述文章,左下角的是研究类文章。可以看到,对于review articles,阅读和引用是高度相关的,保存与引用是高度相关的,保存和阅读是高度相关的。但是对于研究类的文章,最相关的是保存和阅读。对于左下角的这种议论性的文章、观点性文章就是看这个文章的views和save保存是相关的,然后看和分享这种观点性的文章也是高度相关的。但是对于教育性的文章来说,看是对于保存高度相关的。

“非传统”学术客体的数字足迹——以R包为例

刚才说到的那些,它包含了很多各种非传统的一些学术课题,可能不只是期刊文章或会议文章,我们之前也做了一个探索,分析了几个可视化visualization为功能的一些会议,他们的搜索还有下载、讨论、提问还有引用的情况。

理解“替代计量学” Interpretation of Altmetrics

最后,其实替代计量学在基于一个数据工具的时候,影响因素是非常多的,比如说时间、科学领域、不同领域的Altmetrics数据是非常不一样的,包括平台和行为,平台与用户,是学者还是不是学者,还有其它因素等。数据的限制是很大的,因为现在的很多Altmetrics数据大大的依赖于UI,有很多的技术收集不到的,如果引文没有被提及的话,那么我们收集不到很多数据,它的可靠性也是有待提高的。我们从足迹来分析行为,有一点像是倒回,我们不知道被打开的文章、被点击的文章有没有被浏览,不知道被下载的文章最终有没有被引用。这个我写了一个综述文章,大家可以在文章里找到。


PPT分享请戳右方二维码

(发言人已授权)


温馨提示


识别二维码后,请在手机浏览器中打开并下载

① IOS系统,请在点击界面右上方 “…”图标,选择在浏览器中打开下载

② Android系统,会出现自动提示,在浏览器中打开下载


*本文版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。

排版 | 朱静

--END--


学术活动 | 第六期  “浮现中的数字学术:社交媒体与学术成果传播”研讨会纪要(一)

学术活动 | 第五期 第九届全国情报学博士生学术论坛征文通知

学术活动 | 第四期 2018年第十二届全国图书馆学博士生学术论坛会议通知

学术活动 | 第三期 “浮现中的数字学术:社交媒体与学术成果传播”专题研讨会会议通知

学术活动 | 第二期 林墨·科学家与科学数据研究趋势——2018科学计量与科技评价天府论坛学术沙龙纪要

学术活动 | 第一期 MIS Quarterly副主编、丹麦哥本哈根商学院陈致玮教授来我院作专题报告

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存