查看原文
其他

当期荐读 2020年第6期 | 突发公共卫生事件下社会化问答网站用户健康信息需求研究(内含视频摘要)

图书情报知识 图书情报知识 2021-03-13

     ISSN 1003-2797

     CN 42-1085/G2

     双月刊

     同行评审期刊



邓胜利   武 奕 

(武汉大学信息资源研究中心,武汉,430072)



目的/意义

社会化问答网站用户对突发公共卫生事件的态度与反应能够揭示用户健康信息需求的特征和演化规律。


研究设计/方法

以百度知道和知乎的问答数据为研究对象,构建突发公共卫生事件下社会化问答网站用户健康信息需求编码体系,通过多维尺度分析方法探究用户健康信息需求的构成;从时间维度揭示问答发布量和健康信息需求的变化规律;并从平台维度对比百度知道和知乎用户健康信息需求的差异。


结论/发现

最受社会化问答网站用户关注的需求是社会影响;突发公共卫生事件下社会化问答网站用户的独特性需求是传染性;突发公共卫生事件的发展可分为萌芽期、暴发期、平稳期和衰退期,在这四个时期内用户发帖数量与健康需求类型都产生一定变化;不同社会化问答网 站用户健康信息需求的分布以及对时间的敏感程度存在差异。


创新/价值

深入分析了突发公共卫生事件下社会化问答网站用户健康信息需求特征,对优化网站信息展示机制和信息资源组织方式具有一定参考价值。


关键词

健康信息需求 突发公共卫生事件 

社会化问答网站 百度知道 知乎


1 引言

当前,网络已成为人们获取健康信息的重要来源。美国皮尤研究中心的调查发现,大多数在线成年人对健康和医学话题(66%)表现出广泛兴趣[1]。据中国互联网络信息中心调查显示,2020年上半年,在线医疗健康的需求量不断增长,网络用户规模达2.76亿,占网民整体的29.4%[2]


社会化问答网站为用户健康信息交流提供了便利的途径,丰富的用户数据是众多学者研究的重点。目前,相关研究主要可分为三个方面:以用户为中心的研究,如用户属性[3]、信息需求[4]、参与动机[5]和影响因素[6]等;以信息为中心的研究,如信息主题特征[7]、信息质量评估[8]等;以平台服务为中心的研究,如优化平台信息服务[9]等。


在面对突发公共卫生事件时,用户的健康信息需求成为研究的一大热点。疫情暴发期间,大量信息通过互联网进行传播,拉动社交网络行业用户规模快速增长[10]。因此,本文以国内典型社会化问答网站百度知道和知乎为数据来源,研究网站用户对突发公共卫生事件的关注特征,通过识别与疾病相关的帖子中包含的健康主题,提取用户的健康信息需求,并揭示需求的分布与演化特征,从而更好地了解社会化问答网站用户对突发公共卫生事件的态度与反应。



2 用户健康信息需求的相关研究

2.1 社会化问答网站中的用户健康信息需求

社会化问答网站的数据常被用来研究人们日常生活中的信息需求[11],如分析网站中用户的健康信息需求类型。也有学者着眼于健康信息需求的差异,比较不同平台用户健康信息需求的差异。此外,用户信息需求随着时间的变化而变化,因此基于时间视角的需求演化分析也成为学者们关注的一大热点。表1列举了部分相关研究。


由表1可知,目前关于社会化问答网站中用户健康信息需求的研究选取的疾病主要以糖尿病等为代表的常见慢性病,以用户的行为数据为研究对象,探究其健康信息需求规律,研究内容从需求类别出发,探讨不同类型平台和疾病的用户信息需求特征,并在此基础上针对不同平台、不同人群或不同时间点进行对比研究。综合以往研究可发现,社会化问答网站的用户健康行为数据能够客观反映其健康信息需求,但现有健康信息需求大多集中于需求的静态特征,未能从时间演化角度对需求变化进行深度分析。


2.2 突发公共卫生事件中的用户健康信息需求

公共卫生事件暴发时,相关信息、媒体报道以及国家重大政策或文件的发布易引起广泛的公众关注,探索社交媒体在公共健康信息传播中的作用成为医学、信息学、健康传播领域研究的一大热点[20]。社交媒体上传染病相关的信息反映了公众的健康信息需求,有助于发现公众对于 突 发公共卫生事件的态度和看法[21]。目前已有一些学者针对突发公共卫生事件下用户的健康信息需求开展了研究,如表2所示。


综上,关于公共卫生事件中用户信息需求研究的主要特点是:对已暴发的某一公共卫生事件进行系统性回顾,从主题方面发现对公众造成的影响或从时间特征方面发现公众对于公共卫生事件的反应。但是,很少有研究从时间角度出发,探究社会化问答网站用户的公共卫生事件信息需求随时间的变化规律,而且很少考虑到用户的健康信息需求差异与平台差异的联系。因此,本文以国内典型社会化问答网站百度知道和知乎用户的问答数据为研究对象,分析用户对突发公共卫生事件的信息需求,关注不同平台用户健康信息需求的差异,探索社交问答网站用户健康信息需求的动态特征,并发现突发公共卫生事件信息需求相较于其他疾病信息需求的独特性。



3 研究设计

3.1 数据来源与采集

百度知道是国内最大的互动式知识问答平台,截至2019 年,百度知道已经解决累计5.5 亿的用 户提问,参与答题的用户累计超过1.8亿[27]。知乎是一个网络问答社区,用户能够围绕某一话题展开讨论,截至2019年,用户数已突破2.2亿,积累了超过1.3亿个回答[28]


当前,新型冠状病毒肺炎(COVID-19)已成为全球范围内的公共卫生事件,对人们的生活造成严重的影响。本文以社会化问答网站中COVID-19的相关问答为例,探讨疫情暴发以来网站用户的态度与反应,揭示突发公共卫生事件下社会化问答网站用户的健康信息需求特征。研究以百度知道和知乎的用户提问与回答为研究对象,2020年4月2日,利用爬虫以“新冠肺炎”“新型冠状病毒肺炎”“新型冠状病毒”“2019-nCov”和“COVID-19”为关键词搜索并收集了全部问答数据。对收集的数据进行筛查,去除与研究主题不符合的数据,最终获得百度知道的5,551条问答数据(包括1,552条提问、3,999条回答)和知乎的63,172条问答数据(包括3,681条提问、59,491条回答),内容包括问答详情和发布时间。


3.2 研究方法

多维尺度分析(MultidimensionalScaling, MDS)能有效保留和观察分析对象间的语义关系,形成和发现对象之间的主题模式,适用于揭示术语或关键词之间的多种语义关系[29]。MDS分析的结果通常由应力值(Stess)和拟合指数(RSQ)两个指标来衡量。一般来说,应力值越低,拟合指数越高,分析结果越好。


为揭示社会化问答网站中用户问答的潜在主题,通过识别文本的关键词及相应词频,利用关键词在文本中出现的次数构建“文本-关键词”矩阵,如式(1)


其中,Fi,j表示某个类,ωij表示词i在文本j中出现的次数,n表示关键词数,m表示文本 数。通过Fi,j矩阵及其转置矩阵计算关键词的余弦相似度,可得到n×n的关键词临近矩阵,作为多维尺度分析的关键数据集用于研究中。


3.3 编码方案

有研究指出,社会化问答网站用户的信息需求影响其提问和回答行为。考虑到社会化问答网站用户健康信息需求的特殊性,石静[30]等将健康信息需求划分为疾病相关与非疾病相关两个类别。疾病相关信息需求包括病因、症状、诊断与确诊、药物与治疗、预防等与疾病密切相关的需求,非疾病相关信息需求则包括用户的情感需求等方面。在公共卫生事件中,疾病带来的社会影响、政府与公众对疫情的反应[31]也是非疾病相关信息需求的研究热点。为了进一步简化分类,根据上述研究及社会化问答网站COVID-19问答的独特性,本文将病因、症状合并为 “病因与病理学”,用以衡量疾病成因与临床表 现,并增加 “传染性”与“公共政策”两个类 别,用以衡量疫情暴发造成的大范围影响和用户对相关政策的广泛讨论。最终的编码方案包括8种需求(如表3所示)。对文本的分类过程包括熟悉文本数据、制定初始编码、审查编码主题、形成编码结果四个步骤[32],每条数据都由研究人员检查。利用Cohenkappa 值量化评估数据集编码结果的 一致性,结果显示Cohenkappa 值为0.763(p<0.001),表明分类结果是可靠的[33]


3.4 文本处理

根据编码方案将收集的问答数据存储在8个文档中,分别进行文本处理: 

(1)通过Python的JieBa中文分词组件进行文本分词、去除停用词和标点符号等操作。 

(2)对分词结果进行检查,合并同义词,修正 拼写错误的词,去除无意义的词。 

(3)统计词频,根据词频G指数提取高频词[34],得到各类别文本的高频特征词。 

(4)构建“文本-特征词”矩阵,并计算余弦得到词汇临近矩阵[35]。 

(5)利用SPSS进行多维尺度分析。



4 结果分析

4.1 社会化问答网站的健康问答基本特征

根据中国政府网(http://www.gpv.cn/)的数据,本文统计了COVID-19确诊病例及社会化问答网站相关问答的发布情况(图1)。从问答发布时间来看,从疫情暴发至2020年2月中旬,确诊病例大幅增加,社会化问答网站的问答数量大幅增加,2月下旬确诊病例增幅趋于平稳,用户发帖量逐渐减少,表明疫情的发展情况对社会化问答网站用户的问答发布产生影响,网站中的问答也反映了用户对疫情的关注程度。然而,不同社会化问答网站用户的问答发布情况不同。知乎用户的问答发布数量波动较大并产生三个发帖峰值。结合确诊病例数可发现,三个峰值分别出现在疫情产生的前期及确诊病例大幅增加的时期。而百度知道发布问答的峰值时间跨度较短,且主要出现在疫情发生的前期。从问答数量来看,知乎问答数远高于百度知道,这可能与网站的特性有关,知乎用户更倾向于在网站中交流观点,社交性更强;而百度知道问答服务属性更强,用户以解决疑问为主要导向,因此问答数量相对较少。


按照健康信息需求编码分类体系对问答数据进行分类,并计算各类别所占比例(图2)。社会化问答网站用户关注最多的需求是“社会影响”,这是因为COVID-19的流行对人们的日常生活、出行等造成了巨大的影响。其次,用户关注的需求是“预防”,表明如何避免 感染疾病、寻求相应的预防措施与知识是社会化问答网站用户的重要需求。


通过对比发现,百度知道与知乎健康信息需求分布存在差异。百度知道“诊断”占比约为知乎的3倍,而知乎“治疗”占比约为百度知道的3倍,这可能与用户的发帖时间有关。此外,知乎用户情绪需求占比更多,表明知乎用户更倾向于表达自身情绪或寻求情感支持。


4.2 社会化问答网站用户健康信息需求类型

通过 SPSS进行 MDS分析,社会化问答网站用户健康信息需求分类结果及部分关键词如表4,百度知道和知乎用户的需求分别被划分为16和13个子类别,分别包括232和184个唯一性关键词,体现了用户多样的健康信息需求。在可视化分析中,通过余弦距离计算关键词临近矩阵用于MDS分析,度量方式为平方Euclidean和Minkowski 距离,各类别RSQ值均大于0.9,Stress值处于0.02-0.13,表明分析结果有效,可视化结果如图3、4所示。




经分析,发现不同社会化问答网站用户健康信息需求存在差异:从需求数量来看,百度知道用户的信息需求类别更为丰富,使用的关键词种类也更多,尤其是与疾病知识密切相关的“病因与病理学”“诊断”和“预防”,由此可见,百度知道的医疗科普与健康问答功能更受用户关注,用户需求种类更为丰富。从需求种类来看,百度知道和知乎的用户健康信息需求类别存在大量重合,但也相互补充。例如:在“病因与病理学”需求中,百度知道用户主要关注疾病的基本特性、传播方式和临床表现,而知乎用户则主要关注疾病基本特性和后果,表明用户多样的健康信息需求随着平台不同体现出一定差异。从需求时间来看,知乎用户需求的延续性更强。在“传染性”需求中,百度知道用户大多关注疾病前期国内疫情影响的地区与人群,而知乎用户除前期关注国内受疫情影响的情况外,还更多关注了世界各国受疫情影响的程度。


4.3 社会化问答网站用户健康信息需求的演变

为查看收集的数据期间内用户健康信息需求的分布,本文从全部数据的第一条发布时间(2020年1月2日)开始,以每7天为一个周期统计发帖情况(图5)。按照问答记录的发布以及用户需求在13个发帖周期的变化情况,将相关帖子的发布划分为四个时期(表5),对百度知道(x2=894.757,df=21,p<0.001)和知乎(x2=1892.144,df=14,p<0.001)不同时期健康信息类别分布分别进行独立性检验,发现不同时期用户健康信息需求存在显著差异。



社会化问答网站用户的健康信息需求分布随时间推移产生变化(图6、7),不同时期不同类别的健康信息需求占比不同,反映了需求的动态性。值得关注的是,“社会影响”需求从暴发期后占比逐渐下降,这可能是因为随着疫情得到有效控制,疫情对人们的影响力逐渐降低。此外,百度知道用户需求的变化更为明显,而知乎不同时期需求分布较为稳定,这可能是因为知乎社交属性更强,用户需求相对稳定,而百度知道用户对问答的参与率较低,需求主题波动更明显。



社会化问答网站用户健康信息需求的分布在不同时期存在差异(表6)。用户信息需求在暴发期种类最为丰富,平稳期和衰退期需求逐渐减少,如百度知道“C1.3”仅出现在暴发期,知乎“C1.1”仅出现在萌芽期和暴发期等。值得关注的是,“公众情绪”类别的“V6.2对疫情的恐惧与担忧”在衰退期并未产生,反映了国内疫情控制已见成效,用户消极表达减少。


5 讨论

社会化问答网站为公众提供了一个在线交流的平台,用户在问答交互中提出并解决信息需求。本文以COVID-19为例,探讨了在公共卫生事件中社会化问答网站用户的健康信息需求以及需求演化特征。


5.1 公共卫生事件情境下的社会化问答网站用户健康信息需求特征

(1)社会化问答网站用户健康信息需求类型多样、跨度广泛

从需求跨度来看,社会化问答网站用户的健康信息需求可分为疾病相关和非疾病相关需求。一方面,社会化问答网站用户对疾病相关知识有学习和了解的需求;另一方面,突发公共卫生事件对人们日常生活造成一定影响,社会化问答网站作为一个公共知识平台,为用户解答疑惑提供了一个方便的渠道。从需求主题来看,包括病因与病理学、诊断、预防、治疗、传染性、公众情绪、社会影响和公共政策8个类 别。不同类别需求进一步被细分为1-3个子类别,体现了用户健康信息需求的多样性。


(2)社会化问答网站用户对不同类型健康信息需求的关注程度不同

社会化问答网站用户关注最多的需求类型是社会影响,与Zhang[36]的研究结果一致。突发公共卫生事件多是传染性疾病,疾病的流行对人们的日常生活造成了很大影响。对预防的需求位于第二位,这与疾病自身特征以及疫情仍在扩散有关,了解相关知识并采取有效的措施至关重要,社会化问答网站用户期望能够通过网站获取有效的信息来达到疾病预防的目的。较少被关注的需求是公众情绪和诊断,原 因可能是疫情的有效防控减少了公众对疾病的担忧与恐慌,减轻了用户对自身是否患病的疑惑。


(3)社会化问答网站用户的核心需求表现为社会影响需求

在突发公共卫生事件情境下,社会化问答网站用户的社会影响需求十分显著,Fu等人的研究也表明公众对寨卡病毒的关注点主要集中在社会影响[37]。这与疾病自身特征有关,疫情的大范围扩散对人们生活、出行、企业生产等各方面均带来严重影响。因此相 对于其他疾病相关的需求,社会影响得到了社会化问答网站用户更多的关注。


(4)社会化问答网站用户的独特性需求表现为传染性需求

与以往研究不同的是,本文将传染性需求列入了公共卫生事件情境下社会化问答网站用户的健康信息需求体系中。从传染性需求相关的关键词来看,社会化问答网站用户多次询问疾病确诊的病例数、死亡的人数、受疾病影响的地区等,由于病毒的可传播性,其传播范围、感染地区以及疾病的确诊人数反映了疾病的扩散程度以及疫情的控制情况,因此引起了广泛关注。


5.2 不同时期社会化问答网站用户健康信息需求的演化

(1)社会化问答网站用户的健康信息需求量随时间推移变化明显

公共卫生事件中用户信息需求有较强的时间敏感性[38]。研究发现,突发公共卫生事件情境下社会化问答网站用户的健康信息需求与疾病发展情况及其对社会的影响密切相关[39],同时用户的健康信息需求也反映了疫情的发展程度。根据用户发帖量和需求类型的变化,可将疫情发展分为萌芽期、暴发期、平稳期和衰退期四个阶段。在萌芽期,用户的发帖量和健康需求种类均较少;在暴发期,用户发帖量呈暴发式增长,健康信息需求大量产生;在平稳期,用户的健康信息需求将逐渐回落,呈现一个较为稳定的状态;在衰退期,用户对疾病的关注持续减弱,健康信息需求逐渐减少直至消失。


 (2)社会化问答网站用户的健康信息需求随着时间推移趋于集中

社会化问答网站用户健康信息需求集中于特定的几个方面[40]。用户的健康信息需求集中在社会影响及预防,这与疾病的传染性强、传染范围广、扩散速度快等特征有关。本文研究发现,随着时间推移,健康信息需求的集中性也体现在某一类需求的具体类别上,在衰退期,病因与病理学、诊断、预防、公众情绪和公共政策都集中于某一具体的需求分类。


5.3 不同社会化问答网站用户健康信息需求对比

(1)不同社会化问答网站用户对突发公共卫生事件的时间敏感程度不同

从社会化问答网站用户的反应时间来看,百度知道用户对时间的敏感程度更高。本文研究发现,百度知道用户最先在网站中发帖,而知乎中相关帖子的发布较百度知道晚。从需求分布随时间推移的变化情况来看,百度知道用户的发帖量随萌芽期、暴发期、平稳期和衰退期四个需求发布时期变化更快,对时间的敏感程度更高。而知乎中相关帖子的发布和需求发布时期推移均明显晚于百度知道,但每个需求时期的持续时间更长。 


(2)不同社会化问答网站健康信息需求分布存在差异

百度知道健康信息需求主题类别更为丰富,用户倾向于表达客观的信息需求,寻求更为实用的健康信息。知乎的健康信息需求量更大,用户更愿意表现自身的情绪。本文研究发现,百度知道的病因与病理学、诊断和预防的细分需求描述均多于知乎,用户的健康信息需求更为多样化,网站的问答属性更强。而知乎中含有情绪特征的帖子数量更多,表明知乎用户更倾向描述自身的情感变化或寻求情感支持,体现了知乎的问答属性和社交属性。



6 结语

本文以国内典型社会化问答网站百度知道和知乎为例,揭示了社会化问答网站用户对突发公共卫生事件的关注情况。研究发现用户的问答数量在不同时期波动很大,与疫情演变的各个环节密切相关。因此,本文以近期暴发的COVID-19为 例,对用户问答数据进行分析,揭示了用户的真实信息需求,为了解突发公共卫生事件下社会化问答网站用户健康信息需求特征及演化规律提供了理论支持。社会化问答网站能够应用本文研究结果,改善相关疾病的信息资源组织方式,优化健康信息展示机制,从而提升网站健康信息服务水平。 


本文存在一些不足。由于疫情暴发时段的特点,研究数据的时间范围相对较窄,难以对不同社会化问答网站的健康信息需求类别演化及分布进行比较;两个社会化问答网站用户问答数量存在差异,在进行比较时可能产生偏差。后续研究可继续扩大时间范围,选取更大的数据样本以更精确地揭示社会化问答网站用户健康信息需求演化规律。



作者贡献说明

邓胜利:研究命题及思路制定,指导论文修改及文字修订。 

武奕:研究设计,数据收集与分析,论文撰写及修改。


支撑数据

支撑数据由作者自存储,

Email:1079568172@qq.com。

1 武奕.MDS.zip.多维尺度分析及分类结果.

2 武奕.不同时期记录.zip.不同时期健康信息需求分布.


参考文献


*本文原载于《图书情报知识》2020年第6期15-26

版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。

制版编辑 | 卢慧质


--END--


当期荐读 2020年第6期 | 基于视觉注意力的图像情感研究框架(内含视频摘要)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十三)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十四)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十五)

当期荐读 2020年第5期 | 学术共同体共谋:特邀学者笔谈(十六)


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存