查看原文
其他

魏顺平 | 基于开源大数据的领域画像方法及其应用

魏顺平 现代教育技术杂志 2024-02-05


摘要:当前,人们在大数据积累、数据技术储备、数据思维转变、数据素养习得等方面已有所准备,利用大数据回答问题、构建某领域全景画像已成为日常。在此基础上,文章提出了基于开源大数据的领域画像方法,其应用要经历数据采集、数据分析、数据可视化等三个环节。之后,文章将此方法应用于“中国教育”这一领域画像的构建,即从教育系统内部、外部两个视角梳理教育属性,将中国教育的属性分为学校、教师、学生、课程、过程、结果、投入、政策、研究、新闻、社会等11类,在此基础上设计了中国教育画像框架。最后,文章结合数据安全分析,针对教育数据的开发与利用提出相关建议。当前我国正处在建设高质量教育体系的关键时期,应用基于开源大数据的领域画像方法构建中国教育的宏大画像,对于认识我国教育事业概况及最新进展从而推动高质量教育体系建设具有重要意义,文章提出的方法可在教育领域纵深应用,成为监测高质量教育体系建设的重要抓手。

关键词:开源大数据;领域画像;教育属性;数据安全


一 研究背景

2011年2月,Science杂志推出专刊Dealing with Data,围绕科学研究中大数据的相关问题展开讨论,说明了大数据的重要性,自此“大数据”(Big Data)一词开始进入大众的视野[1]。通过搜索百度指数,可以看出:2011年底、2012年初“大数据”开始得到人们的关注,2015年8月达到一个小高峰,2017年3月达到最高峰。


在我国,“大数据”概念及其技术推广应用已有10余年。通过查询北大法宝网、国家图书馆馆藏目录、中国知网、天眼查、中国大学生在线等网站可知,在这10余年间我国政府出台了大量政策、高校及科研院所开展了大量研究和人才培养工作、大数据技术公司相继成立、新闻媒体纷纷报道,具体表现为:①各级政府大力推进大数据事业。截止到2021年底,政府出台大数据相关政策(即政策标题中有“大数据”一词)达1530份,含中央政策97份、地方政策1433份。②科研院所开展广泛而深入的研究。具体来说,研究专著方面,截止到2021年底,已累计出版3177部大数据相关书籍(书名中有“大数据”一词);研究论文方面,自2012年开始有一定数量的论文发表(文章名中有“大数据”一词),随后持续增加,累计发表论文91030篇;专业设置方面,高校大力开展大数据人才培养,截止到2021年,已有640余所高校开设“数据科学与大数据技术”专业、120余所高校开设“大数据管理与应用”专业。③企业大力推进大数据产业发展,提供大数据技术服务、以大数据命名的公司持续增加。截止到2021底,累计成立的大数据公司有14750家。④各类媒体对大数据进行报道宣传,普及大数据知识、强化大数据意识。在纸质媒体方面,自2012年开始对大数据有一定数量的报道(标题中包含“大数据”一词),随后不断上升,在2015达到一个高峰,截止到2021年底,已累计报道2267篇。


综上可知,由于政府大力推动、科研院所深入研究、企业积极参与、媒体广泛宣传,人们在数据积累、技术储备、思维转变、素养习得等方面都做好了准备,利用大数据回答问题、构建某领域全景画像已成为日常。教育大数据的应用与发展已经起步,并正逐步进入快速发展阶段[2]。在大数据时代,我们每个人都有可能通过开源大数据去构建我国的教育画像、了解我国的教育体系并关心这个体系的发展和变化,这就需要一套行之有效的方法来利用开源大数据。


二 基于开源大数据的领域画像方法

开源大数据是指那些可以通过互联网开放访问的大数据,是领域画像的基础。基于开源大数据的领域画像方法在应用时通常要经历数据采集、数据分析、数据可视化三个环节。


1 开源大数据介绍

党的十八大报告指出,建设中国特色社会主义,总体布局是五位一体[4]。“五位一体”总体布局是指经济建设、政治建设、文化建设、社会建设、生态文明建设等五大方面全面推进。五个领域涵盖了我国社会主义事业的主要内容,故可对开源大数据所属的领域进行划分。本文所用数据未涉及到生态文明建设领域,故没有列出这一领域对应的大数据。另外,存在综合各领域的统计类数据。针对具体领域需列出该领域的专题大数据,这里列出了部分教育领域的专题大数据。一些常用的开源大数据如表1所示。


表1  开源大数据(部分)


2 领域画像方法

(1)数据采集

教育数据的多样性,自然带来了数据采集方法的多样性。杨现民等[4从技术的角度,将采集方法分为物联感知技术、视频录制技术、图像识别技术、平台采集技术等四类,这四类技术实质上都是在生产数据。在实际工作中,人们在研究某一问题时往往会优先关注是否有现成的数据,若有现成的数据就可以直接备份数据或爬取数据,若没有再去考虑生产数据。生产数据又可以分为两种采集情形,一种是被采集对象并不知晓自己的数据正在被采集,可命名为“伴随性采集”;另一种是被采集对象知晓自己的数据正在被采集,可命名为“反应性采集”。


(2)数据分析

数据分析是为了提取有用信息、形成结论,进而对数据加以详细研究并概括总结的过程[5]。数据分析过程离不开一系列高效、智能的关键技术作支撑,包括互联网心跳数据获取技术、人工智能算法技术、数据透明可溯技术、多维一键对比技术等[6]。针对大数据的容量大、多样性、价值低、速度快等特点,提出以下处理方法:①在分析方法和工具方面,针对数据量巨大的特点,可以采用分布式存储和计算方法,相应的工具有Hadoop、Spark、数据仓库和各类商用大数据服务平台;②针对结构化数据、半结构化数据和非结构化数据并存的特点,可以采用词语切分、信息抽取等方法,相应的工具有各类自然语言处理工具,如北京理工大学NLPIR汉语分词系统、哈尔滨工业大学语言技术平台(LTP)等;③针对数据价值密度低的特点,可以采用聚类、关联规则、决策树等数据挖掘方法,相应的工具有SQL Server Analysis Service(SSAS)、Weka、SPSS等;④针对数据产生与处理加速的特点,可以采用信息自动抓取的方法,相应的工具有各类网络爬虫软件,如后羿采集器、火车头采集器等。


(3)数据可视化

数据可视化能够将教育数据通过图形或图形格式的方式进行呈现,以帮助用户快速理解并掌握有价值的信息,具体包括统计数据可视化、关系数据可视化、时间序列数据可视化、文本数据可视化等[7]。一般来说,可视化图表包含坐标、标尺、视觉暗示和背景信息等组件。无论是传统的可视化工具(如Excel),还是网络可视化工具(如百度图表ECharts),都能给研究者提供多种可视化形式。面对如此众多的可视化形式,研究者需要根据手头数据之间的关系加以选择——主要的数据关系有频次分布、总体构成、分类比较、关联关系四种。其中,柱形图、折线图等适用于展现频次分布,饼图、百分比柱形图等适用于展现总体构成,簇状柱形图、雷达图、地理信息图等适用于展现分类比较,而散点图、正负条形图等适用于展现关联关系。


三 中国教育画像构建

教育是最大的民生工程。党的十九大报告指出要“提高保障和改善民生水平,加强和创新社会治理”,其中的第一项工作就是“优先发展教育事业”[8]。基于此,本研究拟将“基于开源大数据的领域画像方法”应用于“中国教育”这一领域画像的构建,力求从教育系统内部和更大的社会系统视角快速、准确地刻画教育现状,以回应社会对教育发展的关切。


1 教育属性梳理

首先,对“中国教育”这一领域画像的时间和空间做个限定:时间主要截止到2020年底,这样便于获取更全面的数据;空间主要限定在中国大陆地区。之后,要设法穷尽“教育”的各种属性,如教育对象、教育内容、教育过程、教育结果等,以及教育经济、教育政策、教育研究、教育新闻等——这些教育属性虽然短语结构类似,但语义却不同:前者如教育对象、教育内容等是从教育系统内部看教育的属性,短语中的“教育”是一个动词,从句法上来说是一个谓语,围绕这一谓语可以有主格、宾格、时间格、处所格、方法格、工具格、结果格等[9],其格框架(即采用格语法进行语言分析的结果表示方式。)如图1所示;后者如教育经济、教育政策等是从教育系统外部看教育的属性,短语中的“教育”是一个名词,从句法上来说是一个宾语。

图1  教育的格框架


教育自身是一个大的体系,同时它也是更大体系的一个子集,“五位一体”视角下的教育如图2所示。从中国特色社会主义建设的各个方面看教育,可以看到:①站在经济建设领域的视角看,教育需要大量的经费投入和支出。围绕教育,有大量的市场主体提供服务,而教育机构也有相关的采购需求。②站在政治建设领域的视角看,教育系统每年会出台大量文件,也会发生很多法律纠纷,处理很多案件。③站在文化建设领域的视角看,教育系统每年会出版大量著作、发表大量文章、产生大量新闻。④站在社会建设领域的视角看,每一个社会个体都非常关心教育的发展。⑤站在生态文明建设领域的视角看,生态文明建设关键在人,关键在教育,把生态文明教育融入育人全过程。这方面可利用的数据较少,后文将不展开论述。


图2  “五位一体”视角下的教育


2 中国教育画像框架设计

综合前文教育属性的分析,本研究将中国教育的属性分为学校、教师、学生、课程资源、过程等11类,并分属性采集、分析数据,构建中国教育画像,其框架如图3所示。这11类属性中,学校、教师、学生、课程可归为教育要素,过程和结果可归为教育过程。


  图3  中国教育画像框架


(1)教育要素情况

教育要素主要包含学校、教师、学生、课程等。目前,我国已建成学校、教师、学生三大教育基础数据库,实现所有学校“一校一码”、师生“一人一号”[10]。截止到2020年底,全国共有各级各类学校53.71万所,各级各类学历教育在校生2.89亿人,专任教师1792.97万人[11]。这些数据库对应的信息系统是教育管理公共服务平台,此平台包含全国学前教育管理信息系统、全国中小学生学籍信息管理系统、全国中等职业学校学生管理信息系统、全国教师管理信息系统等子系统[12]


事实上,我国在各级各类教育领域都建设了丰富的课程资源。2020年12月,在北京召开的世界慕课大会上,教育部原部长陈宝生指出,上线慕课数量超过3.4万门,中国慕课数量和应用规模已居世界第一。截至2020年底,在农村教学点实施的数字教育资源全覆盖项目已整合开发英语、音乐、美术等学科数字资源6948学时,与基础教育阶段所有学科教材配套的资源达5000万条;建成203个国家级职业教育资源库,认定1291门国家精品在线开放课程和401个国家虚拟仿真实验教学项目[13]。这些资源和课程主要在国家教育资源公共服务平台、爱课程、学堂在线、智慧树、智慧职教平台、iLAB-X实验空间等平台存储,可以查询并使用。


(2)教育过程情况

教育过程包括实施过程和教育结果。其中,过程数据是指师生在教学、管理各环节中产生的活动数据。2020年疫情期间,我国通过信息化软硬件平台有效支撑了近3亿师生的在线教学,其中国家中小学网络云平台累计访问19.5亿人次;免费开放职业教育资源库420个,建设优化在线课程22万余门,形成教学班62万余个,参与学生3156万余人次;全国1454所高校的103万教师开出1226万门次在线课程,参与课程学习的学生23亿人次[14]。这些过程数据被国家教育资源公共服务平台、爱课程、学堂在线、智慧树、智慧职教平台、iLAB-X实验空间等平台记录。结果数据是指学生的考试分数、学分、各类证书等。根据教育部发布的统计数据,截止到2020年底,我国高等教育各类毕业生有1389万人。毕业生数据属于结果数据的一种,其它形式的结果数据有国家级考试分数、平时考试分数、所获学分和各类证书等,这些数据被存储在中国教育考试网、中国高等教育学生信息网、中国基础教育质量监测协同创新中心、职业教育国家学分银行信息平台等平台数据库中。


(3)教育投入情况

在经费投入方面,2020年全国教育经费总投入为53014亿元,比上年增长5.65%;其中,国家财政性教育经费为42891亿元,比上年增长7.10%[15],这些经费投入主要用于支付教职工工资。2020年,义务教育经费为2.24万亿,占财政性教育经费的52.3%,其中用于教职工工资福利占比为63.9%。除了教职工工资,其它经费多用于采购,且一般采用政府采购的方式。


政府采购,是指各级国家机关、事业单位和团体组织,使用财政性资金采购依法制定的集中采购目录以内或限额标准以上的货物、工程和服务的行为[16]。2000年,财政部创办“中国政府采购网”,在全国范围内建立起统一、规范的政府采购信息发布渠道。为了解我国教育采购情况,本研究以“中国政府采购网”为数据检索来源,首先检索了标题中含有“小学”“中学”“学院”“大学”等关键词的中标公告,公告发布时间限定在2020年全年,得到45000余条采购记录。之后,利用网络爬虫工具,本研究采集检索结果并进行汇总,将结果数据分为基础教育学校(小学+中学)中标公告和高等教育学校(大学+学院)中标公告两大类。最后,本研究对中标公告标题进行中文分词,剔除停用词并统计词频,选取排名前100的高频词绘制成云图,以了解当前基础教育学校和高等教育学校的主要采购用途,具体如图4、图5所示。可以看出:中、小学的采购主要用于教学楼、教室、食堂、运动场等工程建设项目,而高校的采购主要用于图书馆、实验室、实训室等工程建设项目。

图4  基础教育学校的主要采购用途


图5  高等教育学校的主要采购用途


(4)教育政策情况

政治层面的大数据主要涉及政策和法律。我国作为一个教育大国,需要通过政策的逐级执行来落实教育方针、政策,本研究主要通过“北大法宝”来查询教育政策数据。“北大法宝”收录了1949年至今的法律法规,截止到2021年底,共收录中央法规规章39万篇、地方法规规章253万篇。自新中国成立以来,截止到2021年底,我国各级政府出台教育法规规章157921篇(标题中含有“教育”一词),其中由中央政府及部委出台的政策法规共有15260篇。“北大法宝”的相关数据统计显示,近10年(2012-2021)出台的中央教育法规数量呈下降态势,这体现了党的十八大以来大幅精简会议和文件以切实为基层减负的精神得到有力贯彻;地方政府出台教育法规规章的差异较大,出台教育法规规章最多的是安徽省(10597篇),而最少的是西藏自治区(269篇)。


法律的执行过程被完整记录下来形成了裁判文书。我国校园并不平静,各类案件时有发生,这些案件可通过中国裁判文书网查询。2016年10月1日,《最高人民法院关于人民法院在互联网公布裁判文书的规定》正式实施。该司法解释明确,最高法院在互联网设立中国裁判文书网,统一公布各级人民法院的生效裁判文书[17]。截至2021年底,中国裁判文书网文书总量达13亿篇,访问总量817亿次;搜索标题包含“大学”一词的文书,共得到74922篇,其中人身损害赔偿案件5200起、精神损害案件4940起,过去10年(2012年至2021年)文书数量呈逐年上升态势。


(5)教育研究情况

围绕教育,教育工作者们纷纷开展研究。当前,我国教育研究成果主要分为两类:①著作类,可通过国家图书馆馆藏目录检索我国出版的教育教学相关书籍。根据《出版管理条例》(中华人民共和国国务院令第732号),出版单位应当按照国家有关规定向国家图书馆、中国版本图书馆和国务院出版行政主管部门免费送交样本[18]。这就意味着国家图书馆收藏了我国出版的所有出版物,而国家图书馆馆藏目录http://opac.nlc.cn/)是我国出版物元数据的大数据库。在国家图书馆馆藏目录页面检索“学校”“教育”“教师”“学生”“课程”“教学”,共得到338813部相关著作(检索时间设为2022年3月5日),其中2020年出版了6351部。对2020年出版的著作标题进行词频分析、绘制云图,得到著作标题云图(如图6所示),可以看出:教师、大学生、课程等成为主要关注对象,“劳动教育”成为关注热点。②论文类,可通过中国知网学术期刊库查找。查阅中国知网学术期刊库首页,中国知网学术期刊库收录中文学术期刊8540余种。而根据新闻出版署于2020年公布的数据,我国有期刊10266种。这就意味着中国知网学术期刊库收录了全国83.19%的期刊,未收录部分大多为非学术期刊。通过限定文献分类,可以查找到教育教学研究的相关论文,共得到4464133篇论文(检索时间设为2022年3月5日),其中2020年发表了论文247724篇。发表论文的机构主要是师范类院校,如北京师范大学、华东师范大学等,这些部属师范高校是我国教育教学研究的重镇。


图6  著作标题云图


(6)新闻、社会关注情况

教育是老百姓日常生活最为关注的事情之一,可通过新闻报道、百度指数、论坛发帖等途径获得相关教育信息:①新闻媒体。教育行业新闻可从鹰眼速读网查询。鹰眼速读网综合运用搜索引擎技术、文本处理技术、自然语言处理和分析等技术,自动获取并分析互联网海量信息,日采集各类新闻数据过亿条。以“双减”政策为例:2021年7月24日,中共中央办公厅、国务院办公厅印发《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》,要求各地区各部门结合实际认真贯彻落实[19];7月26日,新闻舆情达到一个小高峰,新闻量达4.1万篇;8月30日,教育部召开2021教育金秋系列第三场新闻发布会,介绍秋季学期中小学教育教学工作及“双减”“五项管理”督导的有关情况,至此舆情达到顶峰,当日产生了9.5万篇新闻。②百度指数。百度指数是以百度海量网民行为数据为基础的数据分享平台,有助于研究者分析关键词搜索趋势、洞察网民需求变化、监测媒体舆情趋势、定位数字消费者特征;同时,可以从行业的角度分析市场特点。以“小升初”为例:作为老百姓普遍关注的一个话题,通过百度指数检索“小升初”,可以发现这一话题呈现出周期性特点——从全国来看,每年的6月中旬是关注“小升初”的高峰期;从地域来看,北京市民对“小升初”的关注热度最高。③论坛发帖。虽然现在已有微信朋友圈、微博等社交平台,但是论坛作为一种用户参与度高的社交工具,其应用也很广泛。一些热度较高的论坛有百度贴吧、天涯社区、搜狐社区、猫扑大杂烩、水木清华、开心网、新浪论坛、QQ论坛、网易论坛、新华网论坛、家长帮等,其中“家长帮”(http://www.jzb.com/)是针对家长的教育信息与资源共享平台,致力于为家长提供实用的信息服务与便利的交流社区。以“家长帮”为例:截止到2021年底,帖子总数1244万,用户总数3044万。进入“家长帮”,选择“北京站”,进入“小升初”,爬取得到2020年发表的帖子8550个,之后对这些帖子进行词频分析,绘制云图,得到“家长帮”发帖高频词云图,如图7所示。图7显示,对“小升初”讨论最多的是海淀区;“小升初”关注一些知名中学;论坛帖子中常见一些暗语,如“八素”指北京八中素质班、“神测”指进入北京八中素质班需参加神经元测试、拿到“票”意指被某重点中学录取等。通过抓取论坛发帖、分析发帖内容,可以更全面、深入地了解老百姓对教育的关注点。

图7  “家长帮”发帖高频词云图


四 总结与建议

本研究基于开源大数据,从教育系统内、外两个视角对相关数据进行采集、分析并予以可视化呈现,形成了有关“中国教育”这一领域的宏大画像:我国教育体量庞大,涉及十万级学校、百万级教育服务企业、千万级教师以及亿级学生、每年千万级高校毕业生,是名副其实的教育大国;我国各级各类教育课程资源丰富,慕课、专业资源库、虚拟仿真实验资源、学科教材配套资源等形式多样并广泛覆盖各专业、各学科,上线慕课数量位居世界第一,在课程资源建设方面走在了世界的前列;我国教育资金投入巨大,各级政府教育政策密集出台,教育工作者积极开展研究并年产出数十万篇研究成果,社会公众对教育事业密切关注,生态文明教育正在融入育人全过程,我国教育在国家“五位一体”总体布局中整体推进。


教育大数据的易获取性,滋生了一系列新的信息安全和伦理问题,加强教育大数据的隐私保护迫在眉睫[20],这就需要政府、学校、企业等综合运用多种技术手段来对数据的流转过程进行监测、管控与维护,并及时针对过程中的风险或问题主动采取相应的保护措施,以确保全局数据的安全运营[21]。2021年,我国相继出台《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》,标志着我国以数据安全保障数据的开发、利用和产业发展全面进入法治化。可以预见,在不久的将来,在法律的规范和保障下,各行各业的开源大数据会越来越多,由此衍生出的数据分析工具、数据服务应用也会越来越多。对此,我们要积极适应大数据时代,在思维上实现“从随机抽样向采集全部样本的转变、从追求精确向掌握大体方向的转变、从寻找因果关系向寻找相关关系的转变”[22],不断增强数据利用意识并提升相关的知识和技能。具体到教育工作者,应在处理教育数据时遵守各项法律要求,并重点注意:①收集数据时遵循“最小够用”原则,不得超出职能范围收集数据;②存储数据时遵循“最短周期”原则,应根据业务周期确定数据存储期限,超过期限的数据应进行归档或销毁;③使用、分析数据时遵循“最小必要”原则,明确数据的录入、查看、修改、删除等权限;④开放共享数据时遵循“用而不存”原则,通过接口的方式共享数据。期待政府、学校、企业等主体通力合作,在保障数据安全的前提下促进教育数据的开发与利用,激发开源大数据的无限潜能。


参考文献

[1]许晓东,王锦华,卞良,等.高等教育的数据治理研究[J].高等工程教育研究,2015,(5):25-30.

[2]王怀波,李冀红,孙洪涛,等.基于模型的教育大数据应用框架设计[J].现代教育技术,2020,(6):5-12.

[3]胡锦涛.坚定不移沿着中国特色社会主义道路前进 为全面建成小康社会而奋斗[N]. 人民日报,2012-11-18(1).

[4]杨现民,田雪松.互联网+教育:中国基础教育大数据[M].北京:电子工业出版社,2016:69.

[5]熊余,储雯,蔡婷,等.高校教育大数据应用支撑体系的设计与实践[J].现代教育技术,2020,(11):91-97.

[6]范炀,茆瀚月,李超,等.面向区域教育治理的智能化大数据平台研究[J].现代教育技术,2021,(9):63-70.

[7][21]胡翰林,沈书生.基于中台技术的教育大数据应用研究[J].现代教育技术,2021,(9):78-86.

[8]习近平.决胜全面建成小康社会 夺取新时代中国特色社会主义伟大胜利[N]. 人民日报,2017-10-28(1).

[9]鲁川,林杏光.现代汉语语法的格关系[J].汉语学习,1989,(5):11-15.

[10][13][14]教育部.教育2020收官系列新闻发布会 第一场:介绍“十三五”期间国家教育改革发展、教师队伍建设、教育经费投入与使用、信息化建设情况[OL].

[11]教育部.2020年全国教育事业发展统计公报[OL].

[12]中国教育报.三部门要求加快推进教育管理公共服务平台建设[OL].

[15]欧媚.2020年全国教育经费执行情况统计快报发布 全国教育经费总投入超5.3万亿元[J].中小学电教,2021,(5):56.

[16]全国人民代表大会常务委员会.中华人民共和国政府采购法[N].中国财经报,2002-7-2(6).

[17]最高人民法院.关于人民法院在互联网公布裁判文书的规定[N].人民法院报,2016-8-31(3).

[18]国务院.出版管理条例[N].中国新闻出版报,2011-3-21(2).

[19]中共中央办公厅 国务院办公厅. 《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》[OL].

[20]吴砥,饶景阳,吴晨.教育大数据标准体系研究[J].开放教育研究,2020,(2):75-82.

[22](英)维克多·迈尔-舍恩伯格,肯尼恩·库克著.盛扬燕,周涛译.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013:17-19.


继续滑动看下一个

魏顺平 | 基于开源大数据的领域画像方法及其应用

魏顺平 现代教育技术杂志
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存