查看原文
其他

数据资源丨开放中的行政大数据——国际篇

兔饼 数据Seminar 2021-06-03




#01

行政大数据是什么

在大数据时代,我们身边充斥着各种各样的数据资源,随手一搜索就会有各种数据搜集平台、数据共享平台。而在这所有的数据资源中,使用最为频繁也最具权威性的当属行政部门发布的统计数据了。

本文将要讨论的行政大数据并非指各类行政部门通过统计口发布的统计数据,而是指政府行政部门为实现管理、监督和服务等目的而收集和保存的关于自然人或其他社会实体的相关微观信息,包括但不限于在办证、登记、医疗、保险、教育、税收等过程产生的各种记录。




#02

行政大数据的优与劣

从行政大数据的定义我们不难看出行政数据是由政府收集、整理和发布的,政府等同于“官方”,这在一定程度上保证了数据的权威性和可靠性。

相比其他数据而言,行政大数据确实具有独特的优势,例如其拥有固定的纵贯数据结构、大量的观测值、更深的地区覆盖率和更高的质量等等。
然而,拥有种种优势的行政大数据却有着最致命的缺点,那就其开放程度是最低的。很大一部分的商业数据付费便可获取,俗话有说:“能用钱解决的都不是事”,而行政大数据则是付费都没渠道获取的,因为会涉及到各种法律法规的限制。从某种程度上也增加了行政大数据的稀缺程度。
幸运的是,随着观念的转变和对大数据开发价值的认知越来越被接受,行政大数据可得性差的问题正在逐渐被改善。越来越多的国家对其行政数据制定了开放的政策和措施,使得行政大数据不再是“看得见但摸不着”的东西了。
本文接下里将介绍下目前国际上行政大数据的开放情况。




#03

国际行政大数据的开放

在社会各方都普遍强调信息的开放和共享的背景下,各个国家都在一定程度上进行了行政大数据的试探性开放。从数据开放程度上看,美国、英国、澳大利亚、加拿大等欧美国家的开放程度名列前茅他们也出台了很多政策和战略规划,以便在扩大行政大数据开放的情况下,同时保证着信息的安全与个人隐私不受侵犯。

历年全球开放数据指数排名

(OPEN KNOWLEDGE FOUNDATION)

历年全球数据开放晴雨表排名
(World Wide Web Foundation)
一些研究全球数据开放程度的网站可以找到各个国家数据开放程度的排名。例如,在2016年全球开放数据指数(OPEN KNOWLEDGE FOUNDATION)中大利亚和英国的数据开放程度排名第二;在2018年全球数据开放晴雨表(World Wide Web Foundation)中英国和加拿大的数据开放排名并列第一
在下表中,我们大致梳理了部分国家的行政数据开放措施:

在这里,我们分享其中三个行政大数据开放网站:



J-PAL

https://www.povertyactionlab.org/admindatacatalog
J-PAL目前公开了美国的46个行政数据集,主要包含教育、卫生、劳动力市场、财务、犯罪方面的数据。
其中,每一个数据集都有相应的介绍,可以了解数据的详细信息。其微观数据的单位,更新频率,时间跨度,以及是否需付费。也会详细说明申请的条件,同时会简单介绍一下数据的具体内容,以及部分的变量。



data.govt.nz

https://data.govt.nz/
data.govt.nz是新西兰政府官方的行政数据开放网站,从其数据介绍的部分可以看出其数据集的数量十分多,也有分类目录,涉及的类别也是很丰富的,包括土地、健康、环境、教育等
在数据集目录中可以看到每个分类中拥有的数据集数量,以及能下载的数据格式。内容十分丰富。



data.gouv.fr

https://www.data.gouv.fr/fr/
data.gouv.fr是法国官方的公共数据开放平台。其数据类别包括:农业、文化、经济、教育、环境、健康等等
页面下方有较热门的数据集和最新数据集的列表,可以直接点选。
详情页面中,有介绍数据库的详细情况,而最关键的是其在资源处就可以下载数据集。




#04

行政大数据开放还在路上

观察这几个网站时我们发现,公开的数据集的类别都较为相似,教育、健康、经济等社会普遍关注问题都有较多的数据集。

同时,这些网站的受众人群普遍偏向学者或研究者,例如在J-PAL的数据集详情介绍中就会有是否需要付费或者需与该机构有合作项目。
在不久的将来,行政大数据的开放将首先有利于公益性质的科学研究,科学研究反过来能给政策决策提供更可靠的依据。期待未来各国的行政大数据越来越开放!






►一周热文

软件应用丨Python IDE之 pycharm的十大奇技淫巧

老姚专栏丨为何要对新冠肺炎特效药开展随机双盲对照实验

统计计量丨统计学中算变异量为什么要除以n-1?什么是「自由度」?

数据资源丨机器学习数据集汇总(附下载地址)

数据呈现丨比 Excel 更强大,Python 的可视化库 Altair 入门

老姚专栏丨线性回归:代数与直觉

数据资源丨原始数据哪里找?这些网站要用好!(建议收藏)








数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




作者:兔饼(吴凡)审阅:杨奇明编辑:青酱





    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存