访中国社会科学院社会学研究所研究员李炜:大数据有助于社会调查处理量化信息

数据观  •  扫码分享

通过社会调查获得信息数据是社会科学尤其是社会学所依赖主要研究方法。而大数据时代凭借智能设备,通过数据挖掘技术可以获得海量数据,有学者提出,依赖于问卷调查的传统社会调查所能获得的数据与大数据相比,就是“小数据”。那么社会调查在大数据时代是否还有必要?在大数据技术兴起背景下,传统的社会调查方法如何彰显其优势和独特价值?中国社会科学院社会学研究所研究员李炜就这一学术争鸣话题接受中国社会科学网记者的采访。

   中国社会科学网:请您谈一谈大数据给传统社会调查带来的挑战,大数据在获取数据信息的渠道等方面具有怎样优势?

李炜:说到“大数据给传统的社会调查带来的挑战”,首先要明确“传统的社会调查”是什么。在我看来,社会调查的“传统”也在不断的变化中。从古希腊时代的贝壳到当前采用计算机、互联网和远程通讯技术,社会调查在技能和方法层面也发生了巨大的变化。如你所说大数据技术所依赖的是现代先进的网络信息技术、智能设备等,同样也造福于社会调查的领域,在这一层面上大数据之于社会调查并不是挑战,而是共同的机遇。

社会调查,或者更狭义地说统计调查(surveyresearch),其本质是以“询问—作答”方式来收集社会信息。即询问者(研究者)将自己感兴趣的问题,通过访问工具(常见的是问卷和调查表格),求教于信息提供者(受访者)。这些征集到的信息,通常以量化的(统计的)形式再现。在这一过程中,有目的的问题设计是其本质。

因此,只要人类通过提问他人来获取信息的需求存在,社会调查在本质上就是不可替代的。正如你的采访提纲向我提出三个要解答的问题,就体现了你的“有目的的问题设计”。试想如果不通过这种问答方式,你即便掌握了我个人的“大数据”,汇集了我的微博、微信互动信息、文章著述,乃至手机通讯记录,也无法如此直接地得到你所意欲的答案。

你的问题中还意涵着常规的社会调查涵盖的数据量小,无法和“大数据”的信息量匹敌的看法。持这种观点的人不在少数。这一观点的误区在于只看到数据量的大小,而不关注它是否对信息使用者有用。比如,我所参与的“中国社会状况综合调查”(CSS)每年度获得的原初数据信息量至少是800多万项(1万余人的至少800个变量),以数据库格式存储大约70M,若以文本格式存储应该不到10M。自2006年至今5次调查,其数据规模乘5就大致可知了。为了每次调查的1万余人的800万项数据,我们有700-800人的人力投入,平均的单个访问花费至少600元。这个经费标准在国内的同类大型学术调查中,属于中偏下的档次。从数据量上来比,每年的调查数据信息量,仅相当于600个人每天使用2次交通卡乘地铁的信息。但调查中百余项询问的问题广泛覆盖了从家庭结构、就业、收入消费、社会保障……到公众对于地方政府的评价、对反腐倡廉的看法。每一问题都是我们所需的信息,而他(她)的交通卡数据再大对我也是无用的。因此,数据量的大小不是本质问题,关键是数据是否有用的。

   中国社会科学网:有学者提出,社会调查不仅耗费巨大,且获得的信息有限。那么传统以问卷为主要形式的社会调查其独特价值在哪些方面,也就是说,社会调查这样研究方式的必要性以及由此获得的数据信息的独特价值?较之于社会调查,大数据获得数据信息存在哪些局限性?

李炜:在我看来,常规的社会调查相对于“大数据”的独特价值至少体现在三个方面。其一,社会调查是通过“询问—作答”方式获得的信息,直接而有效。比如,我可以直接询问“你是否对现在的工作表示满意”,而不是通过你的薪酬、职级、考勤、晋升记录的数据记录来“推测”你是否满意的答案。而后者,即行为痕迹数据,常常是“大数据”的信息源。其二,社会调查的问题是研究者有目的的设计的,研究者想要获得何种信息,是十分明了的,省去了很多信息的冗杂。其三,社会调查是一手资料,而“大数据”在大多数情况下,对研究者而言是二手资料,即他人创制的信息资料。这些资料是否符合研究者的需求,在口径、测量标准、时点等各方面是否适用,是需要仔细甄别的。通俗地讲,社会调查是按自己的菜单做菜,大数据是别人有什么菜我才能吃什么。所以大数据的使用、大数据体现的变量之间的关系,是要淘十吨沙得一克金的方式才可能有收获的。沙里淘金也是要耗费大量的人力、财力成本的。只有很巧合的情况下,大数据的信息才能和研究目的相匹配。出色的大数据分析成果,都是局限在某一特定的领域,又刚好有契合的数据,才得以实现。

大数据一个容易被忽视的缺陷是,宏观上看数据无所不包,微观使用上却难以整合。比如社会调查中一次访问就可以获得个人社会保障、收入、消费、交通出行的信息,但在大数据中这些信息是分散在社保机构、银行、消费平台(如淘宝)、公交管理等多个系统中的。谁有能力或权限把这些多源信息以个人为单位整合为一个数据库呢?即便有机构能实现这种整合,也一定是政府部门。在政府信息未能做到尽量公开的现实情形下,研究者又如何获得使用权呢?

从上述视角来看,社会调查虽然获得的信息规模有限,但它是整合的。这对于变量间的关系分析是莫大的便利。既然社会调查如此不可替代,其耗资多寡就不是主要问题了。别忘了大数据的生产依然是有巨大投入的。

   中国社会科学网:社会调查获得数据对于社会学尤其是社会学量化研究不可或缺,现在有些社会学者已然开始积极“拥抱”大数据技术,比如将交通、通讯、社会服务产品等产生的数据信息为社会学分析所用。也有些学者对大数据技术持拒斥态度。您本人主持参与大量社会调查,您是如何看待大数据技术?您本人主持的社会调查中是否运用过大数据技术?在社会学研究中,是否有可能结合社会调查与大数据两者各自的优势,进行数据获取,您在这方面未来是否有相关设想或计划?

李炜:社会调查和大数据二者均是处理量化信息。在我看来二者是互补的而不是对立的。

我自己对利用大数据进行研究是非常感兴趣的。在我看来,大数据和社会调查数据都是社会信息学的内容。大数据的优势在于三个层面。其一,其数据来源广泛,规模巨大。由于它是人们(移动)互联网使用痕迹的记录,所以和社会调查相比,对某些行为的测量频率高、密度大,从信息源上具有优势。其二,建构力强。由于大数据的信息优势,很容易发展各类算法,建立各种分类的、相关的、解释的模型,丰富和提高了人的认知能力。其三,智能化程度高。大数据和机器学习、人工智能相结合,大大提升了人脑的决策和应对水准。大数据的本质是把人类个体的大脑信息储存和判断,扩展到了众多的大脑(包括以往的人类经验),建起了统合型的“超脑”。其前景是不可言量的。目前我也参与了一些大数据的应用计划。我们的社会调查目前正处于解决调查信息采集智能化的阶段,逐步走向大数据的调查辅助应用。(记者 张清俐)

责任编辑:陈近梅

随意打赏

提交建议
微信扫一扫,分享给好友吧。