教育大数据的核心技术、应用现状与发展趋势

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

   作者简介: 孙洪涛,博士,中央民族大学现代教育技术部高级工程师,研究方向:教育大数据,教育信息化规划。北京 100081;郑勤华,博士,北京师范大学教育学部副教授,研究方向:教育经济学,教育大数据。北京 100875

   内容提要: 大数据领域近年来蓬勃发展,作为大数据的细分领域,教育大数据具有推动教育变革的巨大潜力。大数据技术正在快速演进之中,这为大数据应用提供了新的可能。为了深入分析教育大数据发展,文章从大数据技术的最新进展入手,从基础设施、分析技术和领域应用方面阐述了大数据的发展趋势。进而通过教育领域大数据构成与特征的分析,对教育大数据的含义进行了解析。并结合国际范围内教育大数据典型实践,从适应性教学、教育规律发现和精准管理支持的角度,对教育大数据应用进行了探讨。最后,针对我国教育大数据的发展状况,对教育大数据发展所面临的挑战进行了分析,并提出了应对挑战的建议。

   关 键 词: 教育大数据 大数据技术 数据湖 雾计算 人工智能 适应性学习 精准管理

   标题注释: 本文系北京师范大学自主科研基金项目“学习者在线学习状态分析与可视化工具研发”(SKZZB2015013)课题成果,并获得中央高校基本科研业务费专项资金资助。

[中图分类号]G434 [文献标识码]A [文章编号]1672-0008(2016)05-0041-09

大数据是近年来快速发展的技术领域。关于大数据的研究与应用与日俱增,并不断深入影响社会生活。购物推荐、路况分析乃至高考预测等与大众密切相关的应用,充分展现了大数据的力量。2016年3月,AlphaGo与李世石的人机大战,让人们从更深层次上认识了大数据驱动下的人工智能对人类社会的深层影响。根据大数据版图(Big Data Landscape)3.0版本的描绘,大数据相关基础设施、分析工具和应用系统都在快速发展中[1]。这个逐年扩展的图景表明了大数据的疆域正在不断延展,领域应用不断深化,影响力与日俱增。

在教育领域中,大数据已经在多方面引起了研究者和实践者的关注。无论是从研究范式、技术应用,还是实践案例都在快速发展之中。教育大数据正在成为教育领域不可忽视的新型驱动力,在教育教学研究与实践中发挥着越来越重要的作用。

作为一个新兴领域,大数据技术仍在快速迭代之中,新方法、新工具和新模式不断涌现。在教育大数据这个细分领域之中,在契合大数据发展整体趋势的同时,具有自身的鲜明特性。在教育大数据日趋瞩目的今天,在研究大数据技术的基础上,分析教育大数据的定义内涵、实践范例、发展趋势与面临挑战,有助于我们把握教育大数据的整体图景,因应技术发展,推动教育的系统化变革。

   一、大数据技术的发展趋势

大数据技术的缘起,可以回溯到2004年谷歌公司提出的MapReduce模型[2]。在十几年时间里,大数据技术从概念走向应用,形成了以Hadoop为代表的一整套技术。时至今日,大数据技术仍在快速发展之中,无论是基础框架、分析技术,还是应用系统都在不断演变和完善。据统计,2015年美国大数据初创企业获得的融资额达到了66.4亿美元,占整个技术领域总融资额的11%。这代表着大数据领域具有蓬勃的活力并受到市场的肯定。大数据技术的发展方向是技术发展与应用需求相互推进的结果,对大数据技术趋势的分析,有助于从更本质的层面理解这个领域的现状。

   (一)基础架构

历经多年发展,大数据基础设施正在向着快速、便捷与整合的方向发展。Hadoop框架是大数据分析的重要基础框架。但它存在着计算速度慢、运维复杂等问题。基于Hadoop衍生出了如Spark、Pig等框架,正在不断提升计算性能和优化处理流程。与Hadoop相比,Spark的抽象层次更高,计算速度更快,编程更加简便。更重要的是,Spark提供了统一的数据平台,通过不同的模块支持了不同类型的数据应用。通过Spark Core支持批处理,通过Spark SQL支持数据交互,通过Spark Streaming支持流式存储,通过MLlib支持机器学习,通过GrphaX支持图计算[3]。

在大数据基础设施中,各种新技术不断产生,数据湖(Data Lake)和雾计算(Fog Computing)分别从数据的集中与分布的不同角度给出了解决方案。数据湖是大型的基于对象的存储库,数据以其原始格式存储。不需要对数据进行转换,就可以进行全面的监控和分析,并建立数据模型。与一般意义的数据汇聚不同,数据湖不需要改变原始数据的结构,而是支持分析原始数据。这个方式消除了数据抽取、转换和加载ETL的成本。为了达到不改变数据结构直接存储和技术的目标,数据湖对元数据有很高的要求。目前,数据湖技术仍在起步阶段,还存在原始数据差别大、类型复杂、分析应用困难等问题。但它有助于企业完成更长远的数据规划,建立数据治理结构,并预先解决安全问题[4]。数据湖与一般大数据汇集方式的对比,如表1所示。


与数据湖侧重数据的聚集不同,雾计算则提出了一种分布式解决方案。雾计算这一名词最早来自网络安全领域,后来由思科(Cisco)公司借用,并赋予了分布式计算的含义。思科将雾解释为“更贴近地面的云”,雾计算是云计算的延伸。与云计算不同,雾计算并非由性能强大的服务器组成,而是由性能较弱、更为分散的各类计算模块和智能网络设置组成,这些低延迟且有能力进行位置感知的模块可以融入各类基础设施,乃至生活用品[5]。

可以预见,随着物联网的不断发展,来自各类终端的数据量会激增。面对这一情况,云计算的瓶颈可能会凸显。在雾计算中,数据、分析和应用都集中在网络的终端节点,只在需要的时候汇集到云中。云计算与雾计算的对比,如表2所示。


雾计算将计算能力延伸到了网络的边缘的各类智能设备。在这种模式下,智能设备的管理与交互就变得非常重要。比如,比特币的底层技术“区块链”(Block Chain)形成了行动登记、权属确认和智能管理模式。这为通过网络实现各种智能终端和设备实现自我管理和智能交互,提供了新的技术支持[6]。

数据湖和雾计算着眼于大数据的源头和终端,从分布和集中两个角度提供了解决方案。诚然,这些方案需要通过实践进行检验。但总体而言,数据湖和雾计算代表着大数据分析基础设施的发展趋势,即采用更灵活的方式获取和处理终端数据,合理分布计算负载,对核心数据进行广泛汇集,通过定制标准实现数据治理。

   (二)分析技术

分析技术是基于大数据进行模型构建,并进行评价、推荐和预测等具体应用的基础。大数据分析技术在近年得到快速发展,智能化、实时化和易用性成为了分析技术的发展特征。

1.智能化

在分析技术方面,大数据与机器学习相结合形成的新型人工智能,已经成为近年最引人瞩目的趋势。大数据与机器学习正让数据分析在统计分析的基础上,更快速地实现智能关系发现和预测,如图1所示。AlphaGo就是这一趋势的典型应用范例。在海量数据的基础上,以深度学习为代表的创新算法,通过大规模并行计算,不断迭代演化,最终形成了能够战胜人类的数据智能。

教育大数据的核心技术、应用现状与发展趋势

图1 数据与算法迭代演化形成数据智能

大数据与机器学习整合所实现的人工智能,其意义不限于特定的领域应用,而是实现了一般性人工智能技术的突破。这一突破将在医疗、交通、金融和教育等为代表的各个应用领域产生重大影响。从更为广阔的角度,以智慧城市为代表的智能化系统解决方案,预示着智能化大数据技术综合应用的未来前景。由各类设备和传感器获得的数据,可以成为智能化分析的数据来源。基于大数据的机器学习在完成海量数据汇集与分析的同时,不断演化、提高自身智能水平。数据分析结果驱动智慧城市各个组成部分的智能化活动,基于数据智能的新型技术架构,为未来城市的智慧生活奠定了基础。

2.实时化

实时分析是大数据技术的另一个发展方向。随着大数据技术的深入发展,各类应用对于数据的实时分析和处理的要求不断提高。与针对历史数据的聚合和分析不同,实时数据分析具有更强的时效性,也对数据存储、计算和呈现提出了更高要求。Hadoop中的批处理框架在对实效性要求较高的分析,例如,实时用户行为分析、用户分类和推荐等应用场景中的局限日益凸显。Spark Streaming、Samza、Storm等流式实时计算框架应运而生。以Spark Streaming为代表的实时分析框架具有优秀的调度机制,快速的分布式计算能力,在数据的汇聚和批处理之间通过关键参数建立平衡,提升了数据吞吐量和性能,对实时计算提供了有效支持[7]。实时性预示着大数据将更深度地融入人们的工作和生活之中,在交通、翻译等需要及时响应的领域中,大数据会体现出更强大的作用。

3.易用性

近年来,随着技术的不断成熟,大数据应用的门槛不断降低。Google、微软等巨头不断推出大数据技术平台。我国互联网三巨头百度、阿里和腾讯分别推出了百度开放云、阿里数加和腾讯大数据平台,在应用技术方面提供了全面的支持。从数据汇集、模型构建到可视化应用方面都提供了高质量的解决方案。并且,这些分析框架中存在很多优秀的开源项目,如,Caffe、Torch等[8]。Google为Tensor Flow的开源分析工具提供了一个重要选择,Tensor Flow的开发者来自Google Brain团队,它整合了Google在搜索引擎、电子邮件和翻译、图像识别等方面的分析成果。并且应用了数据图技术(Data Flow Graphic)将模型构建过程和产品开发紧密结合,在完成建模实验之后就可以直接将代码应用到产品中。易用性为大数据在垂直领域的应用铺平了道路。

   (三)领域应用

在基础框架和应用技术的支持之下,大数据在各个领域中的应用也在不断快速地深入发展,展现出了领域应用深化与融合、可视化应用广泛和产业生态链萌发的特征。

1.领域深化与融合

大数据在方法论层面上影响着多个领域的研究与实践[9-11],作为新的研究范式影响着众多学科。在各个领域应用中,大数据作为基础方法与工具有着一定的普适性,也具有鲜明的领域特征与领域差异。数据不同于金融、交通、零售等领域有着较为明确的量化指标作为机器学习的依据。在教育等社会科学相关领域中,大数据分析模型建立过程中形成的类量化指标往往很难获得。这就使得教育领域的模型构建具有了一定的独特性。同时,教育教学自身的周期性和复杂性,也为模型构建提出了新的挑战。

随着大数据的发展,领域应用将逐步深入。在各个领域中需要借助领域知识,针对领域问题进行深层次研究与实践。在此过程中,以数据为桥梁,各个领域的融合将成为可能。例如,始于气象系统的DMSP/OLS夜间灯光数据,已经在遥感测绘、城市规划、人口估计、国民经济测算、能源消耗以及生态环境影响评估方面取得了令人瞩目的成果[12]。基于大数据,各个领域自身发生深刻变化的同时,领域之间的比较出现加速融合的趋势。大数据技术在领域内的深入发展,和领域间的融合发展将日趋重要。

2.可视化应用

可视化是大数据应用的呈现层面,直接面向终端用户,并通过各类应用场景服务各类人群。数据可视化可以通过多种方式实现,从较为底层的R语言Ggplot扩展包、D3函数库,到SPSS Modeler、Tableau等数据分析和可视化工具。数据可视化的方法和工具种类繁多,近年来,可视化工具的应用门槛不断降低。SAP、Tableau等重量级数据分析企业都推出了移动端数据可视化工具。以SAP的Roambi为例,只需要导入数据集,选择模板,Roambi就能够马上完成精美的可视化图表并支持互动[13]。Tableau不仅推出了Tableau Mobile支持移动端数据分析,还通过Tableau Public和Desktop等工具,构建了包含桌面分析、在线发布和移动应用的整体可视化方案[14]。

在各类工具支持下,数据可视化的应用门槛大大降低,为更加广泛的应用奠定了基础。数据可视化作为大数据技术的表现层,是数据分析与洞察的“最后一英里”。随着这个环节的不断优化与人性化,数据分析的广泛应用指日可待。

3.生态链萌发

2015年8月,国务院发布的《促进大数据发展行动纲要》,将大数据定位于推动经济转型发展的新动力,重塑国家竞争优势的新机遇以及提升政府治理能力的新途径[15]。《促进大数据发展行动纲要》成为了大数据产业发展的政策依据,必将对大数据产业发展起到催化作用。大数据产业的资金投入、基础设施、数据标准、应用平台、区域实践必将呈现加速发展趋势。同时,正如前文所述,大型互联网企业如百度、阿里和腾讯等,已经在大数据领域发力,并开始构建基础设施、制定标准、推广应用,在各个应用领域的大数据实践也在快速开展。

可见,在政策重点支持、工具平台日渐成熟、领域应用不断深入的合力之下,大数据产业链正逐步形成,生态体系正在孕育之中。生态链将催生一系列数据标准,形成多种整合型技术路线,打通原始数据到终端应用,将大数据应用推向新的层次。

   二、教育大数据的含义

教育大数据的含义,需要从数据和技术两个层面进行解析。在引用较多的大数据定义中,维基百科定义[16]和麦肯锡(McKinsey)定义[17]都强调了大数据的量,无法用常见数据工具处理;而高德纳(Gartner)定义则着眼于数据的特性与价值[18]。为了解析教育大数据的真正意义,需要对教育大数据的构成和特性进行分析。

在教育大数据的构成方面,在线学习的数据首当其冲。可以说教育大数据的广受关注,与在线教与学的盛行有着密不可分的关系。在舍恩伯格的《与大数据同行——学习和教育的未来》一书中,第一个大数据教育应用案例就来自在线学习。随着在线教学的日益普及,在教与学过程中,由学习管理系统和各类移动设备所记录下来的各类海量数据,成为分析教学过程的重要来源。这些数据包括记录学习过程的行为数据,记录学习结果的评价数据,以及学习形成的社会网络关系数据等。由这些数据拓展开来,教育大数据还包含着各类学生个人信息数据、教学管理数据等。可见,教育大数据来自于教育教学的主体和过程。

依照不同层级的主体和教育教学活动的各项内容,教育大数据可以分为四个层次和六大类型。四个层次包括个体、学校、区域和国家;六大类型包括基础数据、教学数据、科研数据、管理数据、服务数据和舆情数据。其中,基础数据包括以人口学为代表的学习者基本信息数据;教学数据包括教学过程中涉及的过程、内容和结果数据;科研数据包括各类教育教学实验与科研项目当中所获得的数据;管理数据包括各类教育管理系统当中所记录下来的数据,如,学生的学籍数据、档案数据和各类统计数据等等;服务数据包括各类与教育教学相关的服务系统当中记录的数据,如,各类师生生活服务、图书档案服务等等;舆情数据包括各类公开媒体中与教育相关的数据,如,各类教育新闻数据、微博等社会网络系统中教育相关数据等。

从特征的角度看,大数据的特点往往被概括为4V,包括海量规模(Volume)、快速流转(Velocity)、多样构成(Variety)和巨大价值(Value)。教育大数据的特征与4V既有重合又有不同:首先,从规模上看,教育大数据的体量尚未达到零售业、电信业等领域的规模,但已经超出了传统数据工具的处理能力。其次,从流动速度的角度,教育大数据流转速度相对较慢,并不像交易数据、搜索数据或通讯数据具有快速流转的特性。相应地,教育教学的周期性决定了教育大数据具有典型的周期性。进而从数据构成方面看,教育大数据中非结构化数据,特别是音视频数据占很大比重。这些数据来自课堂录像、教学资源等,不同于传统数据库记录的数据,具有一定的分析复杂性。同时与电商等领域中步骤清晰、结果明确、周期较短的交易活动不同,教育教学活动具有更高的过程复杂性。通过教育大数据分析发现规律也就更为困难。可见教育大数据的特征可以概括为强周期性、高复杂性和巨大价值。

综上所述,我们可以把教育大数据定义为:服务教育主体和教育过程,具有强周期性和巨大教育价值的高复杂性数据集合,具体如图2所示。

教育大数据的核心技术、应用现状与发展趋势

图2 教育大数据的构成

1 2 显示全文

责任编辑:陈近梅

随意打赏

中国大数据发展现状大数据的核心是什么大数据产业发展现状大数据的核心价值大数据发展现状教育大数据应用大数据核心技术大数据的核心核心数据
提交建议
微信扫一扫,分享给好友吧。