费良宏:云计算大数据可为企业提供全数据概念

蓝鲸TMT  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

费良宏:云计算大数据可为企业提供全数据概念

蓝鲸TMT 贾琼

在4月28日的2017 GMIC全球移动互联网大会上,亚马逊AWS首席云计算技术顾问费良宏发表了《云计算大数据实践与设计范式》的主题演讲。费良宏称,云计算或大数据的市场是一个让人眼花缭乱的市场,各种架构、工具、技术、实践案例,充斥着各种媒体,各种分享。

回顾过去几年大数据的发展,费良宏有两个明显态势需要格外重视。

第一是规模的膨胀,如果几年前我们认为大数据还只是GB、PB级别的话,接下来则会看到,从TB到ZB的增长速度越来越快,接下来5年、10年会有一个新的认知。

第二则是非结构化数据已经占据了主导地位,比如说基因工程、社交媒体等话题产生的数据更多是以非结构化形式存在的。我们熟悉的结构化模式已经不太适用了。

对于如何利用今天的技术和手段帮助我们解决第二个问题。费良宏表示,从大数据应用场景来看无非是几种应用模式。

1.批处理模式,从事大数据的人已经很熟悉了,在今天和过去都用这样的方法来操控大数据。

2.流处理,流处理是过去几年出现的,且如今已经越来越普遍了。流处理模式有其特定的历史渊源,主要来自于数据产生的特殊性以及处理的特殊要求。

3.机器学习,数据本身并不具有价值,如果把它变成一种知识,其数据才会变得更有价值,费良宏称这个关键就是机器学习。

今天的人工智能是很热的话题,机器学习是一种很真实、可以帮助我们去解决从数据到知识化的有效手段,所以我们需要关心的是在大数据的环境里,如何利用批处理、流处理、机器学习达成我们的目标。

对于大数据的设计架构原则,费良宏总结归纳为五点,即解耦数据总线、选择恰当工具、有效利用云计算、以日志为中心、并且具有成本意识。

第一点是解耦的数据线,将数据的存储、处理、分析和得到的答案,这几个环节在数据层面做到真正的解耦,配合好的软件架构,应该能满足今天的需要,并且有很大的伸缩灵活性。

第二点是选择适当的工具,每个工具都有自己擅长的领域,要考虑数据是什么结构,是结构化还是非结构化,是毫秒级别还是分钟级别的,以及吞吐量和访问模式的问题,这些说法明确的时候,依据标准选择工具的话就不是很困难的事情了。

第三点是有效利用云计算,因为当下的数据概念已经不再是GB、TB的概念,而是ZB的概念了,管理大数据不是简单的事情。所以现在越来越多的大数据可以跟云计算结合在一起,利用云计算提升的可用性、弹性、大数据托管工具等,来实现大数据的解决方案。

第四点是以日志为中心的设计模式,大数据的核心就是对日志的管理。如果日志数据的有效管理是大数据的关键因素,在设计之初就要考虑到这些数据的特殊性。比如说在日志管理方面,存储处理方面,选择一些不可变日志和物化视图方法会更有效。

第五点是成本的意识,成本是大数据非常关键的因素,如果不能有效权衡成本,也许在项目之初,尝试阶段就不能有效解决这个问题。当有一定规模和积累的时候,这个办法可能就没有办法解决了,因为会被成本拖累。

过去两年里,渐渐兴起数据湖概念越来越广为人知,数据湖在某种意义上强调企业建立一个全数据的集中管理能力。“利用目前云计算和大数据的处理能力,真的可以为企业提供全数据的概念,利用全数据我们在大数据的操作、分析,不同主题的应用里,就具备了真正意义上的大数据的处理。”费良宏说。


随意打赏

大数据与云计算ppt云计算大数据物联网云计算与大数据云计算数据中心云计算大数据大数据概念为企业提供云计算概念
提交建议
微信扫一扫,分享给好友吧。