被峰瑞青睐的Data Pipeline要做企业的数据工程师

被峰瑞青睐的Data Pipeline要做企业的数据工程师

项目名称: Data Pipeline

主营业务: 帮助企业管理数据资产、打造实时自动化的数据融合集成平台

上轮融资情况: 2016年6月完成了数百万元天使轮融资,投资方为峰瑞资本

下轮融资意向: 暂未开启

项目关键词: 实时数据集成,容器化部署,数据监控,近10家种子客户

对企业而言,数据一直都很重要,只不过数据的载体从账本变成了Excel,随着数据体量增大、种类变多,数据又散落到了企业内部、外部的各种数据库中。在应用数据解决问题之前,组织数据是基础。而数据集成概念的可以追溯到上世纪90年代,企业逐渐开始使用各种商业软件, 这时候企业要面对的,不仅仅是数据孤岛的问题,还有业务数据无法直接应用于分析的问题

我们熟悉的Informatica、IBM DataStage、SAP、Oracle、Microsoft,还有Attunity、Adpetia都针对这些问题提供了相应的解决方案。 当数据存储、数据计算、传输带宽的成本降低时,处理分析数据不再是金融、电信等行业的特权,头部行业带动其他行业对这件事重视起来。 也因此有了类似Snaplogic、 MuleSoft、TreasureData、Striim这样的新公司进入赛道,用不同的方式来为企业用户解决数据带来的问题。

“我之前就是在企业内部解决这些问题的。”陈诚曾是“美国版大众点评”Yelp的资深大数据工程师,从零参与设计、实现了Yelp新一代的实时数据平台。毕业于密歇根大学计算机专业,去了Google实习,又到Yelp工作,陈诚一直把编程当作创造,回国后,他创立了Data Pipeline。那么针对国内市场,这家技术驱动的公司能做些什么呢?

企业的核心资源应放在自身业务上

Data Pipeline的初衷是帮助企业管理数据资产,相当于一个数据工程师团队。数据的集成与清洗是将数据应用于分析决策的第一步,数据源和数据目的地的复杂性导致这件事情很难做,企业如果投入大量人力、财力去做,会有些吃力不讨好。 “企业应该专注于两件事,做 业务和通过业务分析做决策。” 陈诚说道。

如果把这件事交给类似Data Pipeline的公司去做,企业的考量会有哪些方面?

首先是 数据时效 ,我们可以揣摩一位管理者的心理,他一定想随时都能看到最新的数据情况,这关系到他该做什么决策,也关系到企业的竞争力;其次是 数据质量 ,企业希望在复杂的、分布式的、高可用的情况下仍能保证数据不丢失或重复;再者,在企业的整条线上,使用数据的人权限不一,对数据的要求也不一样,从业务部门到技术部门,再到分析部门, 如果缺少协同的工具和流程,数据从生产到使用不仅耗时费力,而且得不到充分利用 ;最后也最重要的,自然是 数据安全

Data Pipeline则将这些考量融入了产品之中。针对复杂的数据源,Data Pipeline预置了各类型数据源接口,目前对SQLServer、MySQL、mongoDB、Oracle等主流的数据源支持对接;而数据目的地也能满足Redshift、Greenplum、Hadoop、ElasticSearch等。在产品界面上选择数据库、数据目的地,进行数据清洗后,就可以完成数据同步了。

被峰瑞青睐的Data Pipeline要做企业的数据工程师

陈诚表示, “数据从产生到可以应用于分析,接近实时。” 此外,Data Pipeline通过解析数据库的复制日志,捕获数据与数据定义的变化,将过去需要人为修复的地方总结到产品中, 让数据系统变得自适应,解决了业务数据与分析数据的差异问题。这样一来,整个同步的过程能更加实时,也减小了数据源的输出压力。

通过管理界面,用户可以看到数据同步的状态,也能看到数据的来源与结构,用户可以在此处做一些适当的批注,以解决企业内部口径不统一的问题。 当数据同步出现问题时,基于完善的纠错机制与系统状态监控,也能第一时间找到数据源并进行处理。

对于数据清洗,最基础的主要是行过滤与列过滤,这通过Data Pipeline的前端界面就可以进行选择,当企业对数据清洗的要求更为复杂时, Data Pipeline开放了API接口让企业进行编程,满足自定义的需求 ,对数据质量也有了一定的保障。

由于 Data Pipeline采用容器技术进行私有化部署,不仅降低了部署成本,而且使得部署效率接近公有云部署,几个小时就能完成;Data Pipeline也支持混合云、跨云的部署模式 ,为了保障安全,非私有化部署时会进行加密处理。

整体看来,Data Pipeline操作起来比较简单。事实上,当企业选择数据集成商时,一方面会对数据集成有业务、能力方面的要求,另一方面又希望能尽量减少产品的培训使用成本,所以 将集成技术产品化,并尽量把界面做得友好,更容易被企业所接受。 如陈诚所说,“企业花80%的精力去做数据处理(doer),就只剩20%的精力去做数据分析(thinker),我想转变企业的这种身份。”这也正是为了让企业把核心资源放在自身业务上。

想做的维度很多,现阶段重点是深度

从2016年3月开始创业,到6月获得峰瑞资本的数百万元天使投资,Data Pipeline在当前的产品形态下,已经积累了近10家种子客户 ,主要分布在社交、电商、零售、金融四个行业。Data Pipeline按照其占用的服务器收取年费,目前已经有了付费用户。“客户对我们很包容,但商业场景下没有人会为人情付费。”陈诚笑言。由于Data Pipeline提供了较为稳定的产品技术,迭代速度和处理客户反馈的速度很快,所以得到的评价也不错。

如果要对目前的Data Pipeline进行评分,陈诚认为很难回答,因为他心里的产品在将来还有更多可以去探索的点,比如从数据异常监测等角度去关注数据质量。作为一家以技术为核心竞争力的公司,Data Pipeline所瞄准的是整个数据产业链的第一步。“我们目前的定位很简单,只做这一块。”陈诚表示也许将来会做成全链条,从一家产品技术公司成长为纯技术公司,中间还需要很长的积累过程。 如果客户需要一站式的打包方案,Data Pipeline会跟上游、下游的厂商进行合作,用多个产品为客户提供解决方案。

Data Pipeline的发展并不依托于行业,要做深度主要是聚焦在产品技术与产品细节上,陈诚认为成功是可以复制的,“我们现在的重点是找到几家头部公司,在前期把客户案例做好。”寻找广度是扩大规模时该考虑的事情。

而Data Pipeline2017年开拓市场的重点,一方面是品牌推广,“在技术驱动的同时,把以客户为中心的理念传递出去。”另一方面是产品销售, Data Pipeline的联合创始人毛海英曾是用友大客户总监、SAP华中地区销售负责人、 前优医库CEO ,拥有丰富的B端销售经验。

国外已经有很多标杆企业在提供数据集成服务,其中,Informatica 还连续 11 年被 Gartner 数据集成工具魔力象限评选为领军企业,而国内有像东方国信这类传统的集成商占据主要市场,华为、亚信等企业也在提供相应的解决方案。“传统的数据集成方案价格高昂,可扩展性和处理实时性差,没有办法满足现代企业需求。” 峰瑞资本早期项目负责人朱祎舟侧重人工智能、数据服务领域的投资,他十分看好Data Pipeline的产品理念,“只有提供更灵活、更实时的数据聚合服务,才能为企业数倍地提高效率。”

笔者认为,站在头部行业的大公司,虽然大都有充足的IT预算与专业的IT团队,有能力投入大笔资金去选择可全方位解决问题的数据集成产品,但是为了把更多资源放在核心业务上,需要调整好数据战略。 如果Data Pipeline可以提供轻量而高效的技术产品,并且有好的产品革新能力,也会有能力在这个行业中初步打开局面。

再者,Gartner在相关报告中预测,到2020年,全球数据集成市场收益将达到约40亿美元。当数据服务不再只是头部行业的专属需求时,这个市场给了更多新兴技术公司生存发展的空间。 只是在这条赛道上,数据服务提供商们要拼的不是只有价格这么简单,而是技术的质量和切入的角度。Data Pipeline作为一个有十几人的年轻团队,从整个链条的第一环出发,有自己的一套数据管理方式,在未来的某个节点也许会展示出自己的底蕴。

本文为拓扑社原创,未经同意不得转载或引用

寻求报道&合作请联系:tobshe@itjuzi.com

关注拓扑社微信:tobshe,获取更多内容哦~

随意打赏

talkingdata的数据大数据工程师峰瑞资本李丰数据工程师峰瑞资本峰瑞投资
提交建议
微信扫一扫,分享给好友吧。