大数据掀起新的淘金热?华尔街想要你的数据#独家#

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

大数据掀起新的淘金热?华尔街想要你的数据#独家#

作者| Matt Turck

几个月以前,Foursquare (四方体公司,一家基于用户地理位置信息的手机服务网站) 通过先于官方数据公布的预测,指出Chipotle的2016年销售额将会下降将近30个百分点,这一举动引起了强烈的关注。因为Foursquare通过客户端获取了注册用户和访客的地理位置信息,所以Foursquare能够推断出足够的流量统计数据,这些统计数据是财务业绩的非常准确的预测指标。

36大数据专稿, 本文由36大数据翻译,不授权任何网站使用,除了36大数据网站和微信公众号,所有其他的转载均为侵权!

一家社交媒体公司可能正在为华尔街建立有巨大价值的数据资产,这一情况是被称为“ 替代数据(alternative data,)” 的加速趋势的一部分。随着我们生活中的一切事情节奏加快并被科技所捕获,金融服务公司一直将注意力转移到创业公司,希望挖掘他们的数据,以提炼出能够击败市场的点金石。

与华尔街合作可能成为适合你的商业模式吗?

这个机会面向广泛的创业者。近来许多的科技公司开发出了一项有趣的服务——“数据尾气  data exhaust  ”(因特网用户留下的点击记录)来作为他们核心业务以外的副产品。如果你的公司提供支付解决方案,你可能会拥有一些有趣的数据,它们反映出人们购买了什么东西。一款移动客户端可能会收集用户在哪里购物或者多久看一次电影的数据。一款在线健康设备可能了解一个人何时何地生病。一家商业公司可能会有关于市场趋势和消费者偏好的数据。 SaaS(软件即服务)提供商可能知道合作商购买了什么软件、或者他们雇了多少名员工、在什么地区,等等。

同时,这是一个棘手的话题,伴随着许多误解。对冲基金世界与创业世界截然不同,并且有大量的东西在转变中迷失了方向。关于对冲基金组织付出了数百万美元购买大量的数据集的流言满天飞,这造成了人们对于金融投资机会的规模的扭曲的认识。我谈到的很多创业公司都确实打算把数据出售给华尔街这一想法纳入其业务计划,结合风投计划,但是这些创业公司的运行方式还是很模糊。

如果你就是那些坐拥日渐庞大的数据资产的创业大军中的一员,并企图弄明白把数据卖给华尔街到底能不能让你赚钱,那么这篇帖子就是为你而写的:深入探讨以讲述这一话题的背景、阐明观念并提供一些实践技巧。

原始数据与数据产品

首先,关键原则: 直接卖出原始数据不是明智的选择。

相反,成功通过数据资产获利的公司倾向于提供数据驱动的产品。 我使用一个明显的例子,Facebook不会以原始形式出售其用户数据。 相反,它已经围绕数据驱动的广告产品建立了一个无限更有利可图的业务,使品牌能够根据自己提供的数据价值来定位Facebook用户。

即使公司想要对实际数据本身进行许可,他们也倾向于通过数据产品来实现,而不是以原始形式,有时用内置的分析功能。 例如, Twitter将其原始的firehose业务演变成一个完整的企业数据平台 , GNIP (最先是通过收购同名创业公司),提供各种API(Application Programming Interface,应用程序编程接口),如“历史的”,“实时的”和“洞察力” “。 万事达卡通过 MasterIntelligence 提供数据索引和研究产品。 Foursquare通过名为 Place Insights 的产品提供数据。

但是,作为创业企业家,你可以充分掌握核心业务,但可能无法启动辅助数据业务。 在这种情况下,通过提供原始形式的“数据尾气”来寻找机会可能才是有意义的——越来越多的华尔街机构(银行,对冲基金,资产管理公司)对此感兴趣,其实有一些最老练的对冲基金将坚持把获取原始数据放在首位。 由于对冲基金处于这一趋势的前沿,所以讨论将主要集中在对冲基金上。

为什么对冲基金关心这些? 

首先,介绍一点点背景。

对冲基金是集中于一件事的投资基金:完全超越大市场,向投资者提供超额回报。 他们使用复杂的投资组合建设和风险管理技术,可以投资各种不同的市场(房地产,股票,衍生工具,货币等)。 他们偶尔是秘密的实体,不是非常规范(尽管行业规模庞大 – 2.9万亿美元),而且与广大群众息息相关。 对冲基金神秘的很大一部分来自于他们不仅为投资者而且为其管理者带来了极大的财富:排名最高的25位对冲基金经理在2015年获得了高达130亿美元的收益。

在对冲基金世界中,事情一直在变化。 该行业长期以“宇宙大师”为主,以反倾销市场观念为前提而著称 (来自《think The Big Short》 )。 然而,与许多其他经济部门一样,电脑正在逐渐占上风,而今天,大数据和人工智能正在发挥越来越重要的作用。

可以确定的是, “量化”基金 (文艺复兴,公司温顿,德肖,AQR,双西公司,世坤投资等) 长期以来一直 使用数学模型或算法来评估投资 , 最近才开发了重要的人工智能功能。

但是另一个事实也在逐渐显露,基础对冲基金——传统地基于分析个人股票投资或者整体市场也如上述的量化基金。

这种趋势由于对冲基金行业(一般来说)最近在经历低迷时期而加速: 低绩效导致许多投资者脱手大量基金。

现在,保罗·图多琼斯(Paul Tudor Jones)等行业知名企业裁减了一些初级交易者,转而采用量化策略,交易者和计算机预计将一起工作:“人比不过机器,机器比不过人与机器的结合。” (Paul Tudor Jones对他的投资团队所说,2016年8月)。

这种新方法的术语 “量化基本面分析法”是量化和基本面两种方法的结合。 融合并不总是一帆风顺,至于最后能否真的有效大家莫衷一是(the jury is out as to its eventual success,jury is out是个习语,指莫衷一是,众说纷纭)。

投资世界里并不是每个人都是这个趋势的追随者,但是有足够的兴奋点——对冲基金现在在顶尖的数据科学人才之中相互诉讼:就在几个星期前,WorldQuant起诉了“第三点”公司一位三十二岁的数据科学家马修·奥伯(Matthew Ober),他在这个过程中获得了10倍的薪酬(从$ 200k到$ 2M)。

随着分散的数据科学家组织推动的新兴量化对冲基金,和(或)全球新兴的定量对冲基金的出现,如Quantopian和Numerai等,事情才在加速发展。

军备竞赛已经开始了。由于华尔街的量化基金人才比以前有更多的可用性,而且随着人才转移就业, 模型往往最终会被泄露出来 。数据是这一新兴业务的核心,特别是那些不明显的,很难得到的以及可选择的数据。

对冲基金如何处理数据?

从根本上说, 对冲基金尝试利用替代数据来获得竞争对手的优势,并通过准确的预测产生“阿尔法” 。 最终,他们想知道少数人知道的东西。 这样,他们可以预先定位,以便在其他人发现时,他们已经掌握了新闻主动权(或在不足的情况下进行相反的交易)。

对于贸易世界之外的任何人来说,值得强调的是,在华尔街,他们不足以提出强有力的预测。交易大厅的其他人都有自己的预测, 他们使用各种方法,所以要赚钱,你需要有比别人更好的预测。门槛很高。

华尔街自起源以来一直在预测游戏的局中,获取数据无法获得的想法并不新鲜。它曾经是股票价格和基本信息。随着这些变得广泛可用,对冲基金转向其他形式的数据。

几年前,一些对冲基金会让人们直接站在大型零售商店前面,并计算进出的人数,并在此基础上对零售连锁店本身和大体经济形势进行预测。

替代数据现在提供了一个完全不同规模和复杂程度的做同样事情的机会。

几年前,社交媒体数据开始发展。一个人不仅可以比常规媒体更快地访问市场移动新闻?还可以通过与某个主题相关的所有推文获得非明显的见解吗?那些日子一些较大的对冲基金和银行将使用Twitter API ( would start licensing the Twitter firehose,the Twitter firehose是推特的一个API,用来使用推特数据)

现在对冲基金已经扩大了对各种其他数据集的兴趣:地理定位,信用卡支付,卫星图像,物联网传感器数据,建筑许可证,健康数据等。其中一些数据来自正在尝试利用他们的数据尾气获利的公司;其他数据集来自主要业务模式是提供此数据的公司(通常以数据产品的形式,如上所述)。

如今,一个完整的手工作坊式的产业已经出现了,一些关键的玩家在这个情境中被CB Insights (风险投资数据公司 标注了出来。

大数据掀起新的淘金热?华尔街想要你的数据#独家#

替代数据来源示意图(由CB Insights提供)

对冲基金对数据的影响取决于他们在上一节所述的频谱中的位置。

更基础的基金将使用这些数据作为对人力投资决策的投入。例如,他们会尝试预测一家特定公司的销售或顾客流失,其总体表现为优于卖方的共识。或者他们将尝试预测宏观经济趋势,例如通过观察卫星图像。他们还会经常使用模型,但数据科学家预测的通常只是“PM” (投资组合经理) 将决定在其投资决策中使用或忽略的一个数据点,以及其他投入(如他们精心讨论出的专业的网络想法)。

在频谱的另一端,量化基金将采取你的数据集,把它与其他替代数据集合并把它反馈到非常复杂的模型中。日益增长的趋势是,在替代数据支持的基础上,完全或部分地使用自动化交易策略。

你的数据究竟多有趣?

有几个关键特征影响你的数据多大程度能吸引对冲基金的兴趣:详细程度,历史,广度和稀缺性。

你的数据的细节和特异性程度很重要 。例如,具有详细购买记录的用户级(匿名)信用卡帐单比高指标和总额有趣得多,特别是当你经常收到它们时。

另一个 关键的标准是历史 :你的数据集可以追溯的时间有多远?这对于初创业公司来说通常是一个问题,根据定义,这些公司没有很长的历史。在理想的世界里,对冲基金会希望看到5到10年的历史。话虽如此,根据具体情况,有些有一两年历史的公司也行得通,特别是如果你的数据更加稀缺和有趣。建议初创业公司从一开始就存储和保留所有的数据(考虑到存储是近乎零成本的,这是可行的)。

覆盖范围也很重要 – 不仅仅是地理上的覆盖(确保你的数据集所涵盖的是具代表性的,如同“美国的人口”),而且涵盖了您的数据可能涉及的股票交易。虽然一些基本的分析师只会关心他们所涵盖的少数股票的数据,但量化基金可能会要求与成千上万的股票相关的数据。

最后,考虑到对冲基金正在试图获得他们的竞争对手所不具备的洞察力, 你的数据集越具有独特性和原始性就越好 。一个有趣的后果是,你的数据集的价值可能随着时间的推移而衰减。虽然他们可能会从完全不同的来源获取数据,但其他公司最终将能够提供与你的数据相匹敌的数据集,并且随着时间的推移,大多数数据源将被商品化。这个现象在下面Quandl所提供的图表中得到了很好的阐释:

大数据掀起新的淘金热?华尔街想要你的数据#独家#

一般来说,对于任何既有的投资决策来说,很少有数据集能成为其全部及最终的决定因素,尽管它们是罕见的和全面的。 在大多数情况下,对冲基金将要组合多种不同的数据集。 例如,为了了解QSR的销售情况,谨慎的数据科学家们希望将深度趋势 (由Foursquare或我们的投资组合公司Sense360提供) 与信用卡交易数据相结合,来了解客户是否还有更多的兴趣 (较冷的天气、Posimate-快递公司的服务可用性等)。

你真的愿意卖出数据吗?

在更深层次上,有三个关键概念:

数据应严格匿名化 。您不能也不应该出售“个人身份信息”(PII),也就是任何可能识别出特定个人的数据。好消息是,对冲基金不是广告商,不关心具体某个人,所以没有经济方面的压力导致提供PII。这似乎是显而易见的,只是(except that,可以翻译成除了,或者只是,这里翻译成只是顺当些)对冲基金宣称数据销售商常常无法隐藏个人身份信息,导致必须花费时间和精力进行筛选清理(参见本期《金融时报》)。

你不能出售你并不拥有的数据 。对冲基金非常关心数据的合法性。你如何从用户获得数据受到你签署的“服务条款”(TOS)的规范,并且用户要允许你销售。你应该从一开始就获得与用户的TOS,否则不得不弄清楚哪些数据获取了哪些TOS(还要挑出你不允许出售的数据)。 “同意”和“选择”的真正含义中有一些灰色地带。

最后, 你应该意识到“ 非公开物质信息(MNPI)”的重要概念, 这是一个内部交易概念 ——基本上是关于将包含在你的数据集中可能提供的特定公司的任何非公开信息,这些信息使对冲基金在购买或出售公司股票时具有优势。特别是如果你的数据集包含与你的数据相结合的一些第三方数据,更应期待对冲基金规范部门能够进行严肃的挖掘。

你可以赚多少钱?

现在,一个大问题是,这对你来说有多重要?

首先, 除非已经商品化,否则你可能不想把你的数据出售给世界各地的彭博社 。他们将支付少量的资金(每年低于数万),而且数据立刻可以由华尔街任何人使用,因为每个人都使用彭博终端。这是一个细微的差别 (一个单独的彭博社团队过去会以更离散的方式向对冲基金转售数据,但它可能已经不存在了)

至于你能以多少钱把数据直接卖给对冲基金,这就是事情变得棘手的地方。这是一个非常不透明的行业,所以一般很难知道。对冲基金将不会与你分享他们将如何处理你的数据,所以很难估价。也很难建立一个可重复的模式,便于你出售给下一个对冲基金。

你会听到偶然的故事——一个对冲基金每年支付几百万美元,以获得一个特定的数据集,有时甚至更多。但有一种合理的可能性,这种价格模式来自某种排他性。此外,这些合同也可能具有有限的保质期,因为数据集的价值随着时间的推移衰减,如上所述。

在大多数情况下,大多数对冲基金都是对成本很敏感的,而且关于费用的谈判相当激烈。从我听到的,大部分年平均费用在某些地方高达数万美元、某些地方是几十万美元,平均下来一个对冲基金的金额可能只有10万美元。

为了获得对整体市场规模的认识,可能有10,000-15,000家对冲基金。如上面提及到的,银行和资产管理人员也可以是您的数据资产的买家。

你怎么开始?

在冲基金世界里很难如鱼得水。资金之间存在明显差异 ——在战略方面,如上所述,而且在整体成熟度和利用替代数据的准备方面也是如此。 Point72拥有由Matthew Granade领衔的整个团队,专注于Big Data(大数据)和AI(人工智能)两方面。两西公司(TwoSigma)拥有数百个具有机械学习背景的博士。许多其他公司则在频谱的另一端。

技术世界和对冲基金世界之间也存在广泛的文化差距。对于初创企业来说,绝大多数对冲基金和金融服务行业将一直在纽约,以及斯坦福或格林威治旧格林威治 ——一些远离硅谷的地区。金融服务世界拥有自己的强大地位,掌握着大量的金钱,不一定会对你的创业项目感冒。当我在彭博社时,我曾经在一些创业者穿着连帽衫出现的时候感到沮丧,在会议开始之前我基本上失去了对他们的好感。

由于所有这些原因,至少在最初的时候,可能会与某种中间人合作。

有新的公司,如Matei Zatreanu的System2,建议对冲基金接纳替代数据。他们经常帮助创业公司创造一些对冲基金会觉得有价值的数据产品。

像PointPoint这样的公司一直在加紧努力,特别是通过收购Quanton Data( 见这里 )。

几个创业公司已经巧妙地将自己定位在这个增长趋势的交汇点。例如,EagleAlpha是一个经常在对话中反复提到的名称。

最后但并非最不重要的是, Quandl 是一个快速增长的常规数据集和替代数据的市场,在访问和合法性方面,双方都涉及到很多头痛的问题。他们越来越被认为是这个领域的重要思想领袖 (他们也邀请我今天晚上在他们的“ 可选数据大会 ”上发言)。

结论

对于替代数据的兴趣正在激增,对创业公司来说这是探索是否可以利用这一趋势的好时机。

也许反直觉地考虑到对冲基金处理多少钱, 把你的原始数据出售给他们可能是“只是”一个辅助收入线。 

然而,如果走上正道,可以迈出建立恰当的数据业务(基于数据产品而不是原始数据)的第一步。一些对冲基金将帮助你了解如何收集和整合数据,以便让更广泛的行业领域受到产生兴趣,因此你可以探索不仅仅向华尔街出售数据,还可以向例如零售业或制药业出售,或者是任何与你的数据集有特定相关性的。

非常感谢Matei Zatreanu(Kingvest创始人,System2,King Street数据科学主管)和Tammer Kammel(Quandl首席执行官),感谢他们审查本博客文章的草稿并提供有用的反馈。

End.

转载请注明来自36大数据(36dsj.com): 36大数据 » 大数据掀起新的淘金热?华尔街想要你的数据#独家#

随意打赏

数据科学与大数据大数据数据来源华尔街大数据华尔街见闻华尔街数据华尔街之狼华尔街日报
提交建议
微信扫一扫,分享给好友吧。