大数据时代下对冲基金的数据挖掘技术探析

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

大数据时代下对冲基金的数据挖掘技术探析

2015年全球对冲基金表现

2015年,全球范围内对冲基金经历了2008年以来的第二次业绩寒冬。根据对冲基金研究机构HFR(Hedge Fund Research Inc.)公布的资料显示,2015年四季度全球新成立对冲基金183家,较第三季度的269家下降32%,是2009年以来新增数量最少的季度。2015年全年累计新成立对冲基金968家,较上一年度下降7%。此外,诸多对冲基金在惨淡的业绩面前纷纷清盘。数据显示,2015年累计979家对冲基金清盘,较2014年864家的数据上涨13.3%,是自2009年1023家对冲基金清盘以来的又一波高峰。这波浪潮中,诸多国际大型对冲基金也未能幸免:全球20大对冲基金之一贝莱德宣布关闭旗下一个10亿美元规模的宏观对冲基金;文艺复兴科技投资公司宣布清盘旗下一只量化对冲策略基金 ——复兴机构期货基金(RIFF)。

然而,对冲基金数量的减少并没有影响其总体规模冲上新高。根据HFR统计数据显示,截至2015年底,全球对冲基金管理资产规模达2.9万亿美元,较2014年增长约1千亿美元。

机构数量的减少和资产管理规模的增长再次印证了全球对冲基金行业“强者恒强”的现状。虽然近年投资者逐渐增加了对中小型对冲基金的投入,但行业集中度居高不下的局面并未得到改善。2015年研究机构Preqin在其发布的报告中将7617家对冲基金公司中管理资产规模在10亿美元以上的统一划入“10亿美元俱乐部”。报告显示,尽管“10亿美元俱乐部”包含570只对冲基金,却管理了对冲基金中92%的资产规模。而其余大部分的对冲基金合计管理规模只占8%。这意味着对冲基金行业中大多数资金集中在少数公司手中。

从投资策略来看,复合策略、股票多空策略、宏观策略是2015年业绩表现最好的三个策略,全年累计收益分别为3.62%、3.57%、2.27%。2014年表现“一枝独秀”的CTA受累于大宗商品的暴跌,2015年累计收益仅1.28%,远低于去年同期的16.42%。可转换套利和股票市场中性策略收益高于2014年,分别取得全年累计收益1.6%和0.09%,其余子策略的收益表现均低于2014年。

回顾2015年,造成全球对冲基金业绩欠佳的主要原因包括以下几点,第一,市场因素:黄金、石油等大宗商品的暴跌拖累投资大宗商品的对冲基金和投资能源行业的对冲基金;希腊债务危机阴云不散,投资欧洲市场的对冲基金业绩受到波及;中国股灾影响包括欧美股市、新兴市场股市等在内的全球股市。第二,客户因素:HFR主席Kenneth Heinz指出,随着客户风险厌恶倾向不断加强,客户对其资产波动性的容忍程度也相应下降,业绩表现不佳的对冲基金面临着强大的客户赎回压力。

基于 数据挖掘 的量化投资技术

作为对冲基金的重要手段,量化投资技术一直被大量应用并不断深化。1971年,电子工程师约翰·麦奎恩利用美国富国银行的信托投资平台建立起全球第一个定量投资系统。随后,量化投资界的传奇人物詹姆斯·西蒙斯创立了文艺复兴科技公司,并运用量化模型在公司成立后的20多年中为基金赚取了平均每年35.6%的收益率。然而,随着计算机科学的进步和大数据时代的到来,全球数据量呈现指数级增长,传统的公司财务数据和市场行情数据已难以全面描绘市场状况;同时,数据库存储的数字、符号信息等结构化数据形式逐渐向文本、图像、音频、视频等非结构化数据形式转变。因此,市场亟需更先进的模型和算法来满足对更大量级、更多类型的数据进行处理,基于大数据量化策略的研究已然成为量化投资新的研究方向和热门研究领域。

文本挖掘在量化投资中的应用

主题投资作为股票市场上一种重要的投资策略,反映了投资者对市场上发生的热点事件的解读,也反映了不同市场参与者的心理博弈过程。传统的量化分析对主题的把握主要依赖个股的财务数据(如EPS、PE、收盘价、开盘价、成交量等)和行业数据(如行业指数涨跌幅等)。然而,这些结构化数据中所隐含的投资信息大部分已被挖掘,投资者亟需从更广阔的非结构化数据中探求市场规律。

文本挖掘是指从文本数据中抽取有价值的信息和知识的计算机处理技术,是数据挖掘的一个分支。将文本挖掘应用于量化投资的核心逻辑在于:第一,文本数据研究与相对成熟的数值型数据研究相比,更容易在新数据源中获得超额收益;第二,财经相关的网络文本信息某种程度上反映了投资者的情绪和投资意向;第三,爆发式增长的网络文本数据在数量和时间维度上足够构建较为成熟的量化模型;第四,一个主题的异动往往会带来关于该主题大量持续的报道,甚至在该主题还未在市场上有所表现的时候,就已经有大量的新闻报道产生,从而使与该热点相关的新闻数量在某一时间段达到一个突发的高峰。通过对相关文本信息进行分析挖掘,可以有效预测市场热点和动向,发掘主题投资机会。

互联网财经选股策略是基于文本挖掘技术的量化选股方式之一。通过爬取主流财经媒体报道文章的文本信息,利用文本挖掘技术对热点事件进行深度挖掘,进而完成对投资主题的预测。互联网财经选股策略总体框架分为“数据获取”、“数据处理”以及“策略构建”三部分:

数据获取。引入“网络爬虫技术”,首先分析待批量爬取的主流财经媒体网页结构,主要关注网页中需要特定爬取的相关结构和内容;其次,发现财经媒体网站上待爬取信息的网页URL相关规律,通过网络爬虫程序遍历并提取所有待爬取财经网(博客,微博)页中的荐股栏目信息,获得各网站荐股数据。在大数据时代,单机爬取的速度往往难以满足大规模数据爬取需求,可以考虑引入Hadoop平台技术,实现分布式存储与并行信息爬取策略。

数据处理。包括数据清洗和数据挖掘两部分。数据清洗是筛选出所有网页访问正常且内容完整有效的数据信息;数据挖掘是指针对处理后的文本信息,通过分析各网站的文本结构,并利用文本分词、文本分类、文本聚类等技术进行主题关键词的挖掘和分析。

策略构建。分析数据挖掘得到的规律,并制定相应的交易策略。单个财经频道选股策略为:在每个交易日,根据文本挖掘的荐股信息,在推荐后的第一个交易日以开盘价买进该个股;如果该股停牌,则不买入;持有期到期后以收盘价卖出该个股,如果个股在持有期末停牌则延迟卖出,直至可以卖出。多财经频道智能选股策略是在单财经频道的基础上拓展了数据范围,考虑了各个网站在过去一段时间内单个策略下的表现,优先选取过去一段时间内收益率超过某设定标准(如对比上证指数)的前若干个网站,结合当前交易日推荐个股构成超配组合。

神经网络算法在量化投资中的应用

神经网络算法是数据挖掘中的重要模型,它的产生得益于生理学和医学对人脑的探索成果。科学证实:脑神经系统具有丰富的层次结构,“神经-中枢-大脑”的工作过程是一个不断迭代、不断抽象的过程。人工神经网络正是一种应用类似于大脑神经突触连接结构进行信息处理的数据挖掘模型。

神经网络由大量的节点(或称神经元)相互连接构成,每个节点代表一种特定输出函数,也称为激励函数,每两个节点间的连接代表一个对于通过该连接信号的加权值,即权重。神经网络的输出则根据网络的连接方式、权重值和激励函数的不同而有所差异。常见的神经网络模型通常将节点分成三个层次:输入层,输出层和隐含层。输入层即给定的模型输入,输出层即神经网络预测的结果,隐含层是神经网络内部自动运算过程。

将神经网络模型应用于量化投资分析的基本假设在于:市场存在着人类无法直接判断但是计算机可以挖掘产生的规律和逻辑。与基于传统统计学假设检验的方法论不同,神经网络作为一种数据挖掘模型技术,并不需要投资者事先对逻辑进行完整的预判,而是依赖于计算机通过输入参数对输出结果进行学习。因此可以有机会打破人类固有的思维局限,从更高量级的数据中发掘隐藏规律。结合西蒙斯的“壁虎式”投资理论可知,投资时在短线内是可以进行方向性预测并捕捉到短期套利机会的。因此,基于神经网络的交易策略正是借助于该原理对大量的历史交易数据进行学习,建立预测模型,从而在实际交易中捕捉到短期的交易机会。

以基于神经网络的高频股价预测模型为例,其核心逻辑在于:市场上买卖双方的交易行为决定了股票价格的形成和波动,通过基于神经网络的数据预测模型对高频市场行情数据进行分析和挖掘,对短期内股指期货的涨跌进行预测,然后根据预测结果确定股指期货的买卖信号。预测模型的输入是短期内的股票价格数据、价格的变化范围信息、买卖盘价格和委卖委买量数据等,预测模型的输出是未来短期内的涨跌方向。从实证结果来看,该模型将大量期货历史交易数据作为学习集,通过大量训练,对一秒钟高频下的股指期货涨跌进行预测,并能在预测模型样本外的测试数据样本中达到73%的准确率。据广发证券(000776,股吧)应用该模型后披露的数据显示,自2013年初至2014年7月,累计收益率达到99.6%,年化收益率为77.6%,最大回撤为-5.86%。

值得一提的是,近年“深度学习”在人工智能上所取得的技术突破迅速引起金融行业的极大关注。目前已经有行业研究者开始尝试将深度学习应用于量化投资以获取超越传统神经网络量化模型的收益。深度学习并不特指某一个算法,而是Sparse Coding、RBM、深信度网络等技术方法的总称。与传统神经网络模型2~3层隐含层不同,深度学习模型的隐含层数可达8~9层,甚至更高。因此当该思想被提出之初,海量的训练数据和很高的计算复杂度超出了当时硬件的承受能力,但由于近年计算机硬件性能的提升,深度学习算法在准确率方面的优势迅速凸显,这也使得深度学习在量化投资领域的应用前景越来越广阔。

对冲基金资产配置建议

2015年,全球对冲基金行业陷入业绩低谷,尽管管理资产规模仍呈上升趋势,但行业整体业绩惨淡,诸多对冲基金面临清盘。除了2015年大宗商品表现不佳、希腊债务危机反复、中国股灾波及全球等市场因素外,投资者风险厌恶倾向上升,对冲基金还面临着巨大的赎回压力。这些都给对冲基金的发展提出了严峻的挑战。

然而,随着量化技术的不断发展,特别是大数据时代数据挖掘技术的迅猛发展,使得对冲基金用以研究、跟踪市场的工具愈发强大。数据挖掘携手对冲基金,将在大数据时代为量化投资带来不断创新能力。

对银行投资顾问而言,建议在深化对市场把握的过程中,更多关注基金模型的底层基本原理,特别是数据挖掘的基本逻辑,更好地为客户提供专业意见。从银行资产配置工作实际来看,目前市场上已经出现了多支公募基金与互联网公司合作的 大数据 基金产品,如:广发基金与百度合作的“中证百度百发策略100指数型基金”、南方基金与新浪合作的“大数据100指数型基金”等。该类产品类型涵盖了指数型、股票型和混合型基金以及集合资产管理计划。银行应进一步拓宽视野,加强对国内各大基金与互联网公司合作推出的“大数据基金产品”予以关注,并考虑引进其中优秀产品,以期为客户提供更为优质的资产配置服务。

作者:王彦博、杨璇、刘曦子

作者单位:中国民生银行,对外经贸大学信息学院

大数据时代下对冲基金的数据挖掘技术探析

责任编辑:王培

随意打赏

数据挖掘技术对冲基金经理对冲基金公司对冲基金
提交建议
微信扫一扫,分享给好友吧。