量化投资从数据说起

2016年8月13日,文因互联举办智能金融沙龙第9期,由TuShare的作者刘志明先生主讲“量化投资从数据说起”。

刘志明,财经数据接口包tushare的创始人,就职于通联数据,12年技术开发和金融数据分析经验,主要从事数据采集和处理工作,为金融量化和主动型投资提供专业数据支持。TuShare是一个免费、开源的Python财经数据接口包,主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,能极大减轻量化研究的工作量,使他们更加专注于策略和模型的研究与实现上。webwxgetmsgimg (5)webwxgetmsgimg

演讲开始,刘志明先生对TuShare 这个名字的起源做了解释:Tu是兔子的兔,来源于“挖地兔”。刘先生小时候去山上捡柴,看到野兔在地里爬萝卜,需要用很大的力气才能吃到萝卜,这件事情让刘先生印象深刻。后来刘先生工作中也需要爬取一些数据,这让他联想到小时候看到兔子爬萝卜的经过,感觉自己也像是爬萝卜(数据)的兔子,而当时爬的数据很多都是为了分享给大家,于是TuShare就这样诞生了。

刘志明先生接下来对TuShare的现状以及未来的期许做了详细的阐述。TuShare用起来很方便,但是也有一些问题,比如说数据质量,还有数据和API维护的持续性。目前数据来源于网络例如新浪财经、凤凰财经、网易,也包括交易所的网站,但是有些数据质量一般,稳定性也不太好,所以后期会规划新的版本,力争解决这些问题,也会尽力去寻找更多特色大数据,帮助用户用有效的数据来发现市场的无效性,寻找更多的alpha。TuShare的优点首先是免费和开源;其次是数据使用方便,期望以后一起做社区,大家都来用数据并发现问题,这样数据质量就会不断提高,也期望数据一直免费服务于Quant,作为量化投资前期研究的强大支持。另外TuShare是基于Python科学计算库开发,提供很多数据清洗的函数和方法,为量化策略的实现提供便捷的接口。

 

量化投资的关键要素

刘先生讲到做事情讲究天时、地利、人和, 映射到量化投资里面包括以下三方面:

首先是数据,数据是第一要位,尤其是高质量的数据,假如没有数据就无从做回测,没有好的数据就无法得到正确的结果。

其次是经验,有了数据就可以写模型,完成一个有效的策略需要丰富的投资经验,这很关键。

最后是运气,虽然量化投资可以实现量化对冲,与主动型投资相比,跟系统性风险关联并不太大,但是也是需要一些运气。踩好节奏,规避一些结构性风险,一方面是政策风险,二是趋势风险。

 

量化投资关键步骤

首先是做数据采集和整理,主要包括数据规划、采集、清洗处理、结构化、API化。因为从各个源头去采集数据的话,需要做很多工作,这部分占了量化模型实现百分之六十左右的工作量。

二是策略开发和调优,这部分主要包括设计策略模型,编码实现模型,通过数据进行回测,根据结果进行优化改进,这部分主要占据大约百分之三十的工作量。

三是模拟和交易,策略实盘之前要进行模拟测试,根据实际的行情进行模拟交易跟踪,模拟通过之后进行实盘交易,资金量级的大小会影响策略的效果,不同的阶段要进行很谨慎的测试和模拟。

 

传统金融数据分类

量化投资主要需要哪些数据呢?这里主要讲一些传统的数据分类,其实还有很多特色大数据。

第一是基础数据,没有基础数据很多的量化策略是没法写的。主要包括:证券及公司基本信息,行情数据,财务报表,公司行为,财务数据,市场行为,指数数据等。

二是宏观和行业数据主要包括:各类经济指标,国内生产总值,居民消费指数,特价指数,经济景气指数,财政与货币政策价格,工业品出厂价格指数等,行业包括有色煤炭,能源化工,房地产,汽车交运,电力,消费品等。

三是高频数据:股票的分笔高频,分时高频,各类分钟数据,股指期货高频,商品期货高频等。

四是衍生数据:这个数据体现了公司的投资和技术能力,很多需要自己去计算,但是小公司或者是小的机构没有这种研究能力,需要采购,比如很多有价格的技术因子,基本面因子,资金流向因子,分析师因子,风控数据等。

 

数据采集途径主要有数据终端、数据API、财经和行业网站、数据库四种方式。

数据处理工具和过程

数据存储类型主要是有CSV,TXT,EXCEL,HDF file,DataBase;数据处理工具有很多例如Python、R语言、Matlab、SAS、Java等,但是目前Python在金融数据分析领域越来越越受到欢迎。

 

数据来源

行情、基本面、公告财报等披露信息主要来源于证券交易所,期货交易所

证券交易所主要包括:上海证券交易所,深圳证券交易所,全国中小企业股份转让系统。上海证券交易所和深证交易所,投资品种有A股和B股,债券,封闭式基金,ETF等品种的行情、财报及公告。

全国中小企业股转系统:新三板,做市或协议行情、财报和公告。

期货交易所主要有:上海期货交易所,大连商品交易所、郑州商品交易所、中国金融期货交易所。

宏观数据:国家统计局、财政部、人民银行。其中国家统计局的数据是最权威的。财政部主要是提供货币和财政政策。

行业数据:行业协会(大部分需要注册账号或者是购买帐号才能获取数据)、政府机构(如商务部农业部)、行业网站(最及时,自己有数据采集能力)。

 

数据服务产生过程

数据服务产生主要分为三个步骤:数据源发布数据、数据供应商采集和处理、用户获取。

数据源(交易所等)主要生产和发布实时行情数据、交易数据、财报公告等,经过数据供应商的采集和整理,以规整的、结构化的信息提供给用户,而用户的获取途径可以是终端、网站、供应商数据库等,能提供完整数据库的供应商主要有通联数据、wind、恒生聚源等。

webwxgetmsgimg (4)

整个交流活动持续了大概两个多小时,期间进行了数据采集和数据处理的程序DEMO,也通过展示数据源网站进行了数据采集探讨,针对传统金融数据和特色大数据的应用进行了广泛的交流。

发表评论