422888.com金多宝论坛,官家婆水心论坛四不像,79900满堂红,262222盛杰堂高手论坛,79900满堂红免费,789165.com,www.201848.com
262222盛杰堂高手论坛

六合现场开奖结果【建投 金工】大数据周报:择时收益199%多头收

时间:2019-10-19 00:38  作者:admin  来源:未知   查看:  
内容摘要:管婆特马彩图崔文升_互动百科 !原标题:【建投 金工】大数据周报:择时收益1.99%,多头收益2.45% 2017年06年22日发出看多信号,近期可适当加仓,上周择时收益为1.99%。从2014年01年02日到2017年06年30日,多仓单个信号平均收益2.16%累计收益181.49%;空仓信

  管婆特马彩图崔文升_互动百科!原标题:【建投 金工】大数据周报:择时收益1.99%,多头收益2.45%

  2017年06年22日发出看多信号,近期可适当加仓,上周择时收益为1.99%。从2014年01年02日到2017年06年30日,多仓单个信号平均收益2.16%累计收益181.49%;空仓信号单个平均收益0.24%,累积收益4.33%。

  以情绪指数排名前5的个股作为多头,以排名倒数前5的作为空头,该策略上周多空收益差为1.36%。自2014年以来多空累计收益为190.0%,年化收益为36.67%,最大回撤27.57%。

  上周多头组合收益2.45%,其中,招商银行(600036.SH)上周涨幅高达5.23%;上周多头组合相对沪深300指数超额收益1.24%,空头组合相对沪深300指数超额收益为-0.13%。

  大数据的源头质量,直接决定我们指标质量,决定着我们的策略优劣性。目前,国内的相关数据来源主要为第一类上交所,深交所等的公告、财报,监管信息等;第二类财经新闻网站,比如新浪财经,第一财经,东方财富网,中国证券网,金融界,雪球财经,腾讯财经,第一财经等的个股新闻,行业新闻,宏观经济等;第三类社交媒体,比如股吧,贴吧,微博等;第四类为关注数据,比如百度,搜狗等个股每天搜索数量及分析师研报提及个股等。我们目前数据主要爬取新浪财经个股相关新闻,包括200多家媒体在内的所有个股新闻。

  大数据采集则是通过网络爬虫或网站公开API等方式从上述相关网站上获取我们所需要的数据信息,将非结构化数据从网页中爬取下来,并解析相关信息,将其存储为统一的本地数据文件,并以结构化的方式存储在我们的数据库中。

  数据预处理指直接从网页爬取的数据并不能直接用于使用,而是需要经过一定的预处理,以保证数据质量和数据安全。因为在大数据应用中,数据来源非常广泛,数据质量良莠不齐,更需要预处理过程。数据预处理主要是去除无法解析的错误网页,删除重复的数据,去除无效的数据等;将不同的数据源爬取到的数据统一存储,建立数据仓库。

  从2014年1月1号到2016年9月26日,已经有200多万条个股新闻数据,共45g多,虽然现在不算超级大数据,但随着我们系统的逐渐完善,数据来源的多样化,数据存储一定会成为较大的瓶颈。为了满足大数据访问的效率与要求,大数据处理需要合理地存储与组织各种数据,以减少网络和存储I/O开销,提升系统性能; mysql大数据存储目前我们主要是采用分表和分区技术。

  以上技术应用于小型大数据还可以完美解决,但是超级大型数据则无能为力。目前有以下几种典型的大数据存储技术解决方案,第一种采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景。第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

  通过市场情绪分析、财经文本分析、新闻热点捕捉、主题挖掘等从这些大量的新闻中挖掘出有效信息。

  数据挖掘常用的几种方法为:分类分析、聚类分析、关联分析、预测分析、异常分析等等。分类分析是首先从已有的数据中选出已有的分类,且把所有的没有分类的要进行分类的数据按照这些已规定好类别分别进行分类。聚类分类不属于预测性的问题,该算法主要解决的是把一群给定的对象划分成若干个组的问题。划分样本的依据是聚类问题的核心点。聚类分析主要是解决当要分析的数据缺乏描述信息或者是无法组织成任何分类模式时用于样本的聚类分析。关联分析中主要技术是对象相关度或者他们之间的关系。预测分析主要包括一无线性回归,多元线性回归,Markov预测模型等。

  利用我们爬虫系统的数据,统计并提取沪深300成份股的每日所有的新闻数量。新闻热度即沪深300成份股的每一日新闻数量之和为当日的新闻热度。

  若当日信号突破上轨,则发出看多信号,次日以开盘价开多仓,同时将上次信号以次日开盘价平仓,开仓之后,若没有新信号,持有nday天以nday+1天开盘价平仓。

  若当日信号突破下轨,则发出看空信号,次日以开盘价开空仓,同时将上次信号平仓,开仓之后,若没有新信号,持有nday天以nday+1天开盘价平仓。

  开平仓:若当日信号突破上轨,则发出看多信号,次日以开盘价开多仓,同时将上次信号以次日开盘价平仓,

  新闻情绪指数因子构建即先求出正负面新闻权重和构成的当日新闻情绪指数,然后再把N日指数进行相加,得到当期的新闻情绪指数因子。(具体新闻分类方法及当天新闻情绪指数构建可查看深度报告《大数据研究之指标构建:机器学习之贝叶斯文本分类算法的实现》)。

  该策略类似于多因子选股策略,只是这个策略中,只有N日正负面新闻权重和构成的当日新闻情绪指数相加这一因子。

  把N个交易日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,选取排名前topN作为多头组合或空头组合,选取排名倒数前topN作为空头组合或者多头组合。其中,多头组合与空头组合都剔除买入当天一字涨跌停和停牌股票,新上市股票一个月内也不能作为候选股,多头与空头组合N+1个交易以平均价买入,持有N个交易日以平均价卖出,若卖出当天有一字涨跌停和停牌股票,则顺延到下一个交易日以平均价卖出,并买入需要买入的股票,使多头与空头组合始终保持满仓。最后计算多空收益差。

  多头组合: 把N个交易日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,选取排名前topN的股票作为多头组合。

  空头组合: 把N个交易日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,选取排名倒数前topN的股票作为空头组合。

  策略参数:N,topN,w_neg(即负面新闻对股票影响程度,正面新闻默认为1)。

  本公众订阅号(微信号:中信建投金融工程研究)为丁鲁明金融工程研究团队(现供职于中信建投证券研究发展部)设立的,关于金融工程研究的唯一订阅号;团队负责人丁鲁明具备分析师证券投资咨询(分析师)执业资格,资格证书编号为:S01。

  本订阅号不是中信建投证券金融工程研究报告的发布平台,所载内容均来自于中信建投证券研究发展部已正式发布的金融工程研究报告或对报告进行的跟踪与解读,如需了解详细的报告内容或研究信息,请具体参见中信建投证券研究发展部的完整报告。

  在任何情况下,本订阅号所载内容不构成任何人的投资建议,中信建投证券及相关研究团队也不对任何因使用本订阅号所载任何内容所引致或可能引致的损失承担任何责任。

  订阅者对本订阅号所载所有内容(包括文字、音频、视频等)进行复制、转载的,需注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、六合现场开奖结果,删节和修改。返回搜狐,查看更多



Power by DedeCms