1、大数据在选股分析中的应用 中文摘要在科技不断发展、网络覆盖率持续扩张的今天,大数据时代早已悄然而至,每个行业都会形成海量、繁杂的数据。对于如何有效地采集信息、如何挖掘出数据内部的规律,学者们一直在不遗余力地研究并不断提供各种新型的技术。对于国内的私募基金而言,大数据的价值及其所蕴含的新商机并未充分体现出来,不过可以肯定的是,大数据在私募基金决策的过程中起着越来越重要的作用。基金行业是一个大数据市场,股市每天交易频繁,由此形成了大量的数据,大数据分析技术在这一行业不断走向成熟的过程中,也在不断地更新。笔者在本课题中,以金融市场中存在的主要问题为切入点,以上市企业为对象,探讨如何对基本面数据以及股
2、票交易展开挖掘分析,并且详细阐述了K-means算法的基本原理、神经网络在选股的作用原理;在现有股票预测原理的基础上,提出的多聚类分析股票数据的方法,结合分类算法对股票数据进行训练,形成基于聚类分析的智能选股算法。然后对算法进行验证,对整体方案框架进行设计,通过MATLAB进行聚类实现,最后得出最优参数下的聚类结果。最后结合聚类分析出来的选股算法,利用HADOOP技术设计一个简单,稳定高性能的智能选股系统。实验结果显示,开发出的模型分析选股系统可以对股票数据进行多维的分析预测,作为投资者的投资决策的辅助工具,是利用数据挖掘技术结合多聚类分析股票数据的方法,分析大量与股票相关数据,并做出未来走势
3、预测,具有一定的实用意义。关键词: 私募基金;数据挖掘;证券分析;互联网大数据;交易数据AbstractWith the continuous development of technology and the continuous expansion of network coverage, the era of big data has long been quietly emerging and there is massive and complicated data in every industry. Researchers have been sparing no effort
4、in researching and constantly providing various new technologies for how to effectively collect information and how to find out the internal laws of data.For domestic private equity funds, the value of big data and the new business opportunities big data contains are not fully demonstrated, but it i
5、s certain that big data plays an increasingly important role in the decision-making process of private equity funds. The fund industry is a big data market. Daily trades in the stock market result in a large amount of data. Analysis technology of big data is constantly updated with the industry bein
6、g mature.In this subject, takeing the main problems existing in the financial market as the starting point and the listed companies as the object, the author explores how to excavate and analyze the fundamental data and stock transactions, and elaborates the basic principle of K-means algorithm. Bas
7、ed on the existing stock forecasting theory, this paper proposes a multi-clustering method to analyze stock data and a combination of classification algorithms to train stock data to form an intelligent stock selection algorithm based on clustering analysis.Then the algorithm is verified, the overal
8、l program framework is designed, and the clustering is realized by MATLAB. Finally, the clustering results under the optimal parameters are obtained. At last combining with the stock selection algorithm based on clustering analysis, a simple stable and high-performance intelligent stock selection sy
9、stem is designed by using HADOOP technology. The experimental results show that the model stock picking system can make multi-dimensional analysis and forecasting of stock data. As a supporting tool for investors investment decision-making, it has certain practical significance, which uses the metho
10、d of data mining combined with multi-cluster analysis of stock data, Stock-related data, and make the future trend forecast.Key Words:private fund; data mining; securities analysis; Internet big dataVIII目 录中文摘要IABSTRACTII目 录III图表目录V1 绪论11.1 论文选题研究的背景及意义11.2 国内外现状分析21.2.1 国外大数据在金融领域发展现状21.2.2 国内大数据在金
11、融领域发展现状41.3 论文的组织结构52 相关理论技术基础及可行性分析62.1 股票二级市场的状况62.2 数据挖掘工作原理92.2.1 聚类算法概述92.2.2 K-means算法原理102.2.3 分类算法142.2.4 分类算法的类型152.3 神经网络在选股中的作用182.3.1 神经网络进行股票预测的原理182.4 本章小结193 智能数据挖掘选股算法203.1 现状分析203.2 基本概念213.2.1 算法研究213.2.2 多聚类分析股票数据233.2.3 多聚类方法描述243.3 本章小结254 算法模型验证264.1 实验方案264.2 数据准备264.3 Matlab中
12、聚类的实现264.4 聚类结果284.4.1 采样/持有周期对聚类结果的影响284.4.2 分类数/滞后期对聚类结果的影响304.4.3 最优参数下的聚类结果304.5 本章小结315 选股系统的设计325.1 系统的详细架构325.2 并行数据挖掘算法实现335.3 数据库设计345.3.1 数据表索引345.3.2 数据表详细设计355.4 详细设计375.4.1 数据结构设计375.4.2 离线交易数据入库385.4.3 主要指标数据计算385.5 系统实施435.5.1 日线数据入库435.5.2 指标计算435.5.3 智能选股435.6 应用455.7 系统测试455.8 本章小结
13、466 总结与不足47参考文献49致 谢50图表目录图 21 K均值聚类算法的流程图11图 22 数据挖掘的流程图15图 23 数据文本分类的流程图15图 31 行业收益率序列聚类分析方法21图 32 分类数据产生过程22图 33 分类模型的建立22图 34 多重分类模型建立23图 51 系统架构图32图 52 并决策树算法流程图33图 53 离线交易数据入库流程图38图 54 日线数据入库界面43图 55 指标计算界面43图 56 股票预测数据45表 21 行业分类表8表 31 股票资产定价的技术发展表20表 41 不同采样/持有周期对聚类结果的影响29表 42 不同采样/持有周期对聚类结果
14、的影响(反转效应)29表 43 分类个数/滞后期对聚类结果的影响30表 44 聚类模型下的收益对比30表 51 数据库索引35表 52 日常交易数据表35表 53 股票指标数据36表 54 指标基本信息表361 绪论1.1 论文选题研究的背景及意义在过去短短几十年间,IT行业经历了多次历史性的革命,比如云计算、物联网等,而这一行业最新的突破性成果即为大数据。随着计算机和网络的普及,大数据时代已经降临,在这样的背景下,私募基金行业也迎来了新的机遇和挑战。无论是从投资者还是创业者的角度来看,大数据都是非常受关注的融资标签。大数据的首要特点是数据体量非常大,通常至少应该达到10TB,然而在现实中,很
15、多企业将自身的数据集全部集中起来,最终汇聚成达到PB级的数据量。另外,其所包含的数据从类型上来看是多种多样的,数据来源丰富多样,数据格式明显不统一,完全超出了以往人们所说的结构化数据范畴,还包含了半结构化数据以及非结构化数据。大数据的数据处理速率非常快,即便它涉及到庞大的体量,但依旧能够满足数据处理的实时性要求。最后,其数据具有很强的真实性,近些年间,社交数据、企业内容、交易等方面的信息不断涌现,这些数据都来自新的数据源,在这样的背景下,企业需要更加有效的信息,才能确保其真实性和安全性,为企业的决策提供准确、及时的依据。作为一种信息资产,大数据表现出大量、快速增长、多样化的特点,其在决策、洞察、流程优化方面有着明显的优势,但这些优势能够在多大程度上体现出来,主要由处理模式所决定。从数据类型角度而言,“大数据”是指超出以往的流程和方法的处理范围的信息。它对所有突破正常处理范围、必须使用非传统方法进行处理的数据集进行了定义。亚马逊网络服务(AWS)、大数据领域的学者John R