我国a股股票收益率数据的聚类分析及投资策略研究-凯发娱乐官网

期刊菜单

我国a股股票收益率数据的聚类分析及投资策略研究
clustering analysis and investment strategy research of a-share returns in china

doi: , , html, ,
作者: 纪汉霖, 廖峻锋：上海理工大学管理学院，上海
关键词: 股票收益率；聚类分析；回测；stock returns； cluster analysis； backtesting

摘要: 机器学习在股票领域的应用日益成为研究和实践的热点。通过分析相关上市公司的股票价格、财务数据、市场情绪和宏观经济因素等多维数据，机器学习算法能够建立预测模型，帮助投资者做出更明智的投资决策。对反映股价信息的个股、大盘、财务数据3类构建了共15项指标，然后采用机器学习中的k-means聚类算法对我国a股收益数据进行了聚类分析，分析识别出对提高股票投资获胜概率的关键性指标以及相应合适的取值范围。在得到相关结论后，先使用板块以及指数数据对结论进行了检验，得到0.8及以上的盈利概率；然后采用2015~2022历年来的历史交易数据进行了二次验证，策略累计回报率显著优于沪深300基准指数。

abstract: machine learning’s application in the stock market field is increasingly becoming a focal point in both research and practice. by analyzing multidimensional data such as stock prices, financial data, market sentiments, and macroeconomic factors related to listed companies, machine learning algorithms can establish predictive models to assist investors in making wiser investment decisions. this article constructs 15 indicators across three categories—individual stocks, market indices, and financial data—to reflect stock price information. then, using the k-means clustering algorithm in machine learning, it conducts cluster analysis on the returns data of a-shares in china, identifying crucial indicators and their appropriate value ranges that enhance the probability of successful stock investments. after obtaining these conclusions, the study validates them initially using sector and index data, achieving a profitability probability of 0.8 or higher. subsequently, historical trading data from 2015 to 2022 is used for a secondary validation, showing significantly better cumulative returns compared to the benchmark shanghai and shenzhen 300 index.

文章引用：纪汉霖, 廖峻锋. 我国a股股票收益率数据的聚类分析及投资策略研究[j]. 理论数学, 2024, 14(10): 237-247.

1. 引言

与欧美发达的金融市场相比，我国的证券交易市场仍然属于新兴市场，仍然存在较多的改进和提升空间。从目前中国股票投资市场参与者来看，散户投资者占大多数，这些投资者往往金融知识储备不足，热衷于追涨杀跌，机构投资者占比较小且水平参差不齐。量化选股策略有助于避免散户投资者的情绪化决策，使交易更加客观，有益于提升投资者收益并促进我国股票市场的稳定发展。

2. 文献综述

量化投资是一种利用计算机技术和数量统计模型，对数据进行深入分析和预测的方法，量化投资者通过这一过程最终实现投资理念的实施，并制定有效的投资策略。harry markowitz (1952)提出了现代资产配置理论，用数学和统计的方法研究资产投资组合，成为了量化投资的理论基础[1]。ma kabouda (2000)采用遗传编程算法进行了股价预测研究，提出了一种盈利的交易策略，该策略首先利用遗传编程算法对时间序列数据进行概率预测，以验证股票数据的可预测性[2]，并通过遗传编程算法建立了一个回归模型，使用前一日的交易数据来预测下一个交易日的股价，即一日交易策略，这一策略取得了一定的投资回报。孙亦迪(2020)构建了价值、成长、质量、动量四方面的多因子模型，基于该模型得到的股票组合累计收益超过沪深300指数为基准的累计收益70%以上[3]。丁琦(2020)对500多个股票因子进行了主成分分析，构建新的选股因子，以此建立了多因子量化选股策略[4]。莫嘉伟(2023)基于lstm模型对股价价格做了预测，并制定了相应的选股策略[5]。

在聚类模型方面，mac queen (1967)提出了k-means聚类算法，因其算法简单高效的优点，后续经过国内外学者对其的不断完善与发展，k-means模型已经成为适用范围最广的多维度数据分类模型[6]。

在股票的聚类分析与投资策略的组合上，李娜(2018)将聚类算法与股票kdj指标进行结合，依据股票当日涨跌情况对kdj的值进行聚类，找出股价上涨的簇所对应的kdj指标值的范围区间[4]。杨晓君(2019)使用聚类方法将家电行业42只股票按照投资价值分为以下几种类型：值得投资的价值股或潜力股、需要观察的稳定股、不值得投资的风险或者夕阳股[7]。曾驰(2020)对k-means算法进行了优化，在对比随机数的预测效果上，该改进的k-means聚类模型结果更加均衡；并在后续的分析中对所选制造产业链板块公司的财务数据进行聚类，按照结果分为盈利良好、盈利一般、盈利差三类公司[8]。上述投资策略存在一定缺陷，一方面即使公司盈利状况良好，也不意味着购入股票能够稳定获利；另一方面得到股价上涨所对应的指标区间后，并未设置完整的买入卖出策略，后续投资者仍然可能遭受损失。对于投资者来说他们比较关心股票买进后的盈利概率、大小以及合适的卖出时机，构建的投资策略在股价周期涨跌过程中设置条件，得到符合条件的交易数据，使用聚类分析得到较为稳定的聚类结果并且筛选出需要重点关注的指标，在股价的波动过程中为投资者选择合适的投资时机提供参考，提高投资获胜概率。

以往文献大多在比较单一视角下将聚类算法与股票某方面指标进行分析研究，考虑到股票市场是一个多因素、多方面综合影响的复杂市场。创新点如下：1) 构建了个股、大盘、财务三类指标的指标体系，能够更加全面、深入地捕捉市场信息。在聚类过程中，将指标与盈利概率紧密结合，剔除那些与盈利概率无作用或者影响甚微的指标，使最终的聚类结果更有可靠性。2) 设计了比较完善的量化回测策略，交易信号的生成需要满足涨跌幅、观察期两方面的要求，以及最大最小两种盈利目标的出清规则。最后分股票板块和年份分别计算盈利概率以及累计回报率，验证前文聚类结论以及策略的可行性。

3. k-means聚类算法

3.1. k-means聚类介绍

k-means聚类是用于将数据集划分为多个紧密相关的簇，使得相同簇内的数据点相似度最大化，而不同簇之间的相似度最小化。k-means的主要步骤如下：

1) 初始化：确定k值，并随机在数据集合中选择k个数据点作初始聚类中心。

2) 分配：对数据集合中的每个数据样本，计算它们与每个中心的距离，将离当前样本划归为距离最近的中心所属的集合。

3) 分配：对数据集合中的每个数据样本，计算它们与每个中心的距离，将离当前样本划归为距离最近的中心所属的集合。

4) 重复步骤2和3：直到聚类中心不再发生显著变化。

3.2. 最佳聚类数量的选择

k-means算法需要先确定聚类数目，k的取值直接关系着聚类结果的好坏。k值过大可能会导致簇之间的区分度降低，聚类结果不够清晰；也会导致过拟合问题，即每个数据点都被分配到一个单独的簇，使得聚类结果过于细化，不符合实际情况。k值过小时，可能会模糊簇的边界，聚类结果不够准确；会出现欠拟合问题，即聚类结果缺乏足够的细化，不能捕捉到数据中的内在结构和模式。

以下采取误差平方和(sum of the squared errors简称sse)的方法来确定最佳聚类数目。

$sse = \sum_{i = 1}^{k} \sum_{p \in c_{i}} {| p - m_{i} |}^{2}$

其中，c_i是第i个簇，p是c_i中的样本点，m_i是c_i的质心(c_i中所有样本的均值)，sse是所有样本的聚类误差，代表了聚类效果的好坏。sse (sum of squared errors)的主要原理是，当聚类数量逐渐增加时，每个聚类的紧密度也会增加，从而整体误差逐渐减小。当聚类数量小于实际聚类数量时，随着聚类数量的增加，每个聚类的紧密度会大幅增加，因此整体误差会显著降低。当聚类数量达到实际聚类数量时，随着聚类数量的增加，每个聚类的紧密度增加的幅度会减小，从而整体误差的变化会迅速减小，并逐渐趋于平缓。在图像上观察，整体误差与聚类数量的关系图形状类似于一个肘部，肘部位置对应的聚类数量即为最佳的聚类数量。因此，sse也被称为肘部法(elbow method)。

3.3. k-means聚类的优势

由于目前股票信息获取成本等原因，大量个人投资者倾向单纯的技术指标分析，对能够反映公司股票投资价值的基本面分析则不予重视，殊不知这些信息中能够反映公司股票投资潜力的基本信息，一方面能通过财务报表的历史数据研究公司发展的经营、发展、有无竞争力等情况；另一方面通过公司所处的整个行业来判断是否有行业及政策前景。考虑到上市企业众多，信息杂乱，如用相关性分析的方式，数千只股票的相关性分析所需的工作量，个人投资者显然无法完成，若用神经网络对股价进行预测的方式，选股方式上也会带有投资者的主观性，并且神经网络通常是对股价进行预测，其参数过多极易造成过拟合导致预测的结果不佳。

综合考虑选择聚类算法，主要基于以下两个方面，一、聚类算法较为便捷，参数设置极少，并且有成熟的方法去选择最佳聚类数量；二、聚类算法能够在大量股票数据中，快速选择出特征相近的股票，并将其放置在一个类别之中，帮助投资者确定合理的投资范围。

4. 回测设计

股票回测是一种金融分析方法，用于评估特定投资策略或交易规则在过去的历史市场数据上的表现。它通过模拟投资策略在过去的市场环境中的表现，从而帮助投资者了解该策略的潜在盈利能力和风险。设定该回测策略：在观察内股价出现大幅度下跌，股价在小幅度回升后，分析放量当日过后所面临的盈利大小及概率。

涨跌幅：对历史数据筛选设置了两个条件，其一股价要出现较大幅度的下跌(至少超过30%)，较大的下跌幅度可以提供一个明显的调整点，表明市场对该股票出现了较大的抛售压力。这种情况下，股票可能已经逼近或达到了一种超卖状态，在公司经营状况以及行业前景不变的情况下，这种超卖状态意味着当前股价可能远低于真实价值；其二当前股价距离前期最低点要出现至少10%的涨幅，这是因为市场情绪对股价的影响至关重要，如果出现股价在下跌30%后进一步下跌或者股价维持很小幅度的变化，都说明股价上升的支持力度较小，即使股票的内在价值已经高于股票价格，此时股价由市场情绪所主导。股票价格下跌后，上涨10%以上的要求可以视为修复过程的一部分。较大的上涨幅度表明市场对该股票的信心正在恢复，投资者对其价值的重新评估可能正在发生。这种修复过程可能伴随着市场情绪的积极变化，从而有助于股票回归到其潜在的均衡价值。

观察期：对于均值回归的观察期选择至关重要，中国a股市场常常受到季节性和周期性因素的影响，例如季度财报披露、年中、年底等特定时段的市场表现可能存在明显差异。选择120个交易日作为时间窗口，能够涵盖不同季度和重要时段，更好地体现市场季节性和周期性特点。

盈利目标：将满足前面上述条件的某一交易日称之为放量当日，即过去120天交易日股价下跌30%以上，放量当日前股价相较于观察期内价格最低点上涨至少10%。在放量当日过后，观察股票收益所能达到的收益情况。并且为了方便比较，设置成5%的最少盈利目标以及10%的最大盈利目标。观察期内股价跌幅超过30%，在观察期后股价相比较前期低点上涨10%，观察股价后续上涨会不会达到所设盈利目标条件。

5. 回测分析

5.1. 指标与数据选取

研究内容是对符合交易策略放量当日的有关交易数据进行聚类分析，目的是挖掘高盈利股票所具有共同特征，为了尽可能涵盖股票当日交易活跃程度、市场整体走势、公司盈利能力这些方面的信息，选择分别从个股、大盘、财务数据三个方面分别选取15个指标去构建指标体系，如表1所示。

在120个交易日内的观察期内，计算最低股价点和最高股价点的下降幅度得到x1；计算放量日前股价与最低股价的增长幅度得到x2；计算放量当日股价与最低股价的增长幅度得到x3；计算放量当日

table 1. definition of indicator system

表1. 指标体系定义

一级指标	二级指标	指标符号	指标意义
个股特征	最高跌幅	x1	前期股价最低点距离左侧高点的下跌幅度
	前期涨幅	x2	前期股价相对于前期最低点的涨幅
	当天涨幅	x3	当日股价相对于前期最低点的涨幅
	成交量	x4	当日成交量/观察日最大成交量
	盈利所需天数	x5	达到最大盈利的天数
	最大亏损	x6	股价下跌过程中一直持有股票的亏损额
	亏损所需天数	x7	达到最大亏损的天数
	阴/阳线	x8	放量当日阳线/阴线
	当日涨跌	x9	放量当日涨跌幅
	实体	x10	放量当日实体大小
	上影线	x11	放量当日上影线比例
	下影线	x12	放量当日下影线比例
大盘特征	大盘	x13	放量当日大盘涨跌
财务数据	每股收益	x14	该年度基本每股收益
财务数据	净利润增长率	x15	该年度净利润增长率

交易量与最大交易量的比值得到x4；计算股价在放量日后达到最大值点的日期与放量日的日期之差得到x5；计算股价最高点与最低点的天数得到x6；计算股价最高值到最低值所需的天数得到x7；放量当日股价k线图为阳线则赋值为1否则为−1得到x8；计算放量当日股价收盘价与开盘价的上涨幅度为x9；计算放量当日实体相对于整个k线的比值得到x10；计算放量当日上影线相对于整个k线的比值得到x11；计算放量当日下影线相对于整个k线的比值得到x12；放量当日上证指数上涨则赋值为1否则为−1得到x13；x14、x15通过公司财务报表获取。

考虑数据的时效性以及完整性，选取2021~2022年中国a股5066家上市企业(数据截至2022年底)作为观察对象。其所有数据均来自wind数据库，对符合回测中已设定条件的数据进行选取，剔除掉缺失值，并且考虑到异常值的影响，对数据进行上下1%缩尾处理。最终得到6357条数据。使用python 3.8进行建模。使用sklearn机器学习库中的k-means聚类方法。

5.2. 数据处理与最佳聚类数量的选取

标准化是对数据进行预处理的一种常见方法，用于将数据转换为具有零均值和单位方差的标准正态分布。这是因为5000余家上市公司之间行业、体量之间差距过大，为了消除这种影响，特对所有数据进行标准化处理。

数据处理后，为了避免聚类数簇过大过少对结果的影响，这里采用上文提到的手肘法(sse)的方式确定最佳的聚类数量，由于设置了5%的最小盈利目标和10%的最大盈利目标，因此将数据按照盈利目标的不同分为两组，对5%盈利条件的数据得到的聚类数量取值确定为4，这是因为曲线在聚类数目是4时sse值下降幅度逐渐趋于平缓，该位置即是肘部，因此最佳聚类数目的值为k = 4。同理，对10%盈利条件下的数据采用一样的方法，结果也为k = 4。

5.3. 聚类结果分析

在最佳聚类数目下，数据经过聚类分析得到了4个不同类型的簇。将主要焦点将聚集在具有较高盈利概率的簇类上，其中盈利概率是指在该类数簇的样本数据中，股价是否能达到预定目标的增长幅度的概率。最终探究各项指标的数值范围是否对最终的盈利概率产生显著影响。

5.3.1. 5%盈利概率条件

对各聚类簇之间的盈利概率进行对比，得到的结果如表2。

table 2. statistical results of clustering under 5% profit condition

表2. 5%盈利条件下聚类结果统计

聚类结果标签	达到5%盈利概率
0	70.54%
1	63.66%
2	96.98%
3	94.47%

可以看到，标签为2、3簇类的数据其盈利概率显著大于标签为0、1的数据集。为了找出哪些指标对盈利概率有关系，对不同标签簇内的15项指标进一步分析，其中多数指标区分度不明显，数值无明显差异，并不影响最终聚类结果因此将其剔除。将剩余差异性较大的指标筛选出来，探讨这些差异性指标是否对提高盈利概率起到了关键作用，结果如表3所示。

table 3. mean key indicator statistics at 5% profit condition

表3. 5%盈利条件下关键指标均值统计

标签	近利润增长率	基本每股收益	下影线	上影线	实体	成交量
0	−0.39	0.61	0.16	0.30	0.04	1.24
1	−0.78	0.50	0.29	0.31	0.02	2.05
2	0.44	1.23	0.11	0.15	0.07	0.97
3	0.24	1.14	0.12	0.19	0.06	0.98

其中，平均盈利概率较高的两个簇，财务特征的两项数据显著好于其他两个簇。净利润增长率和基本每股收益是衡量企业盈利能力的关键指标。2、3标签所代表的公司经营效益好，出现股价异动往往是由于市场投机行为导致股价过度高于真实价值，股价过度下跌进而上升至合理股价的过程；而0、1标签所代表的公司经营状态差，面临巨大亏损以及投资者对其前景不看好，股价同理出现过度下跌进而回升真实价值的过程。

关于个股特征的数据，研究发现放量当日的k线形态和交易量特征尤为突出。相关结论如下：1) 放量当日的k线形态，2、3标签的两簇数据表明当日k线出现长实体以及较短的上、下影线，而0、1标签的k线形态刚好相反。2) 放量当日的交易量，2、3标签所代表的股票近似达到了过去120个交易日的最大值；而0、1标签对应的股票则远高于这个最大值。前者k线形态数据表明，2、3标签股票刚开盘时，股票上涨使得最低价和开盘价之间的价格差异较小，表明股票价格下跌没有形成明显压力；并且上影线较短也意味着股票价格平稳上升，没有形成股价上涨压力。后者交易量数据表明，股票在放量当日的交易活动非常活跃，买方力量强大，使得股票价格持续上涨。3) 这种长实体、高交易量的股价特征可以被视作一种突破信号，即股价之前经历大幅度下跌然后横盘一段时间，这种信号的出现会吸引来更多的投资者关注，进而持续推动股价上涨，出现获利机会。

5.3.2. 10%盈利概率条件

同理对10%盈利条件的数据进行相同的处理，将差异较大的指标筛选出来，结果如表4所示。

table 4. statistical results of clustering under 10% profit condition

表4. 10%盈利条件下关键指标均值统计

标签	10%盈利概率	净利润增长率	基本每股收益	下影线	上影线	实体	成交量
0	0.43	0.49	−0.82	0.26	0.30	0.03	1.84
1	0.92	1.01	0.16	0.13	0.22	0.06	0.93
2	0.89	0.91	0.21	0.16	0.24	0.05	0.95
3	0.18	0.61	−0.59	0.18	0.30	0.04	1.73

同样可以发现，标签1、2所代表的高盈利概率股票与5%盈利条件下的高盈利概率股票条件基本吻合，即：1) 较好的财务特征，高盈利概率股票的净利润增长率和基本每股收益数值远大于低盈利概率股票的数值。2) 较理想的k线形态，低盈利概率的股票上下影线长，股价上升走势的阻力相对较大，高盈利概率的则相反。3) 成交量，放量当日高盈利概率的股票接近过去120个交易日的峰值，而低盈利率的股票会远超这个最大值，交易量剧增通常伴随股价的剧烈波动，对一些经营状况、行业前景好的企业来说，会带来股价的急剧攀升，反之对那些身处困境的公司，会面临股价腰斩的风险。

5.4. 基于板块和指数的盈利概率计算

回测是对历史数据的回顾分析，根据上文聚类结果，选择电力设备、计算机板块和沪深300指数成分股去验证其结果准确性，筛选出符合上下影线短(均小于0.3)、实体长(大于0.03)，放量当日交易量与观察期内最大交易量相比至少在其90%以上，以及财务指标均为正值的数据与该板块内股票的所有数据进行对比。这里上下影线、实体的数值计算是以k线形态的相对值进行计算的，以阳线时为例，实体的数值等于开盘价减去收盘价除以前日收盘价，上影线数值等于(最高价 − 收盘价)/(最高价 − 最低价)、下影线数值等于(收盘价 − 最低价)/(最高价 − 最低价)，阴线时收盘价与开盘价互换。这里为了表述简洁，只以5%的盈利结果作为目标。以上数据来源于前文2021~2022的数据集合，按照板块和指数进行拆分。

5.4.1. 电力设备板块

以生产电力设备为主营的企业，股价波动比较频繁，这是因为电力设备在产业结构中属于中间环节，受到影响的因素是多方面的，比如电价的调整、生产电池的原料以及以电池为供能的新能源汽车的价格变动都会引起其股价的波动。一共得到387条数据，55支符合条件的股票，以5%的盈利为目标，统计结果如表5。

table 5. power equipment sector key indicators mean statistics

表5. 电力设备板块关键指标均值统计

5%盈利概率	净利润增长率	基本每股收益	下影线	上影线	实体	成交量
0.90	2.42	2.40	0.10	0.09	0.08	2.02

统计结果与聚类结论相似。1) 财务数据，这些股票的平均年利润增长率达到了242%，平均年基本每股收益达到了2.40，说明这些公司处于风口，公司业务急剧扩张，盈利状况良好。2) k线形态，符合上文实体较长、上下影线较短的结论。3) 成交量，放量当日交易量显著高于过去120日最大成交量。在满足财务指标、k线形态、交易量三个方面的指标特征下，达到最低盈利目标5%的概率约为0.9，意味着投资者能够以相对较低风险的获取稳定的可预见的收益。

5.4.2. 计算机板块

计算机板块的股价波动也异常频繁，计算机行业本质是一个技术创新驱动的行业，当发布一些新技术、新产品时，会对整个行业前景产生影响。例如chatgpt的出现一度引起资本市场热潮，吸引大量资金涌入，进而推动股价上涨。但是公司的盈利模式、能力需要数年的时间去调整，随着热点的过去，股价也将迅速波动，这也为投资者创造了获利机会。一共得到300条数据，36支满足条件的股票。同样以5%的盈利作为目标。结果如表6。

table 6. computer plate key indicators mean statistics

表6. 计算机板块关键指标均值统计

5%盈利概率	净利润增长率	基本每股收益	下影线	上影线	实体	成交量
0.82	0.34	0.75	0.09	0.12	0.07	1.07

与电力设备板块相比，计算机板块盈利概率略低，是因为：1) 计算机板块的财务指标不足，说明电力板块公司的发展良好，超越计算机板块的整体综合水平。2) k线形态类似，电力设备板块的实体数据更长，股价波动相比较沪深300更平缓。3) 交易量，电力设备板块的成交量相比较更大，更容易造成股价上涨。

5.4.3. 沪深300指数

继续选择沪深300成分股作为结论的验证对象，该指数由沪深市场流动性、规模最好的300支股票构成，具有代表性。

首先在源数据中按照股票代码进行筛选，所有数据中属于沪深300指数的股票数据一共有1087条，125支满足条件的股票，对比条件如上，统计结果见表7。

table 7. statistics of key indicators of csi 300 index

表7. 沪深300指数关键指标均值统计

5%盈利概率	净利润增长率	基本每股收益	下影线	上影线	实体	成交量
0.85	0.96	3.08	0.09	0.10	0.06	0.91

观察沪深300指数与前两个板块可知，在k线形态上三者都保持一定稳定性，只是交易量和财务指标之间有所差异，沪深300盈利概率不如电力设备板块的原因与前文类似，主要还是成交量不足和有关公司盈利状况不够好，在后续推动股价上涨方面较为乏力。

5.5. 基于时间序列的盈利概率计算

将该量化投资策略应用于2015年至2022年的金融市场数据，旨在评估策略的有效性。之所以选择这一时间段，既是考虑到数据的时效性，也是考虑到这段时间涵盖了多种市场环境，包括a股最近一次牛市行情、牛市过后相应到来的熊市行情、国家经济转型使得科技公司大规模上市引发的股市科技潮以及新冠疫情对股市的冲击。使我们能够更全面地评估策略在不同市场条件下的表现以及有助于确定该策略是否能在长时间跨度中保持一致的准确性。以上数据均来自wind数据库。

将各年度满足k线、交易量、财务数据按照上文5.4指标数值要求的筛选出来，统计得出2015~2022的盈利概率情况以及指标数据，结果如表8。

table 8. earnings probability and average statistics of key indicators from 2015 to 2022

表8. 2015~2022年度盈利概率以及关键指标均值统计

年份	5%盈利概率	股票总数	净利润增长率	基本每股收益	下影线	上影线	实体	成交量
2015	0.89	594	1.00	0.43	0.09	0.08	0.09	0.95
2016	0.73	444	1.14	0.37	0.09	0.11	0.07	0.94
2017	0.74	311	1.12	0.41	0.08	0.10	0.06	0.99
2018	0.66	549	0.80	0.62	0.09	0.10	0.06	0.98
2019	0.82	413	0.92	0.71	0.10	0.10	0.06	0.93
2020	0.83	364	1.13	1.00	0.09	0.11	0.06	0.92
2021	0.84	473	1.42	1.58	0.09	0.11	0.07	0.91
2022	0.79	231	1.09	2.04	0.10	0.11	0.07	1.67

在策略的整体收益表现在7年的数据中都能保持一定的稳定性，其中盈利概率在2015年达到最高值，这是a股市场最近一次牛市行情，公司股价和市值随着资金涌入和杠杆不断被提高，直到2015年下半年股市开始剧烈波动，后续几年间的策略收益明显下降，由于聚类结果所选择的股票都是财务数据好的公司，在股市震荡期间可能仍有大量资金支持，以至于大盘行情对个股的影响被滞后了。虽然策略的年度整体盈利概率出现了大幅度下降，但是目标股票池是放到整个a股市场的，如果细分到几个高盈利板块，该策略仍然能够取得0.8及以上的盈利概率。从k线形态和交易量来看，这7年间的数值都比较接近，除了2022年的平均交易量，这是因为该年度符合策略的股票数量只有200余支，是往年的数量的一半左右，更易受到极端值影响，进行1%上下缩尾处理后，所得平均交易量的值为1.11，与往年差值显著减少。

5.6. 盈利情况统计

根据上文的盈利概率，计算2015~2022期间每年运用该策略所得到的年化收益率，鉴于年度数据符合条件的股票总数过多，会给投资者带来实际选股困扰。因此采用二次聚类的方法，既能有效地缩减目标股票池总数，也能提高选股组合的质量水平，其中，考虑到可能出现的噪声值等异常情况，对二次聚类结果进行上下1%缩尾处理，另外为了尽可能模拟真实的市场情况，不对历史市场行情加以干预。最后设置的仓位管理模式如下：止盈阈值为10%，即购入该支股票后，盈利达到10%则卖出；止损阈值为5%，即购入该支股票后，亏损达到5%则抛出。买入手续费为千分之三，即购入股票收取总金额的3‰作为手续费支出；卖出手续费为千分之一，即卖出股票后收取总金额的1‰作为手续费支出。

使用历年的沪深300指数年度收益率作为基准进行对比，结果如表9所示。

策略得到的股票组合所得收益虽没有每年都优于沪深300指数，但在面对股市波动时，该策略仍然能够得到正向收益，即使面临亏损也远低于沪深300指数的亏损比例。并且在累计收益上，该策略有明显的优势，随着时间的累积优势不断扩大，最终领先100个百分点以上，在长期投资中能够得到稳定且可观的回报。

table 9. strategy returns compared with benchmark returns (csi 300 index)

表9. 策略收益与基准收益(沪深300指数)对比

	策略收益(%)	沪深300(%)
2015	30.04	5.58
2016	14.64	−11.28
2017	1.94	21.78
2018	−.84	−25.31
2019	21.83	36.07
2020	6.70	27.21
2021	30.14	−5.2
2022	9.56	−24.11
累计收益	168.03	64.93

6. 不足与结论

6.1. 结论

深入探讨了量化投资策略和历史数据回测分析的结合，以揭示与股票盈利概率相关的关键指标，得出如下结论：

一是通过回测策略和k-means聚类算法相结合的方式，识别出了一组与盈利概率紧密关联的指标，这为投资者在选择目标股票时提供了更多的参考信息和工具，以更明智地选择潜在的投资目标。

二是为了研究这些关键指标在哪个范围区间下会显著提高策略的盈利概率，经过比对得到放量当天k线形态实体大于0.03、上下影线小于0.3以及交易量达到过去120个交易日的最大值的90%以上，以及财务数值均为正值以上的结论。

三是分时间序列和板块分别对其做了验证，结果表明，第一，在市场行情稳定下该策略能够达到80%左右的成功率，牛市甚至能达到90%，但是熊市时该策略的成功率会显著下降，投资者在参考该策略时需结合市场行情，在熊市时从某一高盈利概率板块的股票提高筛选标准找出更高质量的股票，或者参考以上做法使用二次聚类，以历年来三类指标的平均值为标的进行选择，能够有效地缩减目标股票池。并且从持股集中度来看，这也符合分散投资的要求，可以避免非系统性风险的产生，保证策略的整体质量，反之在牛市时应该扩大投资；第二，关键指标的平均值在这7年内表现出一定的稳定性。这种稳定性强化了这些指标的可靠性，表明它们可能不受市场波动的临时影响，而具有潜在的长期有效性。这对长期投资者可能尤其有价值，因为他们寻求更持久和可靠的投资机会。

四是将该策略在2015年~2022年的年度收益率和累计收益率与沪深300指数进行了对比，结果表明虽然并不是每年都优于沪深300指数，但是在累计收益上能够完胜沪深300指数。

五是将量化交易策略与聚类方法相结合，提高最终决策的客观性和效率，不受投资者个人情绪波动的影响。是对聚类理论和应用的扩展，为金融市场的决策制定提供新的视角和方法。

6.2. 不足

一是在聚类过程中，选择的指标数量不足以反映股价的全部信息，首先，在股票市场中，每支股票并非孤立的个体，而是相互关联和相互影响的。股票的价格波动受到众多因素的综合影响，其中包括整体市场走势以及所属板块的行情变动。板块是由一组相关行业或公司构成的股票集合，当股票所属板块发生重大变化时，该板块所有股票将受到共同影响，并未对板块变动设置指标。其次，财务指标是用于衡量和评估企业财务状况和经营绩效的关键工具，它们提供了有关公司财务健康和盈利能力的关键信息，设置的财务指标过少，对公司的财务信息无法全面反映。如想提高策略的质量，可能需要加入更多的指标。

二是量化策略是聚焦于整个板块以及市场的，满足策略要求的股票数量众多，在保证策略获胜概率的前提下，投资者不能自行删减股票池数量，这也对投资者的资金要求带来了挑战。

参考文献

[1]	markowitz, h. (1952) portfolio selection. the journal of finance, 7, 77-91.
[2]	kaboudan, m.a. (2000) genetic programming prediction of stock prices. computational economics, 16, 207-236.
[3]	孙奕迪, 李恒昊, 韩梦雪. 多因子模型在中国股票市场的选股应用[j]. 现代营销(经营版), 2020(11): 242-243.
[4]	丁琦. 基于主成分分析的股票多因子量化投资策略研究[j]. 时代金融, 2020(17): 74-76.
[5]	莫嘉伟. 基于lstm模型的股票价格预测和选股策略研究[d]: [硕士学位论文]. 广州: 广州大学, 2023.
[6]	macqueen, j. (1967) some methods for classification and analysis of multivariate observations. proceedings of the fifth berkeley symposium on mathematical statistics and probability, 1, 281-297.
[7]	李娜, 毛国君, 邓康立. 基于k-means聚类的股票kdj类指标综合分析方法[j]. 计算机与现代化, 2018(10): 12-17.
[8]	曾驰. 基于财务分析的上市公司分类的改进k-means与随机森林方法研究[d]: [硕士学位论文]. 湘潭: 湘潭大学, 2020.

为你推荐

凯发娱乐官网的友情链接