香港正版通天报e9633当前位置:香港正版通天报 > 香港正版通天报e9633 >

金工:人工智能选股之特征选择

发表时间: 2019-06-19

  特征选择是机器学习数据预处理环节的重要步骤,核心思想是从全体特征中选择一组优质的子集作为输入训练集,从而提升模型的学习和预测效果。我们将特征选择方法应用于多因子选股,发现特征选择对逻辑回归_6m、XGBoost_6m基学习器的预测效果有一定提升。我们以全A股为股票池,以沪深300和中证500为基准,六合脑筋。构建行业中性和市值中性的选股策略。基于F值和互信息的方法对于逻辑回归_6m、XGBoost_6m、XGBoost_72m基学习器的回测表现具有明显的提升效果。

  特征个数并非越多越好。以逻辑回归_6m和XGBoost_6m为基学习器时,随着入选特征数的增加,模型的AUC先上升后下降;对于我们的70个特征而言,入选特征数在50左右效果最好。以XGBoost_72m为基学习器时,随着入选特征数的增加,模型的AUC先上升后持平。以基于F值+FPR方法对逻辑回归_6m进行特征选择为例,统计入选特征的频次,发现入选频次高的特征以价量类因子为主。

  特征选择是特征预处理的重要环节之一,其意义在于:1)减少时间开销;2)避免过拟合;3)使模型容易被解释。特征选择方法主要包括过滤式、包裹式、嵌入式三类,最常用的方法为过滤式。“过滤”的标准可以来自于无监督学习,如特征本身的方差、熵等;可以是围绕特征和标签构建的统计指标,如F值、互信息、卡方等;也可以由其它模型提供,如L1正则化线性模型的回归系数、树模型的特征重要性等。

  特征选择本质上是一种降维手段,没有引入新的信息,因此难以给基学习器的效果带来质的改变。特征选择的优势在于,当我们面对海量的原始特征,仅靠人力无法逐一筛选时,该方法将大幅提升机器学习模型的开发效率。实际上,由于本文使用的70个原始特征均为经单因子测试确证有效的因子,所以特征选择方法更多地是起到锦上添花的作用,如果原始特征包含部分无效的因子,那么特征选择方法可能会对选股策略效果带来更明显的改善。

  风险提示:特征选择方法高度依赖基学习器的表现。该方法是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基学习器失效,则该方法存在失效的可能。特征选择方法加大了模型复杂度,也存在一些过拟合风险。



友情链接:

Copyright 2018-2021 香港正版通天报 版权所有,未经授权,禁止转载。