能三阶排伪后是87只,前面是分步筛选,最终交集是87只,然后三阶排伪剔除伪庄股后剩下87只?可能我理解错了,再看原文:“将初始3000只股票压缩至2000只有效样本”,“二阶:五维特征‘匹配引擎’”后“筛选出87只候选庄股”,“三阶:关联规则‘排伪滤网’”是识别“伪庄股”,但最终结果是“筛选出87只候选庄股”,可能三阶排伪是在87只中剔除伪庄股,剩下真正的候选股,比如87只中剔除23只伪庄股,剩下64只进入四阶复核?不过原文后面说“87只候选股中,15只符合‘温州帮风格’,12只符合‘山东帮风格’”,所以应该是二阶匹配后筛选出87只候选股,三阶排伪后剩下87只(可能伪庄股较少),直接进入四阶复核。
2. 第二道防线:“凤竹纺织”的“数据挖掘复现”
以第301章案例“凤竹纺织”为例,还原数据挖掘模块如何从2000只样本中锁定它:
(1)数据抓取:
• 流通盘:8亿(符合5-20亿);
• 股东户数:2016Q4 3.2万户→2017Q1 2.5万户(降幅22%);
• 量能脉冲:2017年2月15日换手率25%(日均5%),股价涨1.2%;
• 盘口语言:买一至买五挂单“8888手”“6666手”,撤单率42%;
• 筹码分布:筹码集中度(90%)12%,获利比例25%。
(2)算法匹配:
• 五维特征全部命中,匹配度98%(仅“股东户数降幅22%”略高于20%阈值,属合理误差);
• 关联规则排除“游资短炒”(近1个月涨停2次,非高频)、“消息驱动”(无重大公告),判定为“真庄股”。
(3)人工复核:
• 林静调取“亲属账户”观察的“盘口挂单序列”,确认“8888手托单”为庄家行为;
• 标注“疑似庄家类型”为“山东帮”(历史数据显示山东帮爱炒国企改革,凤竹纺织属福建国企);
• 风险评级“S级”(控盘度高、拉升概率75%、监管风险低)。
3. 第三道防线:“数据挖掘”的“风险对冲设计”
数据挖掘过程中,团队用“隐形之网”的“操作同步系统”对冲“挖掘暴露风险”:
(1)数据匿名化处理
• 所有候选股数据均
本章未完,请点击下一页继续阅读!