三、核心需求:狼眼系统的“四大支柱”
基于调研结果,项目组将狼眼系统的需求归纳为“四大支柱”,分别对应后续章节的核心模块,构成从数据采集到决策支持的完整闭环。
(一)支柱一:“鹰眼”数据抓取——让系统“看得见”
数据是系统的“血液”,抓取能力决定了“视野宽度”。需求明确要求:
• 多源异构数据的自动化采集:对接Wind、Choice等金融终端API,爬取巨潮资讯、港交所披露易等官方平台公告,解析PDF/Excel财报(解决“表格识别错位”难题),抓取雪球、东方财富股吧的用户评论(日均处理量≥100万条);
• 非结构化数据的结构化转换:通过NLP技术提取业绩说明会录音中的“管理层语气词”(如“谨慎”“乐观”的频率)、行业论坛讨论中的“高频关键词”(如“产能过剩”“技术突破”),转化为可计算的标签;
• 数据更新的实时性:财报数据T+1更新,舆情数据分钟级推送,产业链数据(如商品价格)每小时刷新。
这一需求直接对应第222章“数据抓取”,为后续清洗整理(第223章)提供“原料保障”。
(二)支柱二:“筛子”清洗整理——让数据“用得上”
原始数据如同矿石,需经清洗才能提炼价值。需求聚焦三大痛点:
• 缺失值处理:对“未披露数据”(如部分港股公司的研发费用),采用“行业均值填充+风险提示”策略,避免简单剔除导致样本偏差;
• 异常值识别:通过“3σ原则”与“孤立森林算法”双重校验,区分“真实异常”(如突发大额订单)与“数据错误”(如财报录入失误);
• 标准化对齐:统一不同来源的“行业分类”(如将“新能源车”细分为“动力电池”“整车制造”“充电桩”),确保跨公司、跨行业比较的有效性。
这一需求为第223章“清洗整理”设定了“质量标准”,确保后续指标构建(第224章)的基础可靠。
(三)支柱三:“标尺”指标构建——让分析“说得清”
指标是系统的“语言”,需兼具“专业性”与“可解释性”。需求强调:
• 分层指标体系:一级指标(如“财务健康度”“成长潜力”“风险暴露”)下设二级指标(如“财务健康度”包含偿债能力、盈利能力、营运能力),三级指标(
本章未完,请点击下一页继续阅读!