SignalA_up 提供了用于分析上市公司临时公告的模型和函数,包括不同的大语言模型(LLM)、嵌入(embedding)方法、测试模型和辅助工具(如OpenAI API的本地调用)。
您可以在这里找到使用示例。
注意:在开始部署前,强烈建议使用 python3.10 或 python3.9 创建虚拟环境,以免干扰原始环境。
要启动或停止虚拟环境,可以使用 conda 命令
conda create -n your_env_name python=3.10
要启动或停用虚拟环境,可以使用: 在 Linux 上
source activate your_env_nam
# 要停止:
source deactivate
在 Windows 上
source activate your_env_nam
# 要停止:
source deactivate
要使用这些工具,需要安装所需版本的软件包:
cd proj/
conda install -n your_env_nam requirements.txt # 或 pip install -r requirements.txt
如果已经有数据集,输入文件应该是一个表格,列值的格式与SQL数据库的输出格式匹配: [[InnerCode]、[SecuCode]、[BulletinDate]、[InsertDate(数据入库的时间)]、[InfoTitle]、[Detail]] ; 如果没有,请参考 get_word_cloud.py 进行数据抓取。
- 数据格式和数据预处理
- 主题模型
- Embedding
- 标签分类器
- 对 Roberta_chinese 进行微调
- 结果及分析
示例1:LDA训练结果(gensim)
# LDA0713_临时股东大会前十主题及主题词
Topic #0: 简易程序 特定 法律 意见书 特定 董事会 办理 对象 发行股票 提请 授权 提请 授权 董事会 授权
Topic #1: 事务所 律师 法律 意见书 见证 决议 会议 资料 通知 更正
Topic #2: 法律 集团股份 意见书 律师事务所 取消 部分 事务所 集团股份 法律 议案 会议 资料
Topic #3: 会议材料 董事会 全权 办理 法律意见书 见证 通知 更正 授权
Topic #4: 会议材料 发行上市 法律意见书 本次发行 本次发行上市 会议决议 会议资料 通知 更正 上市决议 法律意见
Topic #5: 律师事务所 法律意见书 集团股份 集团股份 会议资料 法律意见
Topic #6: 法律意见书 集团股份 法律意见书 新材料股份有限公司 法律 集团股份
Topic #7: 大会决议 有效期 法律意见书 提案 补充 通知 增加提案 特定对象
Topic #8: 类别 会议 股东会 会议材料 h股 法律意见书 会议资料 a股 法律意见
Topic #9: 律师事务所 会议材料 出版 传媒股份有限公司 法律 意见书 律师事务所 会议资料
示例2:多标签-多输出Xgboost分类器+穷举搜索最优(GridSearch-Multioutput(XGB(learning_rate=0.1,max_depth=3,min_child_weight:=6,min_samples_leaf=30,reg_alpha=0.1))
Best score on test set:0.552
Best beta on test set:1.0
Best parameters set:
learning_rate: 0.1
max_depth: 3
min_child_weight: 6
min_samples_leaf: 30
reg_alpha: 0.1
---------------------分红---------------------------------------------
precision recall f1-score support
0 0.99 1.00 0.99 949
1 0.97 0.69 0.81 42
accuracy 0.99 991
macro avg 0.98 0.84 0.90 991
weighted avg 0.99 0.99 0.98 991
……
---------------------诉讼案件---------------------------------------------
precision recall f1-score support
0 0.99 1.00 1.00 978
1 1.00 0.38 0.56 13
accuracy 0.99 991
macro avg 1.00 0.69 0.78 991
weighted avg 0.99 0.99 0.99 991
The F1 Micro Score is: 0.59
The F1 Macro Score (Unweighted average) is: 0.56
The F1_Beta Score is: 0.56
ROC AUC 分红: 0.8447
ROC AUC 股东大会决议: 0.8035
……
ROC AUC 诉讼案件: 0.6923
示例3:三种匹配对象的PSM结果对比
precision recall f1-score support
0 0.93 1.00 0.96 894
1 0.92 0.36 0.52 97
accuracy 0.93 991
macro avg 0.93 0.68 0.74 991
weighted avg 0.93 0.93 0.92 991
precision recall f1-score support
0 0.87 0.97 0.92 790
1 0.78 0.42 0.54 201
accuracy 0.86 991
macro avg 0.82 0.69 0.73 991
weighted avg 0.85 0.86 0.84 991
precision recall f1-score support
0 0.93 0.99 0.96 883
1 0.85 0.44 0.58 108
accuracy 0.93 991
macro avg 0.89 0.71 0.77 991
weighted avg 0.93 0.93 0.92 991
precision recall f1-score support
0 0.99 1.00 1.00 978
1 1.00 0.38 0.56 13
accuracy 0.99 991
macro avg 1.00 0.69 0.78 991
weighted avg 0.99 0.99 0.99 991
precision recall f1-score support
0 0.92 0.99 0.96 893
1 0.74 0.23 0.36 98
accuracy 0.92 991
macro avg 0.83 0.61 0.66 991
weighted avg 0.90 0.92 0.90 991
会计政策变更
- 数据:2023年上半年公司临时公告(以交易所发布为主) JYDB(当天或一天内更新)
- 举例:"募集资金永久改道补充流动资金":公司终止募集项目,资金不受监管约束->利空事件 (38/5000)
2. [《江化微:江阴江化微电子材料股份有限公司关于使用部分闲置募集资金进行现金管理到期赎回的公告》](./603078_20230324_IC35.pdf)
4. 逻辑
4. 事件标签:(人工打标 200+官方文件)24->15
临时公告事件 | 临时公告事件 | 临时公告事件 |
---|---|---|
分红 | 股东大会决议 | 资产重组 |
业绩预告 | 持股变动 | 再融资 |
股权激励 | 交易所公开信息 | 关联交易 |
退市风险 | 新项目开展 | 担保 |
会计政策变更 | 人员聘请 | 现金管理 |
变更信息 | IPO | 审计保留意见 |
异常波动 | 变更信息 | 内部控制 |
-
数据源的扩充
-
标签的细化
- 事件层级
- 事件分析:
- 《上市公司日常信息披露工作备忘录第一号 临时公告格式指引》 上交所 2015
-
NLP技术
- 文本相似度
- 专门的语料+停词(根据训练数据循环生产)
-
大语言模型对于上下文的理解(慢,确定有效性后进行)
- Roberta_chinese
- 哈工大讯飞联合实验室发布的 Bert-wwm-ext 和 Roberta-wwm-ext
-
大语言模型+后处理(规则模型)