📃 FinQwen: FinQwen: 致力于构建一个开放、稳定、高质量的金融大模型项目,基于大模型搭建金融场景智能问答系统,利用开源开放来促进「AI+金融」。
【🔥 2023/11/24 Update】开源通义千问金融大模型,上下文窗口16K,提供全精度和int4量化版本;
📈 本项目,源自“2023博金大模型挑战赛”,目前天池平台长期开放学习赛供大家学习和提交方案。
🚀 随着人工智能和数字化技术在金融领域的日益广泛应用,本项目希望借助社区的力量,共同探索大预言模型在金融科技中的应用潜力。针对金融场景,此次项目和比赛主要聚焦LLM问答系统,希望针对金融场景的结构化数据、文本数据等,实现高质量的检索和问答。
📘 基于此次比赛和项目,分别开源了通义千问金融大模型系列模型、博金大模型挑战赛金融数据集和比赛评测程序
包括10张基金表数据和80篇招股书文档,更多说明参考数据集链接
- 基金基本信息
- 基金股票持仓明细
- 基金债券持仓明细
- 基金可转债持仓明细
- 基金日行情表
- A股票日行情表
- 港股票日行情表
- A股公司行业划分表
- 基金规模变动表
- 基金份额持有人结构
- 80份招股说明书
“2023博金大模型挑战赛”限制选手只能使用“通义千问金融大模型”或“通义千问7B模型”,在后续学习赛和开源过程中,欢迎各位参与的同学使用其他模型和方案。
关于通义千问金融大模型,我们基于通义千问14B模型,主要做了以下更新:
- 扩展金融行业词表;
- 增量训练行业金融200B规模,涵盖中英文财报、研报、新闻、书籍、论坛等多种类型数据;
- 训练上下文扩展到16K,借助NTK和LogN等技术,推理长度可以扩展到64K;
支持modelscope和huggingface官方训练框架,更多技术细节和fine tune脚本,请参考Qwen主页,以及Qwen Technique Report。
此次项目,同时开源了“2023博金大模型挑战赛”的评测代码,具体详见eval目录,评测主要从两个角度出发:
- 参考答案中的关键信息,如关键词、数据查询结果、文本查询结果,是否包含在选手提供的最终回答中,主要考察recall指标;
- 选手答案的语义信息与参考答案是否接近,综合考察F1 score和基于向量的文本相似度 (具体采用开源模型 shibing624/text2vec-base-chinese)
2023博金挑战赛复赛选手成绩:
排名 | 参与者 | 组织 | 分数 | data_query | text_comprehension | 最优成绩提交日 |
---|---|---|---|---|---|---|
1 | 饺子研究院 | comm | 83.27 | 90.46 | 72.48 | 2023-12-12 |
2 | 果树灌溉技术组 | QTrade | 82.02 | 89.72 | 70.48 | 2023-12-12 |
3 | hxjj | 华夏基金 | 81.05 | 91.02 | 66.09 | 2023-12-12 |
4 | 大模型说的队 | 北京大学 | 81.03 | 87.46 | 71.39 | 2023-12-10 |
5 | 梦想还是要有的 | 杭州某厂 | 76.55 | 82.89 | 67.04 | 2023-12-11 |
6 | 猫街四果汤 | 猫街 | 75.72 | 83.37 | 64.24 | 2023-12-12 |
7 | 土豆刺客 | 暂无 | 74.56 | 85.46 | 58.22 | 2023-12-10 |
8 | 何李双人组 | 广西大学 | 74.40 | 84.80 | 58.79 | 2023-12-12 |
9 | 挖矿的小孩 | 上海交通大学 | 74.27 | 78.12 | 68.50 | 2023-12-12 |
10 | 3110 | **农业科学院 | 71.73 | 81.64 | 56.86 | 2023-12-12 |
在整理该项目的过程中,我们也发现了很多优秀的开源项目和产品:
- 通义点金,也算是夹带一些私货,针对金融场景,我们打造了业界首个基于multi-agent框架的金融产品,能够分析事件,绘制表格,查询资讯,研究财报,深度对话等;
- FinGLM,基于GLM模型针对金融财报问答场景构建的对话智能系统;
- FinGPT,一个开源的针对金融场景的GPT框架,包括底层数据支持,模型训练,到上层应用。
- ...
以下是为本项目做出贡献的团队和个人:
- 🌟 饺子研究员
- 🌟 果树灌溉技术组
- 🌟 hxjj
- 🌟 大模型说的队
- 🌟 梦想还是要有的
- 🌟 猫街四果汤
- 🌟 ... 更多贡献者
FinQwen 开源项目出于完全公益目的,欢迎所有开发者申请加入,以及提交更多优秀代码方案。
本项目相关资源仅供研究、交流使用,一般不建议用于商业用途;如用于商业用途,由此所带来的法律风险,请自行承担。
涉及到模型商业使用问题,请务必遵循相关模型的协议,例如 通义金融。
感谢参与到比赛的每一位选手,是你们的努力造就了此次项目的开源。
感谢FinGLM项目,让我们看到社区的力量和发展,也启发我们发起此次项目,希望更多的小伙伴参与进来。