FinQwen: A Jupyter Notebook repository from Tongyi-EconML

📃 FinQwen: FinQwen: 致力于构建一个开放、稳定、高质量的金融大模型项目，基于大模型搭建金融场景智能问答系统，利用开源开放来促进「AI+金融」。

【🔥 2024/06/11 Update】感谢大家的积极支持，天池平台-基于LLM智能问答系统学习赛已经累计报名2676只队伍，并在榜单上取得了优异的成绩；
【🔥 2023/11/24 Update】开源通义千问金融大模型，上下文窗口16K，提供全精度和int4量化版本；

🚀 目录

📖 项目简介

📈 本项目，源自“2023博金大模型挑战赛”，目前天池平台长期开放学习赛供大家学习和提交方案。

🚀 随着人工智能和数字化技术在金融领域的日益广泛应用，本项目希望借助社区的力量，共同探索大预言模型在金融科技中的应用潜力。针对金融场景，此次项目和比赛主要聚焦LLM问答系统，希望针对金融场景的结构化数据、文本数据等，实现高质量的检索和问答。

📘 基于此次比赛和项目，分别开源了通义千问金融大模型系列模型、博金大模型挑战赛金融数据集和比赛评测程序

🛠 项目说明

1. 数据说明

包括10张基金表数据和80篇招股书文档，更多说明参考数据集链接

10张表，用sqlite存储。选手可自行替换为其他db。区间为2019年至2021年

基金基本信息
基金股票持仓明细
基金债券持仓明细
基金可转债持仓明细
基金日行情表
A股票日行情表
港股票日行情表
A股公司行业划分表
基金规模变动表
基金份额持有人结构

招股说明书

80份招股说明书

2. 模型说明

“2023博金大模型挑战赛”限制选手只能使用“通义千问金融大模型”或“通义千问7B模型”，在后续学习赛和开源过程中，欢迎各位参与的同学使用其他模型和方案。

关于通义千问金融大模型，我们基于通义千问14B模型，主要做了以下更新：

扩展金融行业词表；
增量训练行业金融200B规模，涵盖中英文财报、研报、新闻、书籍、论坛等多种类型数据；
训练上下文扩展到16K，借助NTK和LogN等技术，推理长度可以扩展到64K；

支持modelscope和huggingface官方训练框架，更多技术细节和fine tune脚本，请参考Qwen主页，以及Qwen Technique Report。

3. 评测说明

此次项目，同时开源了“2023博金大模型挑战赛”的评测代码，具体详见eval目录，评测主要从两个角度出发：

参考答案中的关键信息，如关键词、数据查询结果、文本查询结果，是否包含在选手提供的最终回答中，主要考察recall指标；
选手答案的语义信息与参考答案是否接近，综合考察F1 score和基于向量的文本相似度 (具体采用开源模型 shibing624/text2vec-base-chinese)

🏆 优秀开源方案

2023博金挑战赛复赛选手成绩：

排名	参与者	组织	分数	data_query	text_comprehension	最优成绩提交日
1	饺子研究院	comm	83.27	90.46	72.48	2023-12-12
2	果树灌溉技术组	QTrade	82.02	89.72	70.48	2023-12-12
3	hxjj	华夏基金	81.05	91.02	66.09	2023-12-12
4	大模型说的队	北京大学	81.03	87.46	71.39	2023-12-10
5	梦想还是要有的	杭州某厂	76.55	82.89	67.04	2023-12-11
6	猫街四果汤	猫街	75.72	83.37	64.24	2023-12-12
7	土豆刺客	暂无	74.56	85.46	58.22	2023-12-10
8	何李双人组	广西大学	74.40	84.80	58.79	2023-12-12
9	挖矿的小孩	上海交通大学	74.27	78.12	68.50	2023-12-12
10	3110	**农业科学院	71.73	81.64	56.86	2023-12-12

基于LLM智能问答系统学习赛，题目与博金杯大模型挑战赛初赛题目保持一致，选手成绩如下，更多信息请关注官方主页排行榜，榜单持续更新中：

排名	参与者	组织	分数	data_query	text_comprehension	最优成绩提交日
1	Oracle Database 23ai 来了	engchina	87.31	93.39	78.19	2024/5/9
2	我的事业是父亲		87	92.87	78.19	2024/5/9
3	就爱瞎鼓捣		86.9	93.27	77.34	2024/4/19
4	asf2013	蚌埠坦克学院	86.65	93.7	76.08	2024/4/19
5	5123		86.55	93.7	75.82	2024/4/19
6	阿里云小公主		86.34	91.76	78.19	2024/5/8
7	土豆地瓜	暂无	86.25	93.02	76.09	2024/3/22
8	不会ML	上海大学	85.69	92.64	75.27	2024/3/23
9	四去六进一	深信服科技	85.26	91.21	76.32	2024/3/24
10	繁星桂花拿铁		82.43	91.58	68.69	2024/1/15

🌱优秀平台&框架

在整理该项目的过程中，我们也发现了很多优秀的开源项目和产品：

通义点金，也算是夹带一些私货，针对金融场景，我们打造了业界首个基于multi-agent框架的金融产品，能够分析事件，绘制表格，查询资讯，研究财报，深度对话等；
FinGLM，基于GLM模型针对金融财报问答场景构建的对话智能系统；
FinGPT，一个开源的针对金融场景的GPT框架，包括底层数据支持，模型训练，到上层应用。
...

🤝 贡献者

以下是为本项目做出贡献的团队和个人：

🌟 饺子研究员
🌟 果树灌溉技术组
🌟 hxjj
🌟 大模型说的队
🌟 梦想还是要有的
🌟 猫街四果汤
🌟 不会ML
🌟 ... 更多贡献者

FinQwen 开源项目出于完全公益目的，欢迎所有开发者申请加入，以及提交更多优秀代码方案。

免责声明

本项目相关资源仅供研究、交流使用，一般不建议用于商业用途；如用于商业用途，由此所带来的法律风险，请自行承担。

涉及到模型商业使用问题，请务必遵循相关模型的协议，例如通义金融。

致谢

感谢参与到比赛的每一位选手，是你们的努力造就了此次项目的开源。

感谢FinGLM项目，让我们看到社区的力量和发展，也启发我们发起此次项目，希望更多的小伙伴参与进来。

Tongyi-EconML/FinQwen

🚀 目录

📖 项目简介

🛠 项目说明

1. 数据说明

10张表，用sqlite存储。选手可自行替换为其他db。区间为2019年至2021年

招股说明书

2. 模型说明

3. 评测说明

🏆 优秀开源方案

1. 饺子研究院

2. 果树灌溉技术组

3. hxjj

4. 大模型说的队

5. 梦想还是要有的

6. 猫街四果汤

7. 不会ML

🌱优秀平台&框架

🤝 贡献者

免责声明

致谢