金融文本数据分析：人工智能背景下的探索与实践

申报人：项欣彤申报日期：2024-11-04

基本情况

所属批次:

2025年度大学生创新创业训练计划

项目名称:

金融文本数据分析：人工智能背景下的探索与实践学生选题

项目类型:

创新训练项目

所属一级学科:

理学

所属二级学科:

数学类

项目来源名称:

教师科研项目选题

项目归属学院:

项目期限:

一年半期

项目简介:

利用人工智能技术，特别是基于 Transformer 模型的自然语言处理（NLP）技术，对上市公司的财务报告进行深入的文本分析。通过自动化的文本分析，提取关键的财务指标和趋势，以及管理层的讨论与分析部分，最后生成文本摘要，考虑用文本信息解释市场异象的问题，从而为投资者和分析师提供更准确、全面的财务信息理解和决策支持。

负责人曾经参与科研的情况:

项目组负责人学习成绩优秀。具备必须的金融学和数学知识基础，并且能力突出，参与各种各样的竞赛活动，例如全国大学生数学竞赛。成员中有就任学院青志协部长、学校学生会部门组长，具有良好的沟通和组织能力。项目组成员同在一个专业，成员间沟通讨论方便，已经形成研究团队，成员学习成绩优秀，各具所长，有一定的研究经验和能力。团队成员责任意识强，能够及时发现问题，明确研究计划，有足够的文献阅读量，具备一定python、c语言、excel软件处理能力，确保在规定时间内高水平高质量完成任务。成员参加过多个英语竞赛，例如全国大学生英语竞赛和行业+英语大赛，并全员通过了四级考试，其中最高取得了628分的成绩。我们会充分利用课余实践来讨论研究，并且及时与老师取得联系，将老师的指导和自己的钻研结合，保证有足够的时间和精力完成本项目研究工作。指导教师多次担任团队成员的课程教师，彼此之间有充分的熟悉程度，也利于和团队进行沟通并指导。

指导教师承担科研课题情况:

无

指导教师对本项目的支持情况:

具备一定的金融学和计算机科学知识背景，初步熟悉自然语言处理和机器学习技术，可以熟练使用现有的人工智能工具。

项目级别:

市级

项目成员

序号	学生	所属学院	专业	年级	项目中的分工	成员类型
1	项欣彤	数学学院	数学与应用数学	2023	负责人	第一主持人
2	刘铎	数学学院	数学与应用数学	2021	1	第二主持人
3	高馨伊	数学学院	信息与计算科学	2023	3	成员
4	陈乐窈	数学学院	信息与计算科学	2023	2	成员

指导教师

序号	教师姓名	教师账号	所属学院	是否企业导师	教师类型
1	田苗	09048	数学学院	否	第一指导教师

立项依据

研究目的:

1. 改进现有金融文本分析的瓶颈问题： 金融数据的收集和处理面临着高昂的供应商报

价、不透明的数据处理方法等问题。本项目通过自动化的文本分析技术，能够有效降低

数据收集和处理的成本，提高数据的质量和可用性。这不仅能够解决现有数据问题，还

能为金融研究和实践提供更加丰富和可靠的数据资源。

2. 促进金融市场的公平性和透明度：目前金融数据的获取往往受到资本和技术的限制，

导致信息不对称，影响市场的公平竞争。而通过利用开放的人工智能 API 接口收集公开

数据，就可以打破数据垄断，降低数据获取的门槛，使更多的市场参与者能够平等地访

问和利用这些金融信息，有助于构建一个更加公平、透明的金融市场环境，推动市场向

强有效市场迈进。

3. 提升金融数据分析的现代化水平： 随着全球金融市场的复杂性和动态性的增加，传

统的金融数据收集和分析方法已难以满足市场对实时、精准信息的需求。我们可以通过

引入先进的人工智能技术，特别是基于 Transformer 模型的自然语言处理（NLP）技术，

来提高金融数据收集与分析的自动化程度和处理速度。这不仅能够提升数据分析结果的

准确性，还能为金融市场参与者提供更加及时的决策支持，从而适应现代金融市场的快

速发展。

4. 推动人工智能与金融行业的深度融合： 人工智能技术在金融领域的应用前景广阔，

但如何将人工智能技术与金融业务深度结合，实现真正的产业升级，仍然是一个挑战。

本项目通过实践基于 Transformer 模型的金融文本分析，不仅能够探索人工智能技术在

金融领域的应用潜力，还能为金融行业提供新的工具和方法，促进人工智能与金融行业

的融合发展。

研究内容:

国、内外研究现状和发展动态:

作为一种非结构化数据，文本大数据最近十年深刻影响金融学研究．这种影响体现在两类文献:第一类以信息为中心，将文本分析技术用于信息的品质(可读性)和数量(文本信息含量)、信息披露和市场异象等方面的研究;第二类与信息无关，主要是利用文本大数据分析技术构建全新指标，例如基于文本分析的公司竞争力、创新和经济政策不确定性等新变量。

过去，学术界应用文本大数据分析技术在信息品质、信息数量的度量，信息披露，市场异象和资产定价等方面取得了大量研究成果；产生了创新、竞争力、实际权力、经济政策不确定性和产品相似性等新指标和新变量。结合大数据处理方法和大样本计量分析方法，未来文本大数据在金融领域将会取得更大研究进展。

使用Transformer模型进行财务报告的文本摘要生成是一个热门的研究方向。Transformer 模型作为深度学习领域的重要技术之一，在自然语言处理任务中取得了巨大成功。其在语义理解和生成能力方面的优势，使其成为生成式摘要任务的理想选择。

目前，在这一领域，部分学者已经做出了有出色的研究如:Das等(2021)使用美国证券交易委员会(SEC)文件数据创建了RoBERTa-Fin 模型(预训练语言模型)，比只使用文本数值特征的模型表现更好，提高了分类准确度。这表明在金融文档分类中，全文和上下文至关重要，混合数据的使用是可行且有效的。Huang等(2023)基于 Transformer 开发了 FinBERT 模型，作为一种最先进的大型语言模型，专为金融领域而设计，通过融入金融知识，能够更好地总结金融文本中的上下文信息。Nguyen 等(2022) 针对英语以外的语言，从诸如 OSCAR 和 C4 等大规模多语料库中提取大量金融文本。在三种不同语言中进行了广泛的实验，展示了 MFinBERT 模型在各种标准基准任务中的有效性。Biesner 等(2022)采用了基于循环神经网络和 Transformer 架构的最新自然语言处理方法，开发了一种针对德国金融和法律文件的匿名化方法，以应对当前企业流程的自动化和数字化增加了对商业文件高效信息提取的需求。

创新点与项目特色:

1. 开发并验证一种基于 Transformer 模型的自动化文本分析模型，提高文本分析的准确性和效率，特别是在处理大量非结构化财务数据方面。

2. 利用上述模型生成文本摘要，为专业投资者和分析师提供更准确、全面的财务信息理解和决策支持。

3. 结合上述模型，构建一个综合的财务分析框架，该框架能够从财务报告中提取关键财务指标、风险因素和管理层讨论的语调，进一步提升文本分析的质量。

技术路线、拟解决的问题及预期成果:

1. 采集文档、转换格式并解析文档：采集财务报告并转化为容易被计算机处理的文本格式。用计算机对文本进行清洗，包括去除包括图形、表格、标签和冗余标点符号等无关信息、标准化术语和处理文本格式，以便于后续分析。

2. 文本挖掘：利用自然语言处理技术，如分词、词性标注、实体识别等，从文本中提取

有意义的财务和非财务信息。

3. 指标构建：构建可读性、语调、文档相似性等指标，进行计量分析。

4. 模型训练与优化：使用大量已标注的财务报告数据集训练 Transformer 模型，通过迭代优化提高模型的预测准确性。

5. 计量分析与文本摘要生成：利用已经训练好的 Transformer 模型，针对给定的财务报告，生成文本摘要。

6. 文本分析质量提升：从财务报告中提取关键财务指标、风险因素和管理层讨论的语调，提升文本分析结果的质量。

7. 实证研究：将模型应用于新的财务报告数据集，通过与传统分析方法的比较来验证模

型的有效性。

针对金融文本数据分析的主题，发表一篇期刊论文（普通期刊），一篇结项报告

项目研究进度安排:

1．2024年12月-2024年3月阅读文献资料，了解最新的研究成果和发展方向。

2．2025年3月-2025年6月项目立项，完成对Transformer模型的研究，对财务报告的文本数据进行分析。

3．2025年6月-2025年9月在基于统计分析方法的基础上，探索研究基于Transformer模型的分析方法在采集、解析并转换文本，对文本的挖掘，指标建构方面的应用。

4．2025年9月-2025年12月中期检查，检验Transformer模型对指定报告的数据分析的准确性和可行性，发现问题，提出优化整改的具体方案。

5．2025年12月-2025年3月针对中期检查中发现的问题，进行完善和改进，并实际检验研究成果，撰写论文，完成论文和投稿工作。

6．2026年3月-2026年6月填写结题表，撰写总结报告，准备结题答辩，完成结题任务。

已有基础:

与本项目有关的研究积累和已取得的成绩:

在项目申报之前已对所要研究的主题“金融文本数据分析”有较全面的了解，查阅了大量的文献资料、学习了相关方面的知识，为项目的研究做好了知识储备。并且与指导老师就项目的研究思路与方法进行了深入探讨，积极听取指导老师的意见，已确定了大致的研究思路,并已阅读以下相关文献：

1. ZHANG Q Y，QIN C，ZHANG F Y，et al.Transformerbased attention network for stock movement prediction[J].Expert Systems with Application，2022，202：117239.

2. 马长峰,陈志娟,张顺明.基于文本大数据分析的会计和金融研究综述[J].管理科学学报,2020,23(09):19-30.

3. 杨晓丹,吴延晖,朱浩滨,等.自然语言处理在金融文本信息分析的应用综述[J].科技与金融,2022,(08):69-72.

4. 李福鹏,付东翔.基于Trans former编码器的金融文本情感分析方法[J].电子科技,2020,33(09):10-15.DOI:10.16180/j.cnki.issn1007-7820.2020.09.002.

已具备的条件，尚缺少的条件及解决方法:

1．丰富的图书及数据库资源

华理图书馆有着丰富的图书资源，华东理工大学图书馆网站也提供了免费丰富的数据库资源。

2．扎实的学科基础

本项目的成员都学习过文献检索等基本技能型课程，已具备了一定的文献检索和数据处理的能力，并且对相关学科知识掌握牢固，能够保证项目的顺利进行。

3．坚实的理论基础

项目组成员已经有python和c语言的学习基础，为项目研究打下了坚实的理论基础。

经费预算

开支科目	预算经费（元）	主要用途	阶段下达经费计划（元）
开支科目	预算经费（元）	主要用途	前半阶段	后半阶段
预算经费总额	13000.00	无	3000.00	10000.00
1. 业务费	13000.00	无	3000.00	10000.00
（1）计算、分析、测试费	2000.00	无	2000.00	0.00
（2）能源动力费	0.00	无	0.00	0.00
（3）会议、差旅费	1000.00	无	1000.00	0.00
（4）文献检索费	0.00	无	0.00	0.00
（5）论文出版费	10000.00	无	0.00	10000.00
2. 仪器设备购置费	0.00	无	0.00	0.00
3. 实验装置试制费	0.00	无	0.00	0.00
4. 材料费	0.00	无	0.00	0.00

项目附件

大创申报书.doc

下载

结束

大学生创新创业训练计划管理系统

创新创业管理系统

详情