详情

数据驱动的能源行业财务备付金预测模型设计与实现

申报人:周羿飞 申报日期:2024-11-29

基本情况

2025年度大学生创新创业训练计划
数据驱动的能源行业财务备付金预测模型设计与实现 学生选题
创新训练项目
工学
计算机类
教师科研项目选题
一年半期
顺应申能财务的信息化建设,在提高效率的基础上,利用好积累下来的数据,在购销差成因、数据处理、智能分析和可视化等方面研发先进的数据算法、人工智能建立分析模型,洞察规律、挖掘价值并集成到多场景综合信息数据可视化平台之中,对于公司生产管理数字化转型赋能具有重要的应用前景。对备付数据进行采集及标准化处理,建立数据驱动的备付预测模型及应用示范。通过结合数据治理成果,集中对财务账目数据的
数据驱动的城市燃气购销差模型构建及实现、基于大数据的证券客户行为分析与智能应用

提供课题所需的数据、软硬件支持环境及技术支持。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
周羿飞 信息科学与工程学院 计算机金融双学位 2023 组长,系统架构
黄灵霄 信息科学与工程学院 计算机金融双学位 2023 副组长,协助完成系统架构
周嘉杰 信息科学与工程学院 计算机金融双学位 2023 组员 ,发系统功能
张宏宇 信息科学与工程学院 计算机金融双学位 2023 成员,开发系统功能

指导教师

序号 教师姓名 教师账号 所属学院 是否企业导师 教师类型
范贵生 07653 信息科学与工程学院

立项依据

过历史数据分析与变量要素测算,形成对各重点板块的现金流变动及财务公司存款变动的预测模型,并基于此模型确定合理的备付率区间估值。通过这一研究,可以更好地掌握企业资金流动的规律,提高财务管理的效率和准确性。

财务备付金预测旨在利用历史数据和人工智能技术,精准预测银行或企业每日所需的备付金金额,以提高资金利用效率,避免资金闲置或短缺带来的风险。通过机器学习模型,对备付金的日常波动和潜在异常趋势进行分析和预测,能够为财务管理和调度提供科学依据。以申能为例,业务板块主要包括煤气板块、电力板块以及集团本部债券发行、分红等各项经济事务。



2.2 国内外研究工作的现状

    在国内外的备付金研究现状中,主要集中在银行业领域的研究。银行作为存款性金融机构,在流动性管理和备付金预测方面一直受到较多关注,已有的大量研究旨在优化银行备付金的分配与管理,以提高流动性、保障资金的安全性与可用性。这些研究多以传统商业银行为研究主体,运用数据统计、机器学习、人工智能等方法对银行备付金进行预测和优化,已取得较为成熟的成果。

然而,对于像申能集团这样的非银行金融机构,现有研究仍较为缺乏。申能作为一家涉及电力、燃气等领域的综合能源企业,其资金流动和备付管理面临着不同于银行业的特点与挑战。申能的资[Bf1] 金周转依赖于能源板块的业务周期及市场环境,如季节性波动、政策调整等因素对其备付需求的影响更为显著,但这类影响在传统银行业备付金管理的研究中往往被忽视。因此,针对申能这样的非银行机构建立适配的备付金预测模型不仅可以弥补当前研究的空白,也能为其他类似企业提供参考和实践指导,具有较高的应用和推广价值。

总结来看,国内外现有研究大多基于银行业的需求,未充分考虑像申能这样的非银行企业的备付需求特征。这一现状进一步突显了本项目研究的必要性和创新性。

2.2.1 国外研究现状

国际上对备付金预测的研究早已引入机器学习和深度学习方法。著名金融科技期刊的研究指出,AI在备付金预测中的应用已经在美国银行、花旗银行等大型金融机构中被应用,这些模型侧重于基于历史数据的分类和回归模型,通过对过去的现金流动和账户余额的分析,来预测未来的备付金需求。然而,这种方法更多地依赖历史数据,对突发性的异常事件反应较慢。例如,美国某学者在其2021年发表于Journal of Financial Technology的论文中提出,通过改进支持向量机算法,能够在一定程度上提高备付金预测模型的准确性. 大规模数据集与神经网络的深度学习方法

由于国际大银行通常拥有丰富的交易和账户数据,国外研究在备付金预测中广泛使用神经网络模型进行复杂数据的模式识别。例如,德意志银行与一些大学合作,研究如何使用LSTMTransformer架构来预测每日备付金需求,以应对市场波动性。通过使用时间序列分析和深度学习方法,德意志银行取得了一定进展。相关研究在International Journal of Finance and Economics中报道,使用LSTM在高频交易数据中的应用取得了明显的精确性提升,为备付金管理提供了可行的AI应用方向。但对非银行企业单位,在备付金板块的ai应用仍然存在空白。

  

2.2.2 国内研究现状

在国内,备付金的管理和分析尚处于较为传统的阶段。许多银行和金融机构主要依赖简单的数据统计和手工核验的方式来处理备付金管理,这种方法的效率低下,且难以从大量历史数据中提取出有价值的信息用于未来预测。此外,备付金预测在金融机构的数字化管理中缺乏系统性的管理平台,数据分散、整合困难,且数据的准确性和实时性不足。针对这些问题,学者们逐渐认识到人工智能和机器学习在优化备付金预测方面的潜力。国内研究大多面向银行板块,而面对国内非银行企业,利用AI进行备付金预测及管理的应用少之又少,即使是面对非金融机构的研究系统架构也并不完善。


应用AI大模型进行申能集团的财务备付金预测。能够处理复杂的业务逻辑,更好地管理企业的备付金管理
·技术路线: 

1、在财务备付金预测中,首先将财务数据按照账号拆分,并将每个账号的数据存储在独立的文件中,确保数据的独立性和条理性。随后,对每个账号的数据按照交易日期进行汇总,分别计算借方发生额、贷方发生额以及账户余额,为后续预测提供基础数据支持。针对付款行为存在的非连续性问题,为提高数据的平滑度和连续性,采用二阶插值方法对交易数据进行处理。这种方法可以有效补足数据间的缺失值和间断点,从而生成更平滑的时间序列数据,便于逐日备付金的精准预测。 

2、模型训练

首先,对原始数据进行归一化处理,将数据的数值范围统一缩放到 [0, 1] 的区间,以减少特征值之间的量级差异对模型训练的影响,并提高模型的收敛速度和预测精度。接着,根据设定的序列长度,将归一化后的数据切分为多个连续的子序列,以保证模型输入具有固定的时间步长或数据长度,从而更好地捕捉数据的时间序列特性。随后,对这些生成的子序列进行随机排列,以增强数据的多样性,防止模型出现过拟合的问题,并提高模型的泛化能力。最后,将处理后的子序列作为输入,导入机器学习或深度学习模型进行训练,逐步优化模型参数,建立起输入特征与目标输出之间的映射关系。

3、模型架构

TimeGAN由四个网络组件构成:嵌入函数、恢复函数、序列生成器和序列鉴别器。前两个组件为自动编码组件,后两个组件为对抗组件。

1)嵌入函数e和恢复函数r

嵌入函数e:将静态和时间特征转换为它们的潜在编码,通常通过循环神经网络实现。

恢复函数r:将潜在编码转换回特征表示形式,通常通过前馈网络

实现。

这两个函数提供了特征和潜在空间之间的映射,允许对抗网络通过低维表示学习数据的潜在时间动态。

2)序列生成器g和判别器d

序列生成器g:生成时间序列数据。

序列鉴别器d:区分真实数据和生成数据。

3)损失函数

重建损失:确保嵌入函数和恢复函数能够准确重建输入数据。

无监督对抗损失:通过对抗学习机制,使生成数据的分布尽可能接近真实数据分布。

逐步监督损失:用于捕捉时间步之间的动态关系。生成器接收实际数据的嵌入序列,生成下一个潜向量。通过该损失函数,生成器能够学习到数据的逐步条件分布。

4)训练过程

联合训练 TimeGAN联合训练嵌入函数、恢复函数、序列生成器和序列鉴别器。在低维潜在空间中进行对抗学习,同时使用逐步监督损失同步真实数据和生成数据的潜在动态。

闭环模式 生成器在接收实际数据的嵌入序列后生成下一个潜向量,梯度根据捕捉分布之间差异的损失来计算。

5)模型效果

测试数据使用2004年至2019年的每日历史Google股票数据,包括交易量、最高价、最低价、开盘价、收盘价和调整后的收盘价。

4、 算法优化

MAGNN的框架由四个主要部分组成,如下图所示:a)一个多尺度金字塔网络,以在不同的时间尺度上保留潜在的时序模式。每一层中,通过两个并行的卷积神经网络和逐位加法将特征表示从小尺度到大尺度进行逐级变换。b)自适应图学习模块,自动推断变量间相关性,以节点嵌入和尺度嵌入为输入,输出尺度相关的邻接矩阵。c)一种多尺度时序图神经网络,用于捕获各种尺度特定的时序模式,每个尺度特征表示和邻接矩阵被输入到一个时序图神经网络中,以获得尺度特定的表示。d)一个多尺度融合模块对尺度特定的表示进行加权,自动考虑每个尺度表示的重要性并捕获跨尺度相关性。

多尺度金字塔网络来显式获取不同时间尺度下的时间相关性。在金字塔结构的基础上,应用多个金字塔层将原始时间序列层次化抽取从小尺度到大尺度的子序列。这种多尺度结构使模型能在不同的时间尺度上观察原始时间序列。具体来说,小尺度子序列可以保留更多的细粒度细节,而大尺度子序列可以捕捉缓慢变化的趋势。

多尺度金字塔网络通过堆叠多个金字塔层生成多尺度子序列。每个金字塔层将前一个金字塔层的输出作为输入,并生成更大尺度的子序列作为输出。

自适应图学习模块通过生成邻接矩阵来表示多变量时间序列中的变量间相关性。主要特点如下:使用一个共享邻接矩阵来建模所有时序模式,有助于学习最显著的时序模式并减少参数数量,避免过拟合;其次,引入多个邻接矩阵,分别建模不同尺度的时序模式;最后,通过矩阵分解,初始化共享的节点嵌入和每个尺度的嵌入,从而提取尺度相关的变量间相关性。

用时间卷积层代替GRU。具体地说,MTG由个时序图神经网络组成,每个时序图神经网络结合TCNGNN来捕获该尺度下的时序模式。

提出了一个多尺度融合模块,从这些尺度特定的表示中学习鲁棒的多尺度表示,该模块可以考虑尺度特定的时序模式的重要性,并捕获跨尺度的相关性。

2iTransformer

iTransformerTransformer的编码器采用相同的模块化安排,如下图所示。(a)不同变量的原始序列作为符号独立嵌入。(b)自关注应用于嵌入式变量令牌,具有增强的可解释性,揭示了多变量相关性。(c)通过共享前馈网络提取每个令牌的序列表示。(d)采用层归一化,减少变量之间的差异。

使用多层感知器获得的变量 token 通过self-attention相互交互,并由每个TrmBlock中的共享前馈网络独立处理。同时,通过将所有系列标记都归一化为高斯分布,减少由不一致的测量引起的差异。

iTransformer中,FFN利用每个变量标记的系列表示,通过通用逼近定理提取复杂的表示来描述时间序列。通过堆叠的倒置块对观察到的时间序列进行编码,并使用密集的非线性连接对未来序列的表示进行解码。

5、数据可视化

随着大数据时代的到来,数据分析和展示面临着巨大的挑战。数据可视化是一种应对这些挑战的有效方式。通过从海量数据中提取有价值的关键信息,可以及时发现已存在的异常和潜在风险,减少响应时间,从而更有效地监控备付情况,使人工能够对数据进行实时监督和干预。

数据可视化的核心目标是利用图形化手段,清晰、有效地传达和沟通信息。特别是在大数据监控和指挥等领域,大屏显示系统已成为大数据分析中不可或缺的基础核心系统。因此,为了更好地呈现备付信息,建议采用内部系统进行定制开发。

·拟解决的问题

    申能公司的财务备付金管理问题

·预期成果:

 1. 学术成果 

   - 在中文核心期刊或国际会议上发表 **1 篇学术论文**,内容聚焦于基于多变量时间序列的备付金预测模型、数据标准化与系统优化等研究成果。 

 

2. 知识产权

   - 申请一项软件著作权,覆盖本项目开发的备付金预测系统和相关算法实现。 

 

3. 比赛成果

   - 积极参与以下比赛,取得优秀成绩: 

     - “互联网+”创新创业大赛 

     - 上海市计算机应用能力大赛 

     - 中国大学生计算机设计大赛 

   - 比赛内容聚焦于备付金预测的创新应用、系统性能优化和数据可视化技术。 

 

4. 数据与平台建设 

   - 针对 申能企业备付金预测,整理与规范以下数据: 

     - 不同维度的资金交易数据(如借方金额、贷方金额、余额等); 

     - 相关时间序列数据的特征提取和数据标准化。 

   - 搭建一个系统,支持备付金相关的数据采集、管理、展示和应用,为后续研究与开发提供基础设施支持。  


1. 立项后第1月—第3

- 任务目标:初期准备与方案细化

  - 查阅大量相关文献与资料,明确研究背景、现状及项目目标。

  - 根据查阅的资料,对提出的解决方案进行初步细化与验证。

  - 开展算法的初步研究与Web系统开发的框架搭建。

  - 分解并分配各类工作任务,形成具体的执行计划。

  - 附加任务:着手申报相关比赛,提前梳理参赛要求和材料。

 

2. 立项后第4月—第6

- 任务目标:核心研究与开发

  - 深入阅读人工智能领域相关文献,分析适用的模型并验证其在备付金预测中的效果。

  - 完善算法细节,优化核心模块设计。

  - 开发Web系统的功能模块,完成数据对接和展示框架。

  - 初步测试系统运行效果,识别问题并调整。

 

3. 立项后第7月—第9

- 任务目标:系统测试与知识产权保护

  - 进行交叉验证测试,评估系统算法的准确性与鲁棒性。

  - 优化用户界面和交互体验,确保Web系统的功能完整性。

  - 申请软件著作权,为系统创新性成果提供法律保护。

  - 初步撰写技术文档,包括系统功能说明与测试报告。

 

4. 立项后第10月—第12

- 任务目标:成果完善与文档撰写

  - 对系统进行迭代优化,根据测试反馈进一步完善算法与系统功能。

  - 撰写比赛相关报告,确保材料完整、逻辑清晰。

  - 查阅相关文献,撰写论文初稿,确保数据支撑和分析完整。

  - 起草并完成系统的详细设计和实现报告,记录开发过程和技术细节。

 

5. 立项后第13月—第15

- 任务目标:成果提交与系统验收

  - 进行论文投稿,根据评审意见修改完善。

  - 组织系统的最终测试,验证其稳定性和实际效果。

  - 整理研究成果和系统运行结果,形成最终成果材料。

 

6. 立项后第16月—第18

- 任务目标:项目结题与答辩

  - 撰写课题的结题报告,汇总项目成果、创新点及改进方向。

  - 准备答辩材料,包括系统演示、技术亮点和答辩预案。

  - 参加结题答辩,顺利完成项目结题。

已具备的条件:

    申能集团的数据支持    

缺少的硬件设备:

1. 高性能主机 

   - 配置:416GB内存的主机,每台搭建独立的实验环境,用于算法研究、数据处理和模型训练。 

   - 功能:支持深度学习模型的开发与测试,以及系统功能的模块化开发。 

 

2. 云服务器

   - 需求:租用可扩展的云服务器,用于模型部署、Web系统上线和远程数据处理。 

   - 用途:便于高效处理和存储大规模企业数据,同时提供远程访问支持,实现系统的云端功能集成。 

 

软件环境

1. 编程语言与开发框架

- Python3.8及以上版本)

     - 作为项目的主要开发语言,用于机器学习模型的开发、数据预处理和分析。 

     - Java

     - 用于支撑部分系统组件的环境需求,如图数据库 Neo4j 的相关应用。 

 

2. 数据库与开发工具

   - MySQL

     - 作为主要的关系型数据库,支持数据的高效存储、管理与查询。 

   - Neo4j 

     - 作为图数据库,为系统提供变量间关联关系的建模支持。 

 

3. 开发与调试工具

   - IntelliJ IDEA

   - 用于Java环境开发与调试,优化系统性能,便于快速迭代与集成。  

解决方法:申请经费后自行采购

缺少的知识储备,解决方法:项目开展后阅读相关文献进行学习

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 10000.00 5550.00 4450.00
1. 业务费 4000.00 750.00 3250.00
(1)计算、分析、测试费 0.00 0.00 0.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 1000.00 项目成员参加相关会议或培训 500.00 500.00
(4)文献检索费 500.00 用于资料查询 250.00 250.00
(5)论文出版费 2500.00 用于在学术期刊和会议发表论文的评阅费 0.00 2500.00
2. 仪器设备购置费 5000.00 开发过程中所需软件的购买,云服务器的租用 内存、硬盘、CPU 等 4000.00 1000.00
3. 实验装置试制费 0.00 0.00 0.00
4. 材料费 1000.00 书籍、资料的购买 800.00 200.00

项目附件

  • 大学生创新创业训练计划项目申报书-创新训练类(1)(1).doc
    下载
结束