详情

基于大模型的语音方言识别研究

申报人:张一鸣 申报日期:2024-11-04

基本情况

2025年度大学生创新创业训练计划
基于大模型的语音方言识别研究 学生选题
创新训练项目
工学
计算机类
教师科研项目选题
一年半期
温州话因其音系复杂、资源稀缺,难以被现有语言技术识别。为此,本研究聚焦温州鹿城区的温州话,旨在开发一套高效的温州话识别大语言模型。项目将通过温州电视台节目等多元渠道收集语音样本,建立标准化语料库,并利用微调方法(如LoRA微调)在小规模数据集上优化模型性能。团队还将采用语音切分(VAD)、OCR识别等技术解决语音与文本对齐的难题,最终构建准确实用的温州话识别系统,为方言的保护与传承提供技术支持。
暂无。
项目指导老师长期从事语音处理、模式识别和生物认证等方面的研究和教学工作,具有坚实的理论基础和丰富的实践经验。近五年来,研究工作先后获国家自然科学基金,国家重大科技专项任务级课题、上海市自然科学基金、中央高校基本科研业务费、上海市产学研践习计划、上海市高校选拔培养优秀青年教师科研专项基金等项目资助;在此研究方向上发表国内外学术论文100余篇篇,获发明专利授权16项,已登记软件著作版权4项。现任上海市计算机学会理事,中国计算机学会语音对话与听觉工作组委员,人工智能与模式识别专业委员会通讯委员。长期指导大学生创新创业项目和信息学院创新育人项目,曾获华东理工大学研究生课程教学优秀任课教师一等奖;华东理工大学青年教师授课二等奖;多次获得信息学院创新育人优秀指导教师。
本人长期从事语音处理、模式识别和生物认证等方面的研究和教学工作,具有坚实的理论基础和丰富的实践经验,拟按照每周1-2次的指导频率与项目申请人开展讨论与研究进度监督
市级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
张一鸣 信息科学与工程学院 0639/计算机科学与技术 2023 模型训练与微调
陈卓 信息科学与工程学院 0639/计算机科学与技术 2023 系统集成与应用开发
童放 信息科学与工程学院 软件工程 2023 数据集处理与制作
郭沛特 信息科学与工程学院 软件工程 2023 数据采集与清洗

指导教师

序号 教师姓名 教师账号 所属学院 是否企业导师 教师类型
李冬冬 07557 信息科学与工程学院

立项依据

社会与实践:温州话被誉为中国最复杂的方言之一,至今难以被非本地人和现代语言技术准确识别。同时,老一辈温州人往往难以流畅使用汉字普通话进行沟通,甚至在微信上偏爱使用语音功能,以克服与年轻人或外地人交流的障碍。年轻人对温州话的掌握也逐渐减弱,导致许多温州方言的俚语和故事面临失传。以温州话为代表的方言急需新的技术为其注入生命活力。

科研与技术:尽管近年来人工智能大模型的发展为方言的识别、转译带来了新机遇,当前的研究主要集中在普通话和少数主流方言,而温州话的识别尚无成熟模型。该研究正是为了填补这一空白,提供解决数字化资源稀缺的小众方言识别这一社会难题的技术路径。本项目聚焦温州市鹿城区的温州话,通过应用前沿大模型技术,探索语音大模型在小众方言领域的应用方法。项目将建立一整套有效的流程,从数据采集、清洗、数据集构建到模型训练、微调及实际应用,克服温州话语料稀缺的困难,开创性探索出小众方言数字化与语音模型开发的技术路线,力图为温州话方言及其所承载的人文历史和文化的保护、传承贡献力量。

个人发展:此外,研究过程还将提升团队成员的科研能力、技术水平和团队协作力,帮助他们接触大模型领域的前沿技术,探索可行的创新方案。该项目不仅具有一定的学术价值,更承载社会责任,帮助团队成员在解决实际问题的过程中,树立将学识服务于社会的务实态度。

1.       网络爬虫数据采集:学习爬虫技术,研究定制化的实行方案。通过温州电视台节目等多渠道采集温州话语音样本,采用网络爬虫技术批量高校获取向公众公开的温州话频道的视频资源。

2.       数据集与标准语料库建设:针对特定困难与情景,研究出可行的解决方案。通过VADOCR、说话人识别、音频降噪模型等技术来处理音视频数据。开发一套合适的自动化数据清洗流程,自动分离所需的温州话音频与字幕并自动对齐。最后建立标准化的温州话数据集、语料库,以应对温州话数据稀缺的问题。

3.       模型训练与微调:学习对大模型、开源平台工具的使用。在领域前沿现有的开放的高性能语音模型的基础上,训练温州话方言识别模型,后利用LoRA微调等高效方法,优化大模型在温州话识别中的表现,尤其是鹿城区标准温州话的识别效果。

4.       系统集成与应用推广:总结研究方法和实践经验。最后在小程序或开源平台上推出识别模型,以实际应用推动温州话的保护和传承。

        随着开放数据和开源模型的发展,一些研究团队逐渐在小语种数据集和模型权重上实现公开化。这种趋势不仅有助于提升小语种识别技术的可复现性,也进一步推动了语言技术在更多方言中的应用。在技术层面,端到端的高性能语音语言模型逐渐成为主流,直接生成语音输出,避免了传统转换方式的误差累积,特别适合处理音系复杂的方言。这些技术进展为温州话等资源稀缺的复杂方言带来了新的研究思路和解决方案。

        不过,当前方言识别模型仍多依赖深度学习技术和大规模的语音数据集,通过语音识别与文字对应实现语言模型的训练与微调。目前国内已有部分高校和企业针对地方方言开展语音识别的研究,但多集中在资源较为丰富的方言区域,如粤语和上海话。国际上,方言识别研究同样倾向于对资源丰富的语言和口音进行训练和识别,真正高效可用的小语种语音模型及其研究路线也仍旧较少。

        而像温州话这样音系复杂、资料稀缺的方言尚未得到足够的关注,也未曾有团队推出一系列关于温州话的标准语言数据集。当前,温州话大模型开发存在着数字化语料稀缺,标准化程度低,且人工数据标注成本高等等困难。此外,温州话相比当下研究较多的小语种,语料资源仍旧显得尤为稀缺。因此,团队还需找到高性能语音模型和搞笑的训练、微调方法,以在数据有限的情况下训练得相对有效的语言模型。

创新性数据来源: 项目将首次尝试通过温州电视台节目等温州话数字资源进行大规模语料采集,这是目前温州话语音识别研究中仍缺少重视和开发的资源。

创新性实现方案:在语料资源相对匮乏和难以获取的情况下,探索不依赖大量人工标注,而是环节高度自动化的,具有针对性的数据集处理办法。

针对性研究: 项目专注于鹿城区标准温州话的识别,这一地域性强、难度高的方言目前尚无成熟的解决方案,项目有望填补这一空白。

模型微调创新: 基于现有的尖端主流语音识别模型进行复杂度较低的训练和微调,探索在小规模方言数据集上提升模型表现的途径。

其他特色:本项目专注于解决社会实际问题的技术路线研究,实用性强,开创性强。

1.  通过以温州电视台的节目为代表的多元渠道收集标准温州话语音样本。

(1)  克服温州话数字化语料稀缺的困难,掌握网络爬虫获取音视频资源的方法,并实现在相关app和网址自动化抓取数据资源。

(2)  通过向官方或者民间团队联系寻求帮助,以收集到部分高质量数据资源。

2.  研究得出一套对数据进行清洗和整理的标准化流程,并构建相对丰富且标准化的鹿城区温州话语料库。

(1)  学习辨别当前开源平台上多而杂的语音与文字工具,了解并熟练掌握能够起到重要作用的几种开源平台中的模型工具,如OCR文字识别模型、说话人语音识别模型和语音降噪模型等。

(2)  克服温州话音视频语料中,由于主持人变化、温州话与普通话或闽南话交错出现导致的说话人识别困难。通过VAD将整段音频切分为单句后,在前一百句中取样,确认语音数最多的两人为主持人,再对剩余音频进行筛选。这种方法具有极高的通用性,能够克服该领域存在的困难。

(3)  克服从视频中构建语料库和数据集时,语音和文字需要高度对齐的困难。团队拟在VAD的同时采用OCR文字识别,事先将文字与单句语音对齐,按照一定规则命名。后以对应文件名为依据,语音文字同步进行分类。

(4)  实现对音视频资源进行自动化批量高效处理,以构建足够的语料库。

3.  开发一套可以识别鹿城区标准温州话的语言模型系统,并且具备较高的识别准确率和可用性。

(1)  培养甄别和筛选合适的大模型工具的能力。选定一个高性能语音模型,学习人工智能大模型框架与构造,熟悉其工作原理,并能熟练地将其运用于温州话大语言模型的训练开发中。

(2)  掌握并熟练使用高效的微调方法,如LoRA微调等。基于现有的语音识别模型,使用温州话语料库进行微调,以提高模型在温州话识别中的表现,尤其针对鹿城区的标准温州话进行优化。

(3)  培养实际应用能力,将研究赋予现实价值。在小程序平台或者开源平台上推出这一模型和研究方法,以资温州话方言事业的发展。

前期调研与项目设计(11-12月):查阅文献,设计技术方案,制定数据收集策略。

数据收集与处理(12-次年2月):采集温州话语料,进行数据清洗和标注。

模型训练与初步实验(2-9月):完成初步模型训练,进行实验并分析结果。

中期检查与优化(9-12月):中期检查,优化模型并补充数据集。

成果整理与最终实验:进行最终实验验证,撰写报告并推广成果。

    前期研究中已确定数据来源:温州电视台官方温州话频道节目的视频。依据此路径,团队决定学习利用网络爬虫技术自动化筛选并抓取温州日报官方App“温度新闻”中两个公开频道节目的视频。首先团队解决了“温度新闻App” B/S C/S架构混搭的难题,成功编写爬虫代码从大量新闻与节目中自动抓取所需要的两个节目的链接。

    目前团队已经初步形成数据处理与清洗的对应流程。首先,团队克服了多主持人、多语言的问题。在对视频进行音频编码后,利用说话人识别技术对取样的音频样本进行数量统计,依据样本中各说话人所占样本数量多少确认两位主持人。接着对音频进行进一步VAD分割,同时进行OCR字幕识别,使得文字音频一一对应。最终再利用说话人识别,对主持人,也就是温州话部分的音频进行分离,最终得到可用的数据。该方法准确率高,通用性强,自动化水平高。而且该流程依赖云计算平台提供算力,团队成员随时随地都可以通过远程连接访问主机进行操作。

    此外,团队成员正在以小语种数据集为切入点,初步学习语音模型的训练和微调方法,以便后期移植经验于方言模型的训练。

已具备的条件:

    云计算算平台上可以租用显卡用于计算,可以获得丰富算力用于模型训练。

    从开源平台能够获取语音处理相关的软件工具,包括开源的语音识别框架和OCR工具,并且已经学会调用。

    开源学习平台上有丰富的学术性、技术性文章可以提供思路与实践指导,同时使团队成员了解领域前沿技术。

    团队成员已然掌握网络爬虫、VAD等代码基础,可以独立编写研究相关的代码。

    温州话语料的采集来源:温州日报《温度新闻App》。该困难已在前期取得阶段性进展。团队成员已经成功收集并尝试清洗处理少量的数据。

尚缺少的条件及解决方法:

    更加合理且通用的数据清洗处理流程:团队成员将结合实际,利用如VAD、OCR、说话人识别等条件共同开发相应程序。

    尚未选定高性能的语音大模型,尚未高度学习掌握大模型训练和微调方法:团队成员仍需深入学习大模型框架及其原理,关注领域前沿技术更新迭代,不断实践并掌握此类高性能模型的训练流程,最终微调得到效果良好的温州话方言识别大模型。

    实际应用的开发能力:团队成员仍需借鉴先前案例,学习将团队所开发的语音大模型向社会推广的方法。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 13000.00 6250.00 6750.00
1. 业务费 12500.00 6000.00 6500.00
(1)计算、分析、测试费 6000.00 GPU硬件,实验仿真,租赁服务器 4000.00 2000.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 2000.00 外出考察,会议旁听 1000.00 1000.00
(4)文献检索费 1500.00 学习相关前沿算法,技术论文,技术书籍 1000.00 500.00
(5)论文出版费 3000.00 版面费,申报费 0.00 3000.00
2. 仪器设备购置费 0.00 0.00 0.00
3. 实验装置试制费 0.00 0.00 0.00
4. 材料费 500.00 复印/打印/彩印相关资料 250.00 250.00

项目附件

  • 大学生创新创业训练计划项目申报书-创新训练类.docx
    下载
结束