在线平台用户论坛中问题分类与标签自动生成技术研究

申报人：李驭宁申报日期：2024-11-08

基本情况

所属批次:

2025年度大学生创新创业训练计划

项目名称:

在线平台用户论坛中问题分类与标签自动生成技术研究学生选题

项目类型:

创新训练项目

所属一级学科:

工学

所属二级学科:

计算机类

项目来源名称:

教师科研项目选题

项目归属学院:

项目期限:

一年半期

项目简介:

本研究旨在开发一种基于自然语言处理的问题分类与标签生成技术，以提高学生答疑论坛中问题管理的效率和准确性。首先分析学生提问的特点和需求，设计实现一个自动化的分类算法。然后开发标签自动生成系统，根据问题内容生成相关标签，并与课程知识点图谱进行关联。最后，对分类算法和标签生成系统的准确性与实用性进行评估。该技术将有助于快速定位问题并提供精确解答，提升问题管理效率。未来，研究成果可拓展应用于电商等场景。

负责人曾经参与科研的情况:

2022年至今：校级大创：基于3D建模的卡路里识别

指导教师承担科研课题情况:

多次指导学生参加各级赛事并指导学生基于大创项目发表学术论文；

2022年第24届中国机器人及人工智能大赛优秀指导教师；

2022年上海市大学生计算机应用能力大赛“优秀指导教师”；

2020年中国大学生计算机设计大赛“星级优秀指导教师”。

指导教师对本项目的支持情况:

定期召开组会并指导学生循序渐进学习。

项目级别:

校级

项目成员

序号	学生	所属学院	专业	年级	项目中的分工	成员类型
1	李驭宁	信息科学与工程学院	0639/计算机科学与技术	2022	组织成员开展项目，进行需求分析与规划、数据收集及预处理、自动化分类算法的开发、标签自动生成系统开发以及系统集成等	第一主持人
2	沈宏舟	信息科学与工程学院	0639/计算机科学与技术	2023	协助开展项目，进行需求分析与规划、数据收集及预处理、自动化分类算法的开发、标签自动生成系统开发以及系统集成等	第二主持人
3	郭文慧	信息科学与工程学院	0639/计算机科学与技术	2022	协助开展项目，进行需求分析与规划、数据收集及预处理、自动化分类算法的开发、标签自动生成系统开发以及系统集成等	成员
4	陈炀	信息科学与工程学院	0639/计算机科学与技术	2023	协助开展项目，进行需求分析与规划、数据收集及预处理、自动化分类算法的开发、标签自动生成系统开发以及系统集成等	成员

指导教师

序号	教师姓名	教师账号	所属学院	是否企业导师	教师类型
1	胡庆春	06228	信息科学与工程学院	否	第一指导教师

立项依据

研究目的:

课题先以课程网站为例，本研究旨在开发一种自动的问题分类与标签生成技术，提高问题管理的效率和准确性。对问题进行准确的分类和标签化有助于快速定位问题和提供解答，后续将把研究内容拓展到电商平台的应用中。

研究内容:

（1）分析学生答疑论坛中问题的特点和分类需求。
（2）设计并实现基于自然语言处理（NLP）的问题分类算法。
（3）开发标签自动生成系统，根据问题的内容自动生成相关标签，并且和课程的知识点图谱进行关联。
（4）对分类算法和标签生成系统的准确性和实用性进行评估。

国、内外研究现状和发展动态:

我们综述国内外研究方法，如表1所示：

研究方法	描述	应用案例
统计模型与机器学习	使用模型（如朴素贝叶斯、支持向量机）进行文本分类	技术支持论坛的帖子分类
深度学习与自然语言处理	利用深度语义匹配模型提取特征并生成标签	问答社区中的专家匹配
无监督学习与半监督学习	识别主题或标签，结合标注和未标注数据提高性能	LDA主题模型用于标签生成
图模型与社交网络分析	通过构建用户-标签网络实现标签的自动生成和优化	对话图模型用于社交媒体评论分类

表1.国内外研究方法

以下将对表1国内外研究方法展开论述。

1基于统计模型和机器学习的方法

在在线论坛中，对帖子进行分类是一个传统但依然活跃的研究领域。统计模型和经典机器学习算法在这一领域的应用极为广泛。例如，Zhonghua Quan等人提出了一种两步分类方法。这种方法首先利用统计模型（如朴素贝叶斯分类器）对帖子内容进行初步分类，以快速筛选出可能的类别；随后，结合帖子类别和论坛的元数据（例如帖子的时间、发帖人活跃度等），进一步通过机器学习算法优化分类结果。该方法特别适用于技术支持类论坛，并在实际测试中取得了令人瞩目的效果，F1分数约为85%[[1]]，显示出其在实际应用中的高效性。

另一种基于统计和机器学习的分类方法则通过结合正则表达式与监督学习算法实现对Stack Overflow问题帖子的自动分类。该方法的关键在于对短语模式的深入分析，研究人员通过手动标注和分析，生成了一组用于分类的高效正则表达式。这些正则表达式捕捉了帖子中的关键语义信息。在此基础上，进一步利用随机森林和支持向量机等监督学习算法训练模型，对未见数据进行分类，然后训练机器学习模型以实现更高效的分类[[2]]。

2基于深度学习和自然语言处理的方法

随着深度学习的快速发展，基于神经网络的自然语言处理技术被广泛应用于在线论坛的分类与标签生成任务。例如，一些研究提出了深度语义匹配模型（Deep Structured Semantic Model, DSSM），用于提取用户特征和问题文本特征，并根据两者之间的语义相似度生成专家推荐列表。这种方法在问答社区中被广泛应用[[3]]，通过精确匹配问题与用户专业领域，显著提高了回答质量和效率。

此外，针对在线论坛中的复杂标签生成任务，研究人员探索了用户-标签异构网络的构建方法。在这一框架中，通过将用户和标签映射为网络中的不同类型节点，并结合图嵌入技术生成节点的高维向量表示，进一步利用深度神经网络从向量表示中提取特征，从而实现高效且精确的标签生成。与传统方法相比，这种基于网络结构的深度学习方法能够更好地捕捉用户行为与标签之间的隐性关系。

3基于无监督学习和半监督学习的方法

对于论坛中缺乏标注数据的帖子分类任务，无监督学习方法成为一种重要选择。通过主题模型（如Latent Dirichlet Allocation, LDA），研究者可以从大量未标注的文本数据中提取潜在的主题信息，并将这些主题作为帖子标签的基础。这种方法尤其适用于早期数据整理阶段，为进一步的监督学习或标签优化奠定了基础。

在缺乏充足标注数据的场景中，半监督学习则提供了一种兼顾效率与精度的解决方案。研究人员结合少量人工标注数据和大量未标注数据，设计了基于迁移学习和标签传播的模型框架，不仅降低了标注成本，提高模型的泛化能力[[4]]。这种方法特别适用于动态变化的论坛环境中，为分类与标签生成提供了鲁棒的技术支持。

4基于图模型和社交网络分析的方法

近年来，基于社交网络分析的分类与标签生成方法引起了研究者的广泛关注。通过构建用户-标签网络或用户-问题网络，这些方法利用网络嵌入技术生成节点的向量表示，并将其输入到标签生成模型中。这种基于网络结构的分析方法能够充分挖掘用户与标签之间的关系，有效改善标签的生成质量。

另外，还有研究通过对社交媒体中的对话行为进行分析，提出了基于对话图模型的分类方法。在该框架下，社交媒体的评论被建模为对话图，每个节点代表一个评论，边表示评论之间的交互关系。通过分析这些图结构并引入图卷积神经网络，研究人员能够并为评论分配适当的类别标签[[5]]。这一方法为社交网络和在线论坛中的标签生成任务提供了新颖的思路和技术手段。

综上所述，从传统的统计与机器学习算法，到深度学习、无监督学习和图模型方法，国内外学者在在线论坛分类与标签生成技术领域不断创新，为实际应用提供了丰富的技术储备。这些研究不仅推动了算法性能的提升，也为未来更复杂的在线社区场景提供了理论基础和应用示范。

创新点与项目特色:

（1） 基于深度语义理解的标签生成机制

本研究创新性地将预训练语言模型（如BERT）与标签生成任务深度融合。通过语义向量的精准表达，实现对用户评论中隐含语义的全面解析。相比传统的关键词提取或规则匹配方法，本研究能够生成更加多样化且准确的标签体系，并且通过语义相似度控制标签冗余，提升生成结果的实用性和智能化水平。

（2）聚类与分类任务的动态协同优化

项目中首次提出聚类和分类任务的动态协同框架，在语义聚类的基础上，通过迭代分类优化进一步细化问题分类结果。传统方法通常将聚类和分类割裂处理，而本研究通过语义相似性评价实现两者的相互增强，使得分类更具准确性，聚类结果更具解释力。

（3）多阶段标签优化与动态更新机制

研究设计了一套创新性的标签动态优化策略，结合用户反馈和强化学习算法，不断调整标签生成规则和权重分布。相比静态标签生成，本研究的动态更新机制不仅能够适应用户需求的变化，还能在实际应用中实现自我改进，确保标签体系在长期运行中的适应性与可扩展性。

（4）针对复杂语义的多层次问题分类

本研究开发了多层次的问题分类体系，通过构建语义树结构，将复杂问题分解为多个层级，并结合细粒度分类模型对每一层次的语义进行精准分析。这种分层分类方式有效应对了在线论坛中多标签、长文本等复杂数据分布的问题，提升了问题分类的全面性与精确度。

（5）用户体验导向的标签系统设计

本研究从用户体验出发，设计了一套用户友好的标签系统，包括标签优先级排序、上下文联想推荐等功能。不仅能够帮助用户快速定位关键信息，还能通过交互反馈进一步完善系统性能。这种注重用户感知的设计理念为智能论坛管理技术带来全新的视角与价值。

通过以上多个层次的创新点，本项目在理论研究与实践应用之间架设了有效的桥梁，不仅拓展了问题分类与标签生成领域的研究边界，也为在线平台的智能化发展提供了创新路径。

技术路线、拟解决的问题及预期成果:

预期成果如下

（1）参与国内外各类大学生科技创新大赛，如“挑战杯”、上海市大学生计算机应用能力大赛、中国机器人与人工智能大赛、中国大学生计算机设计大赛以及“互联网+”等，并在赛事中获得优秀成绩。

（2）计划在相关领域内发表1-2篇高水平学术论文，推动问题分类与标签自动生成技术在实际应用中的理论研究和技术突破。

（3）以提升用户体验为核心，进一步展开针对用户需求的应用研究，优化问题分类与标签生产的准确性。

（4）研发适用于日常生活的问题分类与标签生成分析工具，切实满足用户多样化的需求，推动大创项目的进一步应用与推广。

项目研究进度安排:

项目进度安排（2024年10月-2026年6月）

1 2024年10月-2024年11月：前期准备

文献查阅与领域调研：查阅相关领域的国内外文献，汇总分析现有技术方法，掌握领域背景知识和最新进展。

项目规划：制定研究计划与实施路径，明确研究目标与时间节点，准备数据采集和预处理工具。

2 2024年12月-2025年3月：数据采集与预处理

数据采集：选定目标论坛平台，获取权限后通过爬虫技术采集高质量数据，涵盖评论内容、用户信息及时间戳等。确保数据采集符合法律法规与伦理要求。

数据清洗与标准化：去除广告、重复内容及格式错误数据，筛选有效评论。使用中文分词工具（如jieba）进行分词，去除停用词与特殊字符。

初步特征提取：基于TF-IDF技术提取关键词并构建词频矩阵，分析主题分布。使用词嵌入模型（如word2vec）将文本转化为向量，为后续语义分析打下基础。

3 2025年4月-2025年8月：问题分类模型的设计与训练

模型设计与训练：基于BERT模型搭建深度学习分类器，并通过微调（fine-tuning）适应特定数据。对比轻量级分类模型（如逻辑回归）与深度模型的性能差异。

数据标注与增强：通过人工标注构建小规模初始训练集。使用数据增强技术（如同义词替换）扩展数据集，提高模型的鲁棒性。

模型训练与验证：按照8:2的比例划分训练集与验证集。采用交叉熵损失函数优化参数，并通过准确率、召回率和F1分数评估模型性能。

4 2025年9月-2025年12月：语义聚类与主题挖掘

语义相似度计算与降维：使用BERT生成句向量，计算评论间余弦相似度。应用PCA或t-SNE降维，提高聚类效率并便于可视化。

聚类算法设计与应用：采用K-Means对相似评论进行聚类，形成初步分组。针对模糊语义分布，使用DBSCAN或谱聚类方法提升精度。

主题分析：基于LDA模型提取聚类结果的主题关键词与核心内容。将结果映射到用户关心的常见问题领域。

2026年1月-2026年3月：标签生成与体系优化

标签生成策略：提取聚类核心关键词作为初步标签。结合分类模型与规则匹配，生成语义一致的多样化标签。

标签优化与动态更新：应用Jaccard相似度剔除冗余标签。引入强化学习，结合用户反馈动态调整标签体系。

质量控制：开发权重机制，优先保留语义相关度高的标签。针对新数据自动调整标签体系。

5 2026年4月-2026年6月：系统性能评估与项目总结

系统评估：使用Stratified k-Fold交叉验证评估分类与聚类模块。

分析标签生成的覆盖率、准确率与多样性。

用户测试与反馈收集：在实际论坛平台部署系统，采集用户使用行为。根据反馈调整模型参数与标签生成逻辑。

优化与推广：针对大规模数据，优化计算效率与内存占用。探索分布式计算框架（如Spark），支持高效运行。

项目总结与成果报告：撰写研究论文、总结报告。准备结题答辩，展示研究成果并探索应用推广。

通过以上阶段性安排，项目将在确保科学性与创新性的同时，完成理论研究与实际应用的有效结合。

已有基础:

与本项目有关的研究积累和已取得的成绩:

在问题分类与标签生成技术领域，已有大量研究致力于自然语言处理（NLP）与机器学习方法的应用。传统的基于规则的分类方法已经逐步被深度学习算法（如BERT、GPT等）替代，后者在文本理解、语义分析和分类精度上展现了显著优势。近年来，针对教育领域的研究主要集中在课程内容自动分析、问题解答自动化及智能辅导系统的开发。例如，基于词向量（Word2Vec）和深度学习网络模型的标签生成技术，已被广泛应用于自动化问题分类与标签化，提高了问答系统的响应速度和准确性。本项目已实现了对课程网站的数据抓取和初步数据处理，初步构建了问题分类的框架，并在此基础上测试了基本的标签生成模型，取得了初步的效果，证明了该技术在教育平台中的可行性。

已具备的条件，尚缺少的条件及解决方法:

当前，项目已经具备了基础的技术框架和数据获取能力，完成了课程网站的问题采集和数据预处理工作。团队在自然语言处理、机器学习模型的选型和数据标注方面已有一定积累。此外，项目具备了用于算法训练和评估的基本计算资源。缺少的条件主要包括高质量标注数据集和针对不同平台（如电商平台）的领域知识适应性模型。为了解决数据集不足的问题，可以采用迁移学习（Transfer Learning）方法，将在课程网站上获得的初步模型应用到其他平台，通过数据增强和少量标注数据进行微调。同时，可以探索利用众包平台进行标注任务，或者借助无监督学习方法提高标签生成的准确性和适应性。

经费预算

开支科目	预算经费（元）	主要用途	阶段下达经费计划（元）
开支科目	预算经费（元）	主要用途	前半阶段	后半阶段
预算经费总额	10000.00	无	2000.00	8000.00
1. 业务费	8500.00	无	1250.00	7250.00
（1）计算、分析、测试费	1500.00	服务器运营费用	0.00	1500.00
（2）能源动力费	0.00	无	0.00	0.00
（3）会议、差旅费	500.00	调研等	250.00	250.00
（4）文献检索费	2500.00	购买书籍、订阅期刊和网络信息费等	1000.00	1500.00
（5）论文出版费	4000.00	发表论文	0.00	4000.00
2. 仪器设备购置费	1000.00	购买系统开发所需软件及其他耗材	500.00	500.00
3. 实验装置试制费	0.00	无	0.00	0.00
4. 材料费	500.00	复印资料、宣传海报等	250.00	250.00

项目附件

项目申请书改.doc

下载

结束

大学生创新创业训练计划管理系统

创新创业管理系统

详情