详情

针对异构数据的多视图主动学习方法建模机制研究

申报人:唐俊喆 申报日期:2024-11-20

基本情况

2025年度大学生创新创业训练计划
针对异构数据的多视图主动学习方法建模机制研究 学生选题
创业训练项目
工学
计算机类
教师科研项目选题
一年半期
多视图数据富含信息,广泛应用于各领域。多视图学习通过整合这些信息,提升了模型性能。然而,数据稀缺,特别是海目标检测等应用中,成为挑战。多视图主动学习方法(MVAL)应运而生,但处理异构数据时易致数据不平衡。本项目聚焦异构数据的MVAL学习策略,综合考虑数据特性和贡献,力求平衡各视图信息,以提升模型性能和鲁棒性,为日常生活应用提供支持,并促进公众对AI技术的认知与接受。
本人暂无科研经历,但本人自入学以来积极参加课外活动与竞赛,具有极强的自学能力与专业能力,希望在毕业后读研深造,对科研具有浓厚的兴趣,藉此为之后的深造打下良好基础。
近年来,主要从事多视图(模态)器学习和人工智能领域的研究,主持了1项上海市面上基金,参与了多项国家级和省部级科研项目。
1. 学术指导:提供学术研究方法、技术路线、理论框架等方面的指导和建议。

2. 项目规划:协助学生进行项目规划,包括项目进度安排、研究内容细化、预期成果等。

3. 资源协调:帮助与学生申请实验设备、资金支持、数据资源等相关物质的协调。

4. 成果审核:在项目实施过程中或完成后,对项目成果进行审核,确保项目按照预期目标实施。

5. 学术交流:推荐学生参加学术会议、研讨会等活动,扩大学生的学术视野。

6. 心理支持:给予学生心理上的鼓励和支持,缓解研究过程中的压力和挫折。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
唐俊喆 信息科学与工程学院 0639/计算机科学与技术 2023 统筹安排项目进度,量化视图不确定性及多样性,参与软件的需求分析、概要设计以及详细设计、编码、维护以及论文的撰写等。
孙士捷 信息科学与工程学院 0639/计算机科学与技术 2023 优化算法平衡不同数据源信息,提高模型能力,参与软件的编码、测试、维护以及以及论文的撰写等。
霍凯 信息科学与工程学院 0639/计算机科学与技术 2023 评估量化后视图对模型预测的贡献度,参与软件的需求分析、概要设计以及详细设计、编码、维护以及以及论文的撰写等。
顾一诚 信息科学与工程学院 软件工程 2023 设计主动学习算法考虑样本不确定性和多样性,参与软件的编码、测试、维护以及以及论文的撰写等。

指导教师

序号 教师姓名 教师账号 所属学院 是否企业导师 教师类型
董文波 09291 信息科学与工程学院

立项依据

1 行业背景

  如今,多视图在日常生活中随处可见。例如,一则新闻可以用多种语言报道;一段视频可以用语音信号和图像信号来描述;网页可以用超链接、文本和图像来表示。这些异构特征都是对同一对象的不同描述,由此形成多视图数据。与单视图数据相比,多视图数据包含更丰富的语义信息,并能提供数据的补充信息。多视图学习(mutiview learning,MVL), 就是为了充分利用多视图间的一致和互补信息而兴起的一种智能学习算法,通过将多个视图结合,可以获得更丰富的特征表示,进而提高模型的泛化能力。

  基于这一原理,多视图学习在现实生活中具有广泛的应用前景,多源异构数据的处理和分析也成为了信息技术领域的核心挑战之一。多视图学习可以用于整合来自多个传感器的数据,以提高自动驾驶系统的感知能力和决策准确性,另一方面可以分析和处理来自不同交通监控设备的数据,优化交通流量管理和事故预防;在智能医疗中,多视图学习可以应用于整合不同来源的医疗数据,以提高疾病诊断的准确性和个性化治疗方案的制定;对于跨媒体内容的分析和理解,多视图学习也能通过结合文本、图像和视频数据来提高信息检索和内容推荐的准确性。可见在以上诸多行业中,对多视图数据的整合、分析和应用需求都在日益增长。目标市场包括但不限于工业制造、交通运输、机械设备、航空航天等需要大量数据处理和分析的行业。此外,随着数字化转型的推进,中小企业对于数据处理软件的需求也在增加。

  虽然多视图学习在处理多源多视图数据具有显著的优势,但在真实世界中,数据样本稀缺的场景是十分常见的,尤其是当涉及到诸如海目标的精准检测等实际应用时,待识别目标可能缺乏大量标签数据,甚至没有显式样本数据,需要专业人员手动进行标注,代价十分昂贵,需要耗费大量的人力和财力,且同一对象的多个视图之间信息的交流与传递对于该对象的学习表现力也会产生很大影响。为了解决这一问题,对于多视图主动学习方法(multiview active learning, MVAL)的研究开始兴起。

  然而,现有的MVAL方法在选择多视图数据时,这些策略往往更关注于主导视图,而不是公平地考虑所有视图。例如,在图像-文本分类任务中,如果文本对模型优化的贡献更大,主动学习策略可能会倾向于选择更具区分度的文本视图,通过选择有价值的文本样本而忽略图像样本的信息性。结果,所选的多视图数据集可能会变得不平衡,缺乏来自图像视图的足够信息,使得本来针对异构数据的问题退化为同构数据的问题,在数据样本稀缺的情况下,各种视图的信息往往无法很好的对齐,同时缺乏足够的信息来保持模型性能。

2 市场需求与目标市场

  因此,针对异构数据的MVAL方法的研究是十分有价值的项目。本项目将重点研究“针对异构数据的多视图主动学习方法建模机制”,旨在开发更为精细的MVAL学习策略应用。这些策略能够综合考虑异构数据的特性,以及它们对模型性能的共同贡献,从而更公平地选择有贡献的异构多视图数据。最后,本项目会将优化完后的MVAL方法整合并完成软件开发,使软件能够处理多源异构数据,并提供样本打标签功能,提高模型训练和分类的质量及效率。

3 市场调研

  市场调研发现,当前市场上使用多视图主动学习的软件数量稀少,且多为专用型软件,缺乏普遍适用的产品。这些专用软件通常针对特定领域或任务,如图像处理、文本分类等,虽然功能强大,但难以跨领域应用。由于缺乏普遍适用的软件,许多用户不得不依赖深度学习框架和机器学习工具包自行开发多视图主动学习模型,这增加了技术门槛和时间成本。因此,市场上对一款功能全面、易于使用且广泛适用的多视图主动学习软件的需求日益迫切。



产品简介

   一款使用多视图主动学习的软件,具备以下显著特点:首先,它实现了精细的主动学习策略,能够综合考虑不同数据源特性,有效学习并消除数据分布差异对模型性能的影响。其次,软件在样本选择过程中,创新性地融合了不确定性与多样性,有助于模型学习到更广泛的场景和特征,提高泛化能力。再者,结合基于池的主动学习方法,软件通过数据池分割策略,实现了对大规模多视图数据的平衡和高效学习。最后,软件功能全面,易于使用,不仅具备整合多源数据、智能选择标注数据等核心功能,还拥有高级数据分析和可视化工具,界面简洁友好,提供自动化工具,降低了使用难度,满足了跨领域、跨行业的应用需求,具有极高的实用价值和广泛的应用前景。

技术与工艺创新

1)不确定性与多样性融合的多视图主动学习方法:本项目将不确定性和多样性这两个关键要素整合到多视图主动学习框架中。传统方法往往侧重于单一的不确定性度量或单一的多样性度量来选择样本,而本项目通过同时考虑样本的不确定性和多样性,实现了更全面的样本选择策略。这种方法不仅提高了模型的训练效率,还显著增强了模型的泛化能力,特别是在处理复杂、多样的异构数据时表现更为出色。

2)数据源平衡与权重调整:设计算法以平衡不同数据源之间的信息,避免对某一数据源的过度依赖,并通过权重调整机制进一步优化样本选择,避免了不同视图之间的不平衡和竞争。

竞争优势

  本项目的竞争优势在于能够提供一站式的数据处理和分析解决方案,包括数据预处理、模型训练和分类,以及结果的可视化展示。一方面,本项目可以推进多视图主动学习的进一步发展,使其在现实中处理异构数据的场景中有更广泛的应用。另一方面,本项目提升了模型的性能,提高了模型的鲁棒性,使多视图学习在日常生活中有更高效更准确的表现,提升其在人们中的认识度和认可度,通过软件的推广推动多视图学习在各个领域的作出积极贡献。

1 生产或运营方式

该软件的生产或运营方式主要聚焦于软件开发与持续优化。采用敏捷开发模式,快速迭代,确保软件功能的不断完善与用户体验的

提升。通过集成多视图主动学习算法,实现数据的高效整合与处理,为用户提供智能化的数据选择与标注服务。

2 材料、劳动力、设备需求

1)材料:软件开发所需的代码库、开发框架、测试工具等。

2)劳动力:小组的四名组员,进行设计,编码,测试与维护。

3)设备:高性能计算机、服务器、开发工具以及测试设备。

3 质量保证

1)严格的代码审查流程,确保代码质量。

2)全面的测试策略,包括单元测试、集成测试、系统测试以及用户验收测试,确保软件功能的完整性和稳定性。

3)持续的监控与反馈机制,收集用户反馈,及时修复问题,优化软件性能。

4 生产成本

1)人力成本:需要小组成员的劳动力。

2)设备成本:购买或租赁高性能计算机、服务器等设备。

3)软件许可与维护成本:使用第三方开发框架、测试工具等所需的许可费用以及后续的软件维护费用。

4)运营成本:包括市场推广、客户服务、技术支持等方面。 

1、融资计划

1)团队成员自筹资金1万元

团队各成员依靠自筹资金来获得项目的启动资金。

2)“雄鹰计划”天使基金

申报上海市大学生科技创业基金“雄鹰计划”。“雄鹰计划”是上海市大学生科技创业基金会委托孵化机构投资入股创业企业且不享受股东收益的资助模式,适用技术含量高或商业模式创新、成长性较高的创业项目。

2、投资计划

1)服务器租赁费用1000/

2)软件开发费用1000

3)论文版面费3000

4)其他费用2000

 

1、合作计划

  项目计划与研究人工智能多视图学习有关的国内外团队以及公司展开深度合作与交流,共同推进项目的进行。

2、实施方案

1)开发更为精细的主动学习策略。这些策略能够综合考虑不同数据源的特性,以及它们对模型性能的共同贡献,从而有效学习模型忽略标签数据和无标签数据之间的分布差异的问题,消除学习模型的性能受分布偏差的影响。

2)针对在MVAL中融合不确定性与多样性以样本选择的问题,研究一种多视图主动学习方法能够同时考虑样本的不确定性和多样性。这有助于模型学习到更广泛的场景和模型特征,从而提高其泛化能力,避免过拟合。通过选择在模型构建时可能涉及的多源信息,如雷达信号、光学图像和红外成像等样本数据,在不确定性和多样性方面都具有代表性的数据样本,从而优化样本选择过程。

3)结合近年来得到大量研究的基于池的主动学习方法(Pool-Based Active Learning),引入了数据池分割策略以适应大规模数据集,通过迭代选择和模型更新过程,实现了对多视图数据的平衡和高效的主动学习。

4)开发一款功能全面、易于使用且广泛适用的多视图主动学习软件,应具备整合多源数据、智能选择标注数据、高级数据分析和可视化等功能。同时,软件界面应简洁友好,提供自动化工具,降低使用难度,满足跨领域、跨行业的应用需求。

3、机构设置与人员管理

根据团队成员不同的专长以及公司合理框架结构,为了使公司能更好地运作和管理,公司设立四个职能部门,分别是行政管理部、财务部、技术部、营销部。各部门均须严格完成公司赋予的使命,与公司战略相匹配,便于公司的整体运营管理。

初期规模较小,初期采取职能型组织架构。实行经理负责制,总经理下设行政总监、财务总监、销售总监、技术总监。

4、营销策略

1)内容营销:通过创作有价值、相关性强的内容,吸引目标受众,建立起品牌的权威性和信任度。

2)社交媒体营销:利用社交媒体广告,精准定位目标受众,提高营销效果,重视用户反馈,及时响应,维护品牌形象。

3)搜索引擎营销:包括关键词广告和搜索引擎优化。关键词广告能够在用户搜索相关关键词时展示产品或服务,提高曝光率和点击率。搜索引擎优化则是通过优化网站结构和内容,提高网站在自然搜索结果中的排名,从而吸引更多有机流量。

4)移动营销:通过开发移动应用程序App提供个性化服务,增强用户粘性。移动广告也能在用户使用其他App或浏览移动网页时展示,提高品牌曝光度。定位技术和推送通知则能进一步实现精准营销,提升用户体验。

1. 项目风险预测及应对措施

1) 软件在处理多源异构数据时可能遇到技术难题,如数据兼容性和集成问题。

    应对:持续进行技术研发和升级,确保软件能够适应不同数据源和格式。

2) 市场需求变化可能导致软件需求减少,或者竞争对手的产品更受欢迎。

    应对:进行市场调研,及时调整产品功能以满足市场需求。加强品牌建设和市场营销,提高产品知名度和市场占有率。

3) 数据安全和隐私保护法规的变化可能影响软件的功能和使用。

    应对:密切关注相关法规变化,确保软件合规。咨询法律顾问团队,为项目提供法律支持。

4) 软件更新和维护过程中可能出现操作失误。

    应对:制定严格的操作流程和标准,减少操作失误。定期进行操作培训和演练,提高团队的操作能力。    

1. 项目效益预测

     根据全球数据科学市场规模的增长趋势,预计未来三到五年内,软件销售收入将呈现稳定增长。考虑到中国市场规模复合增长率

为25.4%,可以预测软件销售收入将保持相似的增长速度。

     利润将随着销售收入的增长而增长。考虑到软件行业的高利润率,预计利润增长率将略高于销售收入增长率。假设初期利润率为

20%,则预计三到五年内利润率将逐步提升至25%。

     资产回报率是衡量公司资产盈利能力的重要指标。预计随着项目效益的提升,资产回报率将逐年增加。假设初期ROA为5%,则预

计三到五年内ROA将提升至10%以上。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 5500.00 业务费,材料费 1250.00 4250.00
1. 业务费 4500.00 差旅费,论文出版费 750.00 3750.00
(1)能源动力费 0.00 0.00 0.00
(2)会议费 0.00 0.00 0.00
(3)差旅费 1500.00 出差、开会培训等所需要的费用 750.00 750.00
(4)文献检索费 0.00 0.00 0.00
(5)论文出版费 3000.00 出版论文需支付的版面费等 0.00 3000.00
2. 仪器设备购置费 0.00 0.00 0.00
3. 材料费 1000.00 图书购置费、打印复印费、办公用品 500.00 500.00

项目附件

  • 针对异构数据的多视图主动学习方法建模机制研究及相关软件的开发.pdf
    下载
结束