2023-10-18 来源: drugdu 171
声音病理学是指由异常情况引起的问题,例如发声困难、瘫痪、囊肿,甚至癌症,导致声带(或声带)异常振动。在此背景下,语音病理检测(VPD)作为一种自动检测语音问题的非侵入性方法受到了广泛关注。
它由两个处理模块组成:特征提取模块,用于表征正常语音;语音检测模块,用于检测异常语音。支持矢量机 (SVM) 和卷积神经网络 (CNN) 等机器学习方法已成功用作病态语音检测模块,以实现良好的 VPD 性能。此外,自监督的预训练模型可以学习通用且丰富的语音特征表示,而不是显式语音特征,这进一步提高了其 VPD 能力。然而,由于域从对话语音转移到 VPD 任务,针对 VPD 微调这些模型会导致过度拟合问题。结果,预训练模型变得过于关注训练数据,并且在新数据上表现不佳,从而阻碍了泛化。
为了缓解这个问题,由 Hong Kook Kim 教授领导的韩国光州科学技术学院 (GIST) 的研究团队提出了一种突破性的对比学习方法,涉及 Wave2Vec 2.0——一种自监督预训练模型语音信号——采用一种称为对抗性任务自适应预训练(A-TAPT)的新颖方法。在这里,他们在持续学习过程中纳入了对抗性正则化。
研究人员使用 Saarbrucken 语音数据库对 VPD 进行了各种实验,发现与 SVM 和 CNN ResNet50 相比,所提出的 A-TAPT 在未加权平均召回率 (UAR) 方面分别提高了 12.36% 和 15.38%。它还实现了比传统 TAPT 学习高 2.77% 的 UAR。这表明 A-TAPT 能够更好地缓解过拟合问题。
在谈到这项工作的长期影响时,本文的第一作者 Park 先生表示:“在 5 到 10 年内,我们与 MIT 合作开发的 VPD 开创性研究可能会从根本上改变医疗保健、技术和各个行业。通过对与声音相关的疾病进行早期、准确的诊断,它可以带来更有效的治疗,提高无数人的生活质量。”
他们的文章于 2023 年 7 月 24 日在线发布,并发表在《IEEE 信号处理快报》杂志第 30 卷上。他们的研究是与美国马萨诸塞州剑桥麻省理工学院合作进行的题为“将对比学习扩展到新数据模式和资源有限场景”的 GIST 资助项目的一部分,走上了一条有望重新定义 VPD 前景的道路以及人工智能在医疗领域的应用。该项目团队包括首席研究员 (PI) Hong Kook Kim(EECS、GIST)和 Dina Katabi(EECS、MIT)以及 Jeany Son(人工智能研究生院、GIST)、Moongu Jeon(EECS、GIST)和 Piotr Indyk (EECS、麻省理工学院)作为联合 PI。
Kim 教授指出:“我们与麻省理工学院的合作在这一成功中发挥了重要作用,促进了对比学习的持续探索。这种合作不仅仅是一种伙伴关系;它是思想和技术的融合,不仅致力于重塑医疗应用,而且致力于重塑医学应用。”需要智能、自适应解决方案的各个领域。”
此外,它还有望用于调用中心代理等对声音要求较高的职业的健康监测,确保安全系统中强大的语音身份验证,使人工智能语音助手更具响应性和适应性,以及开发娱乐行业语音质量增强的工具。
期待自监督学习和对比学习领域的进一步创新!
来源:
https://www.news-medical.net/news/20231016/New-contrastive-learning-method-could-improve-voice-pathology-detection.aspx