2023-12-09 来源: drugdu 249
最近发表在ArXiv预印本*服务器上的一项研究讨论了优化大型语言模型(LLM)以实现准确的鉴别诊断(DDx)。
研究背景
准确的诊断是有效医疗的第一步。人们已经认识到,基于人工智能(AI)的模型可以用来帮助临床医生准确诊断疾病。
真实世界的诊断过程涉及一个交互式和迭代过程,并对DDx进行理性推理。医生根据从高级诊断程序中获得的各种临床信息来权衡不同的诊断可能性。
深度学习已应用于眼科、皮肤科和放射学的DDx生成。由于缺乏互动能力,深度学习模型无法通过流利的母语交流来帮助患者进行诊断。这种交互式的缺点可以通过LLM的开发来克服,LLM可以用于为DDx设计有效的工具。LLM是使用大量文本进行训练的,这有助于他们总结、识别、预测和生成新的下一个。这些模型展示了处理复杂语言理解和推理任务的能力。
GPT-4是LLM和医学领域专用LLM的常见形式,如Med PaLM 2,在多项选择医学查询中表现显著良好。然而,每一次LLM评估都面临着考虑现实世界中护理提供场景的挑战。目前尚不清楚这些模型如何积极帮助临床医生开发DDx。然而,最近的研究表明,这些模型可以用于单个案例的复杂推导。
研究内容
目前的研究调查了为临床诊断推理设计的LLM是否可以在真实世界的医学案例中生成DDx。与以前的模型相比,本研究将LLM模型与交互式界面相结合,并评估其是否可以帮助临床医生生成DDx。
从《新英格兰医学杂志》(NEJM)获得了一组具有挑战性的真实世界病例,用于比较临床医生生成DDx的能力。这项研究比较了临床医生在使用新优化的LLM和传统信息检索工具(如书籍和互联网搜索引擎)的基础上开发DDx的能力。
共有20名美国委员会认证的临床医生,平均经验为9年,分析了病例报告。使用自动化方法将新开发的DDx LLM与GPT-4的基线LLM性能进行比较。
研究结果
优化的LLM在生成包括正确诊断和准确识别最终诊断的DDx列表方面表现得非常好。与之前最先进的GPT-4模型相比,新开发的自动LLM模型在生成DDx列表方面表现出更好的质量和准确性。基于DDx列表的质量,新的LLM方法提高了临床医生的诊断能力。
目前的研究使用半结构化的定性访谈从临床医生那里获得有关使用该工具的用户体验的相关信息。讨论了LLM在医学诊断中的相关风险,以及他们对如何将该工具用于鉴别诊断过程的看法。这些访谈表明了LLM在提高DDx清单多样性方面的重要性。还强调了加快为具有挑战性的案件生成全面DDx的速度的战略。
该研究结果与之前的研究一致,这些研究使用NEJM临床病理会议(CPC)的较小子集评估LLM和LLM前“DDx生成器”的性能。这些研究表明了自动化技术在具有挑战性的情况下准确生成正确DDx的潜力。
新开发的LLM可用于生成比医生生成的DDX具有更高适当性和全面性的DDX。基于NEJM CPC数据,与临床医生的评估相比,当前LLM模型可以以更高的准确性提供更多的相关DDx。
研究结论
新开发的LLM模型能够生成DDx,该DDx可能在临床病例管理中发挥重要作用。然而,未来的研究需要探索LLM如何在某些情况下增强临床医生的DDx,这些情况具有不同的风险和特异性,并验证当前LLM在临床环境中的适用性。
来源:
https://www.news-medical.net/news/20231207/Large-language-models-enhance-differential-diagnosis-paving-the-way-for-AI-assisted-medical-decision-making.aspx