研究表明,有人监督下EHR中的生成AI表现良好

2024-05-06 来源: drugdu 153

随着文件和各种其他行政职责的负担增加,医生的倦怠已经达到历史水平。作为回应,EHR供应商正在嵌入生成人工智能工具,通过起草医生对患者信息的回复来帮助医生。然而,关于这些工具的准确性和有效性,我们还不知道很多。
Mass General Brigham的研究人员最近进行了一项研究,以了解更多关于这些生成人工智能解决方案的表现。他们上周在《柳叶刀数字健康》上发表了一项研究,表明这些人工智能工具可以有效地减少医生的工作量和改善患者教育,但这些工具也有局限性,需要人工监督。
在这项研究中,研究人员使用OpenAI的GPT-4大型语言模型从癌症患者身上产生了100个不同的假设问题。
研究人员让GPT-4回答了这些问题,还有六名放射肿瘤学家手动回答。然后,研究团队向这六名医生提供了GPT-4生成的回复,并要求他们进行审查和编辑。
肿瘤学家无法判断是GPT-4还是人类医生写的回复——在近三分之一的病例中,他们认为GPT-4产生的回复是由医生写的。
研究表明,医生通常写的回复比GPT-4短。研究人员指出,大型语言模型的反应时间更长,因为它们通常包含更多对患者的教育信息,但与此同时,这些反应也不那么直接和具有指导性。
总的来说,医生们报告说,使用大型语言模型来帮助起草患者的信息回复有助于减少他们的工作量和相关的倦怠感。他们认为GPT-4生成的应答在82%的病例中是安全的,在58%的病例中可以接受发送,无需进一步编辑。
但重要的是要记住,如果没有人参与,大型语言模型可能是危险的。研究还发现,如果不进行编辑,7%的GPT-4产生的反应可能会对患者构成风险。该研究的作者、马萨诸塞州布莱根将军放射肿瘤学家Danielle Bitterman博士说,大多数时候,这是因为GPT-4产生的反应“不准确地传达了患者应该去诊所或看医生的紧迫性”。
她在一次采访中解释道:“这些模型经过了强化学习过程,在这个过程中,它们被训练成有礼貌的人,并以一种人们可能想听的方式做出回应。我认为,偶尔,它们几乎会变得过于礼貌,当紧迫感存在时,它们不会恰当地传达出来。”
Bitterman博士指出,今后,需要更多的研究来了解患者对大型语言模型以这种方式与他们互动的感受。

来源:https://medcitynews.com/2024/05/generative-ai-ehr-healthcare/

责编: editor
分享到: