将生成式人工智能与医疗数据相结合,提高了医生的实用性

生活作者 / 花爷 / 2025-01-10 06:34
"
      生成式人工智能(AI)在结构化考试中表现出了非凡的答题能力,包括在美国医疗执照考试中取得了远高于及格分数的成绩。

  

  

  生成式人工智能(AI)在结构化考试中表现出了非凡的答题能力,包括在美国医疗执照考试中取得了远高于及格分数的成绩。

  但在一个非结构化的环境中,当人工智能模型被输入一系列由人类精心设计的新问题时,结果可能会很糟糕,模型通常会返回几个不准确或完全错误的断言,这种现象被称为“幻觉”。

  本周,德国海德堡大学医院的研究人员在著名的《新英格兰医学杂志》(NEJM)上发表报告称,将生成式人工智能模型与相关信息数据库连接起来,极大地提高了模型回答肿瘤领域非结构化查询的能力,即癌症治疗。

  根据作者戴克·费伯(Dyke Ferber)和海德堡研究小组本周在NEJM上发表的一项研究,“医学肿瘤学指南信息检索和比较的GPT-4”,检索增强生成(RAG)的方法,让大型语言模型利用外部信息源,极大地提高了自发的问答能力。(阅读报告全文需要订阅NEJM。)

  医学面临着独特的信息超载——医学专业组织一直在提供更多的最佳实践建议,这一事实促使了这项研究的开展。紧跟这些建议给医生带来负担,因为他们试图应对寿命延长和医疗需求扩大的人群。

  像美国临床肿瘤学会(ASCO)这样的组织,Ferber和团队相关,“正在以越来越快的速度发布更新的指南”,这要求医生“比较多种文件,为他们的病人找到最佳的治疗方法,在临床实践中,这一努力将变得更加苛刻和普遍,特别是在预计全球肿瘤医生短缺的情况下。”

  费伯和团队假设,人工智能助手可以帮助临床医生整理这些不断扩大的文献。

  事实上,他们发现GPT-4在使用RAG的情况下可以达到足够的准确度,至少可以作为总结相关建议的第一关,从而减轻医生的管理负担。

  作者通过让人类肿瘤专家提交30个关于胰腺癌、转移性结直肠癌和肝细胞癌的“临床相关问题”来测试OpenAI的GPT-4,并让该模型生成一份报告,作为对推荐治疗方法的回应。

  结果对GPT-4本身来说是灾难性的。当被要求在回答30个问题时“提供详细和真实的信息”时,该模型的错误率为47%,163个陈述中有29个是不准确的,经过两名具有多年经验的训练有素的临床医生的审查,41个陈述是错误的。

  “当使用RAG进行文档检索时,这些结果得到了显著改善,”作者报告说。使用RAG的GPT-4在其陈述中达到了84%的准确性,对30个问题中涉及的三个癌症领域的回答,71个问题中有60个,75个问题中有62个,72个问题中有62个是正确的。

  “我们发现,用RAG增强GPT-4大大提高了GPT-4在医学背景下对查询提供正确响应的能力,”Ferber和团队写道,“在使用不增强检索功能的GPT-4时,超过了标准方法。”

  为了比较原生GPT-4和带有RAG的GPT-4,他们使用了两种提示策略。在原生的非rag形式中,GPT-4被要求“根据您从医学肿瘤学指南中学到的知识,提供详细和真实的信息,以回应医生的询问”,然后是关于如何治疗特定癌症实例的问题之一。

  这个本地提示中的GPT-4用于所谓的“零提示”问题回答,即只提供提示问题,然后使用少量提示,将文档插入提示中,并向模型展示文档如何回答类似的问题。

  

  在RAG方法中,提示指示GPT-4从数据库中检索ASCO和欧洲肿瘤医学学会(ESMO)提供的相关医学文档的“块”。然后,模型必须回答这样的陈述:“关于转移性MSI肿瘤的一线治疗,文献是怎么说的?”

  海德堡大学医院的两名人类临床医生通过手动比较GPT-4的回答与提供的文件,对回答的准确性进行评分。

  “他们根据GPT-4提供的要点,系统地将每个回答解构成离散的陈述,”费伯和团队写道。

  “每个陈述都根据其与ASCO和ESMO文件中各自信息的一致性进行了仔细评估,”并且,“对于每个问题,临床医生对每个问题对应的指南进行了详细的手动审查,以定义我们的基本事实。”

  手工评估显示了RAG方法的一个重要方面,Ferber和团队注意到:它可以被检查。他们写道:“通过提供对检索到的指南文件的访问,RAG机制促进了准确性验证,因为临床医生可以快速查找文档块中的信息。”

  结论是有希望的:“我们的模型已经可以作为用户的预筛选工具,例如具有专业知识的肿瘤学家,”Ferber和他的团队写道。

  但是,RAG也有局限性。当GPT-4使用RAG检索提供相互矛盾的治疗建议的相关文章时,模型有时会给出不准确的建议。

  “在GPT-4必须处理来自相互矛盾的陈述(临床试验、专家观点和委员会建议)的信息的情况下,我们目前的模型不足以可靠地产生准确的答案,”Ferber和团队写道。

  结果是你仍然需要做一些即时工程。Ferber和他的团队通过要求GPT-4找出文献中相互矛盾的观点,然后提供一个修正后的回答,从而减少了不准确性。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读