将生成式人工智能与医疗数据相结合，提高了医生的实用性

生活作者 / 花爷 / 2025-01-10 06:34

　　　　　　生成式人工智能(AI)在结构化考试中表现出了非凡的答题能力，包括在美国医疗执照考试中取得了远高于及格分数的成绩。

　　但在一个非结构化的环境中，当人工智能模型被输入一系列由人类精心设计的新问题时，结果可能会很糟糕，模型通常会返回几个不准确或完全错误的断言，这种现象被称为“幻觉”。

　　本周，德国海德堡大学医院的研究人员在著名的《新英格兰医学杂志》(NEJM)上发表报告称，将生成式人工智能模型与相关信息数据库连接起来，极大地提高了模型回答肿瘤领域非结构化查询的能力，即癌症治疗。

　　根据作者戴克·费伯(Dyke Ferber)和海德堡研究小组本周在NEJM上发表的一项研究，“医学肿瘤学指南信息检索和比较的GPT-4”，检索增强生成(RAG)的方法，让大型语言模型利用外部信息源，极大地提高了自发的问答能力。(阅读报告全文需要订阅NEJM。)

　　医学面临着独特的信息超载——医学专业组织一直在提供更多的最佳实践建议，这一事实促使了这项研究的开展。紧跟这些建议给医生带来负担，因为他们试图应对寿命延长和医疗需求扩大的人群。

　　像美国临床肿瘤学会(ASCO)这样的组织，Ferber和团队相关，“正在以越来越快的速度发布更新的指南”，这要求医生“比较多种文件，为他们的病人找到最佳的治疗方法，在临床实践中，这一努力将变得更加苛刻和普遍，特别是在预计全球肿瘤医生短缺的情况下。”

　　费伯和团队假设，人工智能助手可以帮助临床医生整理这些不断扩大的文献。

　　事实上，他们发现GPT-4在使用RAG的情况下可以达到足够的准确度，至少可以作为总结相关建议的第一关，从而减轻医生的管理负担。

　　作者通过让人类肿瘤专家提交30个关于胰腺癌、转移性结直肠癌和肝细胞癌的“临床相关问题”来测试OpenAI的GPT-4，并让该模型生成一份报告，作为对推荐治疗方法的回应。

　　结果对GPT-4本身来说是灾难性的。当被要求在回答30个问题时“提供详细和真实的信息”时，该模型的错误率为47%，163个陈述中有29个是不准确的，经过两名具有多年经验的训练有素的临床医生的审查，41个陈述是错误的。

　　“当使用RAG进行文档检索时，这些结果得到了显著改善，”作者报告说。使用RAG的GPT-4在其陈述中达到了84%的准确性，对30个问题中涉及的三个癌症领域的回答，71个问题中有60个，75个问题中有62个，72个问题中有62个是正确的。

　　“我们发现，用RAG增强GPT-4大大提高了GPT-4在医学背景下对查询提供正确响应的能力，”Ferber和团队写道，“在使用不增强检索功能的GPT-4时，超过了标准方法。”

　　为了比较原生GPT-4和带有RAG的GPT-4，他们使用了两种提示策略。在原生的非rag形式中，GPT-4被要求“根据您从医学肿瘤学指南中学到的知识，提供详细和真实的信息，以回应医生的询问”，然后是关于如何治疗特定癌症实例的问题之一。

　　这个本地提示中的GPT-4用于所谓的“零提示”问题回答，即只提供提示问题，然后使用少量提示，将文档插入提示中，并向模型展示文档如何回答类似的问题。

　　在RAG方法中，提示指示GPT-4从数据库中检索ASCO和欧洲肿瘤医学学会(ESMO)提供的相关医学文档的“块”。然后，模型必须回答这样的陈述:“关于转移性MSI肿瘤的一线治疗，文献是怎么说的?”

　　海德堡大学医院的两名人类临床医生通过手动比较GPT-4的回答与提供的文件，对回答的准确性进行评分。

　　“他们根据GPT-4提供的要点，系统地将每个回答解构成离散的陈述，”费伯和团队写道。

　　“每个陈述都根据其与ASCO和ESMO文件中各自信息的一致性进行了仔细评估，”并且，“对于每个问题，临床医生对每个问题对应的指南进行了详细的手动审查，以定义我们的基本事实。”

　　手工评估显示了RAG方法的一个重要方面，Ferber和团队注意到:它可以被检查。他们写道:“通过提供对检索到的指南文件的访问，RAG机制促进了准确性验证，因为临床医生可以快速查找文档块中的信息。”

　　结论是有希望的:“我们的模型已经可以作为用户的预筛选工具，例如具有专业知识的肿瘤学家，”Ferber和他的团队写道。

　　但是，RAG也有局限性。当GPT-4使用RAG检索提供相互矛盾的治疗建议的相关文章时，模型有时会给出不准确的建议。

　　“在GPT-4必须处理来自相互矛盾的陈述(临床试验、专家观点和委员会建议)的信息的情况下，我们目前的模型不足以可靠地产生准确的答案，”Ferber和团队写道。

　　结果是你仍然需要做一些即时工程。Ferber和他的团队通过要求GPT-4找出文献中相互矛盾的观点，然后提供一个修正后的回答，从而减少了不准确性。

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。