

日本东北大学医学院(Tohoku University Graduate School of Medicine)的一个研究小组对利用尸体成像诊断溺水的深度学习模型的医学有效性进行了详细检查。结果显示,深度学习模型的结果与医学专业人员的观察结果不一致。
他们的回顾性研究发表在2024年2月9日的《医学成像信息学杂志》上。
在尸检过程中,医学专业人员很难做出溺水的诊断。没有单一的体征或测试可用于诊断溺水。尸检成像,如死后计算机断层扫描,可以帮助诊断溺水。
在早期的研究中,表现良好的深度学习模型已被用于溺水诊断。一些人认为,深度学习技术的表现与医疗专业人员一样好。然而,这些深度学习模型的医学有效性尚未得到充分的测试,以确定它们在现实世界临床环境中的准确性。
例如,没有进行任何研究来确保深度学习模型中的图像特征与医学发现一致。这一差距增加了人工智能诊断和医生评估之间存在差异的可能性。
因此,日本东北大学的研究小组进行了一项研究,以评估深度学习模型的医学有效性,这些模型在溺水诊断方面取得了很高的分类性能。他们的研究包括在2012年至2021年期间接受尸检计算机断层扫描的8-91岁人群的尸检病例。在这些个案中,153宗为溺水个案,160宗为非溺水个案。
研究人员从之前的工作中训练了三个深度学习模型,并生成了显著性图。显著性图突出了人们眼睛首先关注的突出区域。研究人员将这些领域称为模型的重点领域。
为了验证人工智能在医学图像诊断中的可靠性,采用可视化技术提取模型的“焦点区域”和e
评估这些与注释的“医学发现”是否相符
以放射科医生对相同图像的评估为基础。资料来源:东北大学
该团队将模型的焦点区域与放射科医生注释的“医学发现”图像区域进行了比较。他们的比较显示,在某些情况下,只有30%到80%的模型重点区域与放射科医生注意到的关键区域一致。研究小组在研究中发现的差异揭示了采用不同验证方法的重要性,并展示了评估人工智能系统性能的挑战。
来自日本东北大学医学研究生院放射成像与信息系的曾玉文表示:“研究结果强调了需要新的培训方法,将人工智能模型内部与基于人类专业知识的复杂决策过程结合起来。”
大多数用于医学诊断的人工智能系统都是基于分类模型的。这些模型具有较高的分类精度,并能直观地解释其预测结果。但对于这种视觉解释是否对医学诊断有效,目前尚无定量评价。
“这项研究报告了深度学习模型的决策基础与医学专业知识之间的不一致,引发了对评估深度学习模型以确保其在现实医疗场景中的可靠性的关注。这种意识至关重要,因为它可能会影响人工智能技术在医疗保健领域的发展和部署。”
该团队面临着一个独特的挑战,即评估深度学习模型的可视化结果,特别是在医学图像的背景下。“目前,对于这些结果的定量评估还没有确定的黄金标准,视觉评估仍然是主要的方法。现有的评估方法主要是为自然图像设计的,其中物体很容易定义。”
对于医学图像,由于目标的边缘和特征固有的模糊性,这一挑战进一步放大。该小组的研究表明,考虑到数据的复杂性,需要改进专门为医学图像设计的评估方法。
该团队指出,由于分类模型的分层和自上而下的架构,使用单个类标签作为唯一的监督信息可能会阻止深度学习模型学习所有有助于最终诊断结果的因素。
“我们这个项目的下一步是在模型中引入额外的人类专业知识来约束模型参数的分布,这可以缓解模型和人类专业知识之间的不一致。这种方法旨在弥合模型决策过程与人类专业知识复杂性之间的差距。”
更多资料:曾玉文等,人体观察与深度学习模型的不一致性:尸体ct诊断溺水的有效性评估,医学影像信息学杂志(2024)。DOI: 10.1007/s10278-024-00974-6由Tohoku大学提供引文:团队研究深度学习模型在诊断溺水中的医学有效性(2024,2月27日)检索自2024年2月28日https://medicalxpress.com/news/2024-02-team-medical-validity-deep.html此文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。