您的位置 首页 电子技术

数据管理在弱监督学习中的重要作用

将医学影像交给人工智能(AI)来分析,可以比人类专家更快、更准确地检测和测量出异常情况,推动基于影像的医疗诊断更进一步发展。要借此来改善患者的治疗效果并确立针对性的治疗方法,就必须建立起在不同人群中具有普遍性的高质量AI模型。然而,要建立这样的AI模型,就离不开大量数据的支持,并且这些数据还需要经过精心标注,才能供机器来学习。\” />

<meta http-equiv=X-UA-Compatible content=\"IE=edge,chrome=1

将医学影像交给人工智能(AI)来分析,可以比人类专家更快、更准确地检测和测量出异常情况,推动基于影像的医疗诊断更进一步发展。要借此来改善患者的治疗效果并确立针对性的治疗方法,就必须建立起在不同人群中具有普遍性的高质量AI模型。然而,要建立这样的AI模型,就离不开大量数据的支持,并且这些数据还需要经过精心标注,才能供机器来学习。

现在,我们可以通过深度学习(DL)的一个分支——弱监督学习来完成AI的训练。这项机器学习技术可以降低对数据标注的完整性和准确性要求,帮助医生更轻松地获得更加深入的信息。用于弱监督学习的数据只需进行更容易实现的粗略标注(例如只需标注整个影像,而不必标注影像中细分的关键区域) ,并且学习过程中可以充分利用预训练模型和常见的可解释性方法。本文中,我们将研究数据管理在弱监督学习中发挥的重要作用。

医学影像的标注并非易事

医疗行业中的影像标注存在着许多困难。首先,医学影像本身以及相关的检查结果数据往往存储在不同的系统中,导致数据标注工作困难重重,也就难以获得经过标注的数据。

例如,来自计算机断层扫描(CT)或磁共振成像(MRI)的影像数据可能存储在医院系统中,但相关的活检或肿瘤切除检查结果往往会存储在病理实验室中,而这些实验室可能位于医院之外的私人诊所或检测机构。这时,如果要核对某些数据和标注的话,虽然做法上可行,但获取并汇总数据的工作可能会花费大量时间,尤其是在涉及不止一家私人诊所或检测机构的情况下。

而且,要在影像中寻找并标记出疾病发生和进展的迹象(生物标志物),本身就是一件极其耗时并且复杂的事情,因为这些数据必须逐个像素地进行标注,最终的标记数量可达上千个。如果需要通过算法来分割影像或者定位到特定区域(如病变或手术边界)的话,这一问题尤为严重。这样的过程往往需要耗费大量成本,因为医学影像标注通常要借助专业知识才能进行,而且MRI和CT影像还需要做三维标注。这两项缺点加在一起,使医学影像的标注成为了一项成本不菲的工作,而且还难以通过外包来完成。

由于标注过程需要用到专业知识,标注的质量也会因标注人员对这些知识掌握程度的不同而发生变化,进而影响到深度学习模型的最终表现。对于数据标注而言,标注的准确性是一大问题。通常情况下,经验不足的放射科医生或住院医师会接受数据标注培训,但他们的标注准确度显然比不上有着数十年工作经验的临床医生。

此外,阅片人员所表现出的差异也会影响到标注的结果:一方面,不同的阅片人员对同一幅影像的解读会有细微差异;另一方面,同一个阅片人员如果在不同时间标注同一幅影像,最终结果也会有细微的区别。

最后,人工标注这件事本身也会限制最终结果。机器学习的一大优势在于模型可以发现人类无法察觉的规律,然而人工标注终究依赖于人工输入,模型最终输出的结果很容易因此而受到限制。

例如,AI如果只能复制人类对某些任务的想法,那么它就很可能无意中把某个人的偏见也复制过来。

此外,输入数据中某些看似无关区域的特征也可能具有预测性,但由于它们不在人为选定的关注区域内,因而会直接被抛弃。

例如,疾病的显著指征完全可能出现在关注区域周边的其他组织中,甚至可能会出现在附近的其他器官中。

运用弱监督学习来进行训练

在上述场景中,我们更希望AI可以接受更加笼统的标注(例如一幅影像中是否包含癌症组织或其他疾病指征),然后再由模型来找出其中最能说明问题的特征 。这正是弱监督学习的用武之地。

使用弱监督学习实现自动标注。人工智能发现了病理学家没有发现的预测性特征。

弱监督学习是深度学习的一个分支,旨在通过更少、更粗略的标注来生成性能良好的深度学习模型。这些标注大致可以分为三大类:不完整、不精确和不准确的标注。这里使用“大致”一词是因为单个数据集中可以结合使用多种标注方法,并且弱监督标注的目的就是根据需要来解决各种组合问题。

不完整的标注通常表现为数据集的一部分被标注,而其余部分未被标注。

不精确的标注则是直接标注出影像的整体结果,不对特定关注区域进行分割。

不准确的标注源于标注人员缺乏专业知识,以及某些疾病指征之间的模糊性或不确定性。

有趣的是,如果通过更粗略、更容易实现的标注就可以产生不错的结果,那么不精确的标注可能比不完整或不准确的标注更有用。不精确的标注不容易出错,因为它不需要达到像其他标注那样的详细程度,而且它也更容易获得:

例如只需从扫描报告中提取出有关癌症分期的信息,就可以表明该扫描影像包含癌症组织,而不必再通过人工的方式把癌变区域从三维影像中“抠”出来。这些标注自身虽然“不精确”,但却可以让数据集获得更多可用的标注,进而提升准确度。

尤为重要的是,通过这种标注方式,我们就不必再为了标出一切相关的细枝末节而花大价钱雇佣或培养高度专业的人员。这种方式最终可以提高标注的准确性,毕竟给出一个二选一的答案远比详细描绘出所有特征来得容易。

要在常见的医学影像应用(例如检测和定位关键区域)中利用这种不精确的标注,比较常见的做法是利用以下两步流程:

打造主干模型,例如训练一个深度学习模型来预测由不精确的标注所描述的类别。

在对特定扫描影像进行预测的模型中,使用像素属性方法(也称为显著性或可解释性方法)将模型决策的最相关区域突显出来。

两个输入图像(金鱼和熊) ,以及在弱监督学习期间用于执行分割的基于梯度的像素属性方法。

使用卷积神经网络作为主干

医疗领域经常需要用到影像数据,因而将卷积神经网络(CNN)用作弱监督学习主要的基础深度学习框架就是自然而然的选择。CNN的工作原理是通过学习来减少医学扫描影像中需要处理的像素量(通常是将三维图像降维表示),然后将这些像素对应到类别标注。

在弱监督学习中,我们还可以结合使用多种方法。您可以使用自己的数据集训练新的网络(如果该数据集足以提供其他类似数据源的优势),也可以使用预先训练好的网络来对新任务进行迁移学习。例如,ResNet50和VGG16就是利用源自日常生活的数百万张图片来训练的两种CNN架构。虽然它们并没有使用医学影像进行过训练,但它们仍然非常有用,因为在模型早期阶段的层中学习到的卷积过滤器往往涉及的是通用的特征,如线条、形状和纹理等,这对医学影像依然是有用的。

要使用这些模型之一来进行迁移学习,只需去掉后期阶段的类别预测层,然后用代表新的医学影像任务所需类别的层来重新初始化即可。虽然模型的最终目标是让输出结果能够突显出影像中的相关物体和值得关注的区域,但首先进行的第一步只需预测影像中是否存在这些值得关注的区域即可。

弱监督定位的AI可解释性

当深度学习主干完成训练,可以准确预测是否存在值得关注的类别后,下一步便是使用某种AI可解释性方法来分割关注区域。这些可解释性方法(也称为像素属性方法)旨在深入了解深度学习模型在做出某种预测时在图像中看到的内容,其输出是某种形式的图像(通常称为显著图),可以根据最终目标以多种不同的方法计算得出。

在这些方法中,基于梯度的显著图是最常用的方法之一,其核心包括输出预测以及对所有构成该输出的神经元进行检测。根据方法的不同,这种检测可以一直追溯到第一个输入层——标准梯度(Vanilla Gradient),也可以停留在某个较后期的层,如神经网络架构中的最后一个卷积层——GradCAM。其他的方法可以实现不同的目的,例如产生更平滑的关注区域、改善更简单的方法存在的局限性,或在所需特征周围进行更紧密的分割。

GradCAM是一种ML可解释性方法,可用于在弱监督学习中分割特征,它所获取的是关于最后一个卷积层的输出类的梯度。

结语

就在不久前,识别医学影像中的生物标志物依然还需要大量以复杂方式进行标注的影像数据。然而,弱监督学习等技术降低了对数据标注完整性、精确性和准确性的要求,从而能够轻松揭示出以往需要耗费大量时间、借助高度专业的知识才能发现的问题。

弱监督学习只需采用更容易实现的粗略标注(例如只标注整个影像,而不是标注影像中细分的关键区域)就可以运作。它可以重新利用预先训练好的CNN模型,然后使用常见的可解释性方法,根据预测的类别将值得关注的区域突显出来。在这些特性的支持下,便可以将使用医学影像数据训练的模型用于各种应用,无需进行大量像素级标注。这不仅节省了时间和成本,更有可能发现临床医生以前未曾了解的预测特征,从而提高诊断的准确性、改善患者的治疗效果。

Becks作者介绍

Becks是Imagia公司的机器学习技术负责人,该公司是一家位于蒙特利尔的初创公司,致力于帮助临床医生运用人工智能推动医学研究。在业余时间,她还与Whale Seeker合作,这是另一家运用人工智能对鲸鱼进行检测的初创公司,旨在让工业发展与这些温和的巨兽和谐共存。她从事深度学习和机器学习领域的工作,致力于研究新的深度学习方法并直接应用这些方法来解决现实世界的问题、构建渠道和平台来训练和部署人工智能模型,以及为初创公司的人工智能和数据战略提供咨询服务。

关于贸泽电子

贸泽电子(Mouser Electronics)是一家全球授权半导体和电子元器件授权分销商,服务全球广大电子设计群体。贸泽电子原厂授权分销近1,200家知名品牌,可订购数百万种在线产品,为客户提供一站式采购平台,欢迎关注我们,获取第一手的设计与产业资讯信息!

原文标题:医学影像数据训练太难?那是因为你还不知道这个利器~

文章出处:【微信公众号:贸泽电子】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

<!–

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: admin

为您推荐

智慧路灯照明系统的应用为智慧城市的发展建设添砖加瓦

智慧路灯照明系统的应用为智慧城市的发展建设添砖加瓦

智慧路灯照明系统的应用为智慧城市的发展建设添砖加瓦-夜间的路灯不仅照亮了黑暗的街道,而且照亮了回家的道路。从街上望去,闪烁的路灯发出暖光,指引着我们家的方向。城市里的路灯就像“守护者”,给长途旅行回来的游客带来了极大的安全感。 当今,路灯智能控制时代的到来,极大地促进了传统路灯的人工机械化运行。虽然对此感到兴奋,但我们不禁要问:随着路灯智能控制的早期到来,除了改善路灯的运行模式,还能带来什么? 为城市交通提供安全保障 城市公共照明系统中的智能路灯在每个路

晶振在五种不同行业中的应用说明

晶振在五种不同行业中的应用说明-晶振在五种不同行业的应用-由TST嘉硕代理KOYU光与电子

几种不同的物联网控制APP模式

本文就简单介绍当前几种物联网控制APP模式,让大家了解几种不同的技术路线。\” />

<meta http-equiv=X-UA-Compatible content=\"IE=edge,chrome=1

苹果稳坐全球可穿戴设备数量首位,占据日本市场超7成份额

苹果稳坐全球可穿戴设备数量首位,占据日本市场超7成份额

苹果公司占据2021年日本第四季度可穿戴设备71.5%份额,占据全球可穿戴设备市场34.9%份额。\” />

<meta http-equiv=X-UA-Compatible content=\"IE=edge,chrome=1

如何用GPUDirect存储器如何缓解CPU I / O瓶颈

除了使用 GPUs 而不是 CPU 加快计算的好处外,一旦整个数据处理管道转移到 GPU 执行,直接存储就起到了一个力倍增器的作用。这一点变得尤为重要,因为数据集大小不再适合系统内存,而且 GPUs 的数据 I / O 增长成为处理时间的瓶颈。当人工智能和数据科学继续重新定义可能的艺术时,启用直接路径可以减少甚至完全缓解这个瓶颈。\” />

<meta http-equiv=X-UA-Compatible content=\"IE=edge,chrome=1

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

返回顶部