用最专业的眼光看待互联网
立即咨询飞利浦与AWS合作开发的AI ToolSuite是一个可扩展、安全且合规的机器学习平台,旨在提升医疗健康行业的创新能力。此平台整合了多种AWS服务,使数据科学家能够高效地进行实验、数据标注、模型训练和部署。
通过此平台,飞利浦在多个业务单元中推动了AI/ML的应用,实现了高速创新与标准化治理。
飞利浦是一家专注于通过有意义的创新改善人们生活的健康科技公司。自2014年以来,飞利浦推出了其HealthSuite平台,该平台整合了多个AWS服务,帮助医疗和生命科学公司改善患者护理。飞利浦与医疗提供者、初创企业、大学及其他公司合作,开发有助于医师做出更精准诊断及提供个性化治疗的技术,服务全球数百万患者。
飞利浦的创新战略的主要驱动因素之一是人工智能AI,它使得创建智能和个性化的产品和服务成为可能,从而改善健康结果、提升客户体验并优化运营效率。
Amazon SageMaker提供特定设计的机器学习运营MLOps工具,以帮助自动化和标准化整个机器学习生命周期中的流程。借助SageMaker MLOps工具,团队可以轻松地以规模化的方式训练、测试、故障排除、部署和管理机器学习模型,从而提高数据科学家和机器学习工程师的生产力,同时保持模型在生产环境中的性能。
在本文中,我们描述了飞利浦如何与AWS合作开发AI ToolSuite一个基于SageMaker的可扩展、安全且合规的机器学习平台。此平台涵盖了实验、数据标注、训练、模型部署和可重用模板等功能。这些功能旨在帮助多个业务部门以快速灵活的方式进行创新,同时在规模上进行中心化的治理。我们概述了为平台的首次迭代提供需求的关键用例、核心组件和实现的成果,并总结了为平台赋能生成AI工作负载及快速引入新用户和团队所进行的持续努力。
飞利浦在多个领域中应用AI,包括影像、诊断、治疗、个人健康和远程护理。过去几年,飞利浦开发了一些AI驱动的解决方案,例如:
产品名称描述Philips SmartSpeed一种AI驱动的MRI影像技术,使用独特的CompressedSENSE深度学习算法,提升图像速度和质量。Philips eCareManager一种远程医疗解决方案,通过高级分析和临床算法处理来自多个来源的患者数据,提供可操作的洞察和建议。Philips Sonicare一款智能牙刷,利用AI分析用户的刷牙行为和口腔健康状况,提供实时指导和个性化建议。
多年来,飞利浦在医疗保健领域不断推动数据驱动的算法发展,以提升其创新解决方案的性能。然而,因不同团队使用各自的AI开发环境,导致了创新进展受限。这些环境从个人笔记本电脑、台式机到多样化的本地计算集群和基于云的基础设施不一而足。虽然这种多样性初期使各团队能够快速进行AI开发,但如今却妨碍了规模及效率的提升。
显然,飞利浦亟需向统一和标准化的环境转变,以真正释放数据驱动的潜力。
AI/ML驱动的方案通过自动化临床医师的行政任务来改变医疗保健。例如:
AI可以分析医学影像,帮助放射科医师更快更准确地诊断疾病。AI通过分析患者数据预测未来的医疗事件,提高主动护理能力。AI可以推荐个性化的治疗方案,应对患者的需求。AI可以提取和结构化临床记录的信息,提高记录效果。AI界面可以为患者提供查询、提醒和症状检查等支持。总体而言,AI/ML减少了人为错误、节省时间和成本、优化患者体验,并提供及时的个性化干预。
机器学习开发与部署平台的关键需求之一是支持持续迭代开发和部署的能力,如下图所示:
魔戒官网梯子AI资产的开发始于实验室环境,收集和整理数据,然后训练和验证模型。当模型准备好并获得批准后,将其部署到现实生产系统中。部署后,持续监测模型性能。现实性能的反馈将用于模型的进一步改进,并实现模型训练和部署的完全自动化。
AI ToolSuite的更详细需求由以下三个示例用例驱动:
开发一款旨在边缘物体检测的计算机视觉应用。数据科学团队期望通过AI驱动的自动图像标注工作流来加快繁琐的标注过程。使数据科学团队能够管理一系列经典的ML模型,以提供跨多医疗单位的基准统计。该项目需要自动化模型部署、实验跟踪、模型监控等全流程控制,以便于审计和未来再培训。在诊断医学影像中提高深度学习模型的质量和上市时间。现有的计算基础设施无法并行运行多项实验,延误了模型开发,基于监管需求,还需保证模型训练的完全可重现性。构建可扩展和稳健的AI/ML平台需要仔细考虑非功能性需求。这些需求不仅涉及平台的具体功能,还关注确保以下内容:
非功能性需求描述可扩展性平台应能有效扩大飞利浦的洞见生成基础设施,处理不断增长的数据、用户和AI/ML工作负载。性能平台必须提供高性能计算能力,以有效处理复杂的AI/ML算法,尽量减少延迟和响应时间。可靠性平台必须提供高度可靠的AI基础设施,跨多个可用区保证不间断运行。可用性平台应全天候可用,维护和升级的停机时间尽量减少,具备负载均衡和故障容错架构。安全与治理平台应采用强有力的安全措施、加密、访问控制和监控,保障数据和模型的安全。数据管理高效的数据管理对AI/ML平台至关重要,应包括数据版本控制、数据质量保证及数据治理功能。互操作性平台应设计为能与飞利浦内部数据库无缝集成,便于第三方应用的数据交换与协作。可维护性平台架构需良好组织和模块化,以便于未来的更新和改进,而无需打乱整个系统。资源优化平台应密切监控利用报告,确保计算资源的高效使用,并根据需求动态分配资源。监控与日志平台应使用Amazon CloudWatch进行全面监控和日志记录,以追踪系统性能。合规性平台应自动化启用可追溯性和可重现性,确保满足监管需求和文件记录的完整性。测试与验证需建立严格的测试和验证流程,确保AI/ML模型的准确性和可靠性,避免偏误。AI ToolSuite是一个端到端、可扩展、快速启动的AI开发环境,提供原生的SageMaker和相关AI/ML服务,结合飞利浦HealthSuite的安全和隐私保护。平台角色包括:
角色描述数据科学家准备数据,开发和训练模型,进行协作工作。机器学习工程师将机器学习应用产品化,进行模型部署和维护。数据科学管理员按团队需求创建项目,提供专用环境与用例特定模板。平台开发涉及多个迭代周期,经过发现、设计、构建、测试和部署等环节。由于某些应用的独特性,平台的扩展还需嵌入现有的自定义组件如数据存储或专有工具进行标注。以下图示展示了AI ToolSuite的三层架构结构,其中基础架构为第一层,共同的ML组件为第二层,项目特定模板为第三层。
第一层包含基础设施:
高可用性的网络层,可灵活访问互联网基于代码的自服务提供使用Amazon SageMaker Studio的集成开发环境平台角色数据科学管理员、数据科学家物品存储及可观测性的日志监控第二层包含共同的ML组件:
为每个工作和管道自动进行实验跟踪模型构建管道,可启动新的模型构建更新模型训练管道包括模型训练、评估和注册模型部署管道,进行最终测试和验证的模型部署方便管理模型版本的模型注册特定用例的项目角色,分配给SageMaker Studio用户用于存储处理、训练和推理容器镜像的图像库存放代码物品的代码库存储所有项目数据和物品的项目Amazon Simple Storage ServiceAmazon S3桶第三层包含根据新项目需求创建的项目特定模板,例如:
模板1 包含数据查询和历史跟踪组件。模板2 包含用于使用专有标注工具的自定义标注工作流的组件。模板3 包含自定义容器镜像的组件,便于定制开发环境和训练流程,专用HPC文件系统以及从本地IDE访问用户。以下图展示了跨多个AWS帐户的关键AWS服务,覆盖开发、验收和生产环境。
接下来的部分将讨论由AWS服务使能的平台关键能力,包括SageMaker、AWS服务目录、CloudWatch、AWS Lambda、Amazon Elastic Container RegistryAmazon ECR、Amazon S3、AWS身份与访问管理IAM等。
该平台使用基础设施即代码IaC,使飞利浦能够自动化基础设施资源的提供与管理。这种方法有助于开发、测试或生产环境的可重复性、可扩展性、版本控制、一致性、安全性和可移植性。
SageMaker和相关的AI/ML服务在安全保护下进行数据准备、模型开发、训练、标注和部署。
该平台通过分别存储和处理数据,实现数据隔离,降低未授权访问或数据泄露的风险。平台促进团队协作,这对于通常涉及多功能团队如数据科学家、数据科学管理员和MLOps工程师的AI项目至关重要。
基于角色的访问控制RBAC在管理权限和简化访问管理方面至关重要,通过结构化的方式定义角色和权限,使得管理权限变得简单且高效,适应团队和项目的成长。
该平台允许SageMaker访问数据存储,确保数据可以高效利用于模型训练与推理,避免在不同存储位置之间重复或移动数据,从而优化资源利用和减少成本。
AWS提供一整套AI和ML服务,如SageMaker、Amazon SageMaker Ground Truth和Amazon Cognito,与飞利浦内部的标注工具完全集成。这种集成使开发者能够在AWS环境中使用标注数据进行ML模型的训练和部署。
AI ToolSuite平台在AWS上为各种ML工作流提供模板。这些模板是针对特定ML用例预配置的基础架构设置,可通过如SageMaker项目模板、AWS CloudFormation和服务目录访问。
与GitHub的集成提升了效率,提供了一个集中的版本控制、代码评审和自动化CI/CD持续集成和持续部署管道的平台,减少了手动任务,提高了生产力。
与Visual Studio Code的集成提供了一个统一的环境,用于编码、调试和管理ML项目。这简化了整个ML工作流,减少了上下文切换,节省时间。集成还增强了团队成员之间的协作,使其能够在熟悉的开发环境中共同进行SageMaker项目的工作,利用版本控制系统无缝共享代码和笔记。
该平台提供版本控制,便于跟踪数据科学家训练和推理数据的变化,有助于结果的可重现性和数据的演变过程理解。
该平台还支持SageMaker实验跟踪,允许最终用户记录和跟踪与其ML实验相关的所有元数据,包括超参数、输入数据、代码和模型物品。这些能力对于满足监管标准、保证AI/ML工作流程的透明性和可追溯性至关重要。
AWS维护多种行业标准和法规的合规认证。AI/ML规范报告作为核心合规文件,显示遵守监管要求。其中记录了数据集、模型和代码的版本控制,这对于保持数据的来源追溯和可重复性至关重要,是监管合规和审计的关键。
项目级预算管理使组织能够设定支出上限,避免意外成本,确保ML项目在预算内进行。通过预算管理,组织可以为各个项目或团队分配专门的预算,这有助于团队及早识别资源低效或意外的成本飙升。此外,通过自动关闭空闲的笔记本,团队成员还可避免支付未使用资源的费用,从而释放宝贵的资源供其他任务或用户使用。
AI ToolSuite作为整体性的企业级平台构建,旨在促进飞利浦数据科学家的ML开发和部署。设计和开发过程中充分考虑了来自所有业务单元的多样化需求。在项目早期,飞利浦从业务团队中识别出一些支持者,提供反馈并帮助评估平台的价值。
以下成果得以实现:
用户采纳率是飞利浦关注的关键指标之一。多个业务单元的用户已完成培训并在平台上注册,预计到2024年,这一数字还将持续增长。另一个重要指标是数据科学用户的工作效率。借助AI ToolSuite,新的ML开发环境在不到一个小时内部署完成,而以前需要数天时间。数据科学团队可以访问可扩展、安全、经济高效的云计算基础设施。团队能够同时运行多项模型训练实验,显著将平均训练时间从几周缩短至13天。由于环境部署完全自动化,几乎无需云基础设施工程师的干预,从而降低了运营成本。AI ToolSuite的使用显著提升了数据和AI交付物的整体成熟度,促进了良好ML实践、标准化工作流程及端到端的可重现性,这对医疗行业的合规性至关重要。在组织纷纷追逐最新AI技术的同时,确保新技术的采用符合组织的安全与治理政策显得至关重要。AI ToolSuite的架构提供了一个卓越的蓝图,使飞利浦各团队能够在AWS上启用生成AI功能。团队可以利用Amazon SageMaker JumpStart,获取大量来自Hugging Face等提供者的开源模型。在已有访问控制、项目配置和成本控制的保护措施下,团队能顺利开始使用SageMaker中的生成AI功能。
此外,基于项目需求,个人账户还可获得对[Amazon Bedrock