从解剖结构到手术指导，香港试水医疗多模态大模型|界面新闻

界面新闻记者 | 张熹珑

人工智能及机器人技术风头正盛，正在打造创科中心的香港，试图从医疗垂直领域把握这一蓝海。

3月28日，中国科学院香港创新院AI中心（简称“AI中心”）旗下联合实验室首次公开展示了三项成果：GI-SoftTech内窥镜机器人、ESSENCE微创手术触觉反馈技术，以及外科手术规划软件 EpiNav。

三项成果均与医疗多模态大模型相关。GI-SoftTech搭载了AI智能，实现内镜检查的数字化和智能化；ESSENCE能在微型手术工具的末端部署分布式高密度触点，首次实现人手级的触觉感知能力。EpiNav则结合CARES Copilot手术大模型，在神经外科手术中为医生提供最佳的手术规划方案，大幅减少手术规划时间。

早在两周前，AI中心发布了医疗垂直领域的AI多模态大模型CARES Copilot 1.0，目前可以在手术阶段自动识别病灶和解剖结构。

相比单模态，多模态大模型可以同时处理多个类型信息，从而实现更灵活地人机交互。

中国科学院香港创新院AI中心执行主任刘宏斌接受界面新闻采访时表示，CARES Copilot 1.0实现了图像、文本、语音、视频、MRI、CT、超声等多模态的手术数据理解，可以进行关键解剖结构的识别以及手术中危险区域的提示。

“很多神经科医生手术时，也希望现场有人指导、做判断，以往是不可能的。但是AI大模型跟机器人的操作结合起来可以打破这个壁垒。”刘宏斌说。

目前，该大模型已经与香港威尔士亲王医院神经外科合作，把系统应用于内窥镜手术中，实时分析手术过程，并提示医生现在手术的阶段和下一步需要注意什么，例如“清除肿瘤”、“硬脑膜修复”等。今年4月份，也会开始应用于北京协和医院手术室进行技术临床实验。

手术机器人担任助手

脑手术是全球风险最高的手术。在香港，该手术的死亡率低于5%，需要脑手术的港人逐年按上升。据介绍，有两种病人需要接受脑手术，第一种包括脑出血的新病例，第二种是大脑出现肿瘤，其中有一种癌症干细胞病症主要出现于儿童，而该肿瘤的出现率在香港属全球最高。刘宏斌提到，这也是其中一个驱使其研发新微创手术的原因。

“神经外科医生最关心的首先就是安全性，在手术过程中，他需要这个技术能够告诉他相关的解剖学，重要的神经、血管在什么位置。”刘宏斌指，“同时会有一个助手进行辅助，帮忙拿器械、镜头，助手也在观察主刀医生，预判需要怎样的协助。我觉得未来手术机器人，例如CARES Copilot，是可以担任这个助手角色的。”

AI中心所使用的基础大模型是由中国科学院自动化所开发的“紫东·太初”。刘宏斌告诉界面新闻，紫东·太初为多模态的通用大模型，AI中心在这个基础上进一步研发了一个垂直领域类模型，“我们聚焦医疗健康的研发，在这个原始架构上又搭了一层，这一层是一个可追溯和解释的结构。另外，也给这个大模型研发了很多专属的小模型。垂直领域的任务，必须是一个大模型配合一个小模型。”

CARES Copilot就采用了大模型加小模型的方式，将其识别的图片和视频进行语义提取，运用语言大模型的能力进行更高级的理解，最终形成手术报告工程、手术质量评估等面向临床专家的服务。按照设想，Copilot 2.0版本将延伸到手术指导，像教练一样提醒和指导医生哪个阶段应该如何操作。

刘宏斌提到，中科院自动化所跟AI中心是一种互补的模式，包括研究领域和应用领域上各有互补：“我们聚焦在医疗器械，自动化所的应用领域就比较广。一个健康问题，需要很多领域合作，既要有医疗器械，也要对数据进行分析，又涉及到AI技术。”

香港尽管整体产业生态上不及内地，但优势在于科研实力。刘宏斌表示，不仅跟紫东·太初大模型团队合作，也跟香港高校教授、海外AI团队和开源公司有合作，“香港高校老师的研究能力其实是世界级的，但是香港缺少产业，他们的成果没有一个出口，没有商业模式输出，研究也是不太可持续的。”

随着人工智能内容自动生成技术的发展，所需算力也水涨船高，特别是智能算力。2月28日，香港财政司司长陈茂波发表最新的财政预算案，表示将拨款30亿元推行为期三年的人工智能资助计划，资助本地大学、研发机构及企业等运用算力。

3月27日，香港创新科技及工业局局长孙东表示，香港人工智能超算中心首阶段设施最早在下半年启用。这将填补香港无领先水平高性能计算平台的空白。

尚未实现商用

不过，对比其他垂类大模型，如生产力工具、营销类等，医疗类大模型的商用似乎仍遥遥无期。

2023年以来，有超过50个平台公开发布了医疗大模型，但真正落地到临床诊断的寥寥无几。以科大讯飞为例，医疗板块曾是其重点发力的两个业务之一，但由于发展不及预期，营收占比仅2.45%，科大讯飞在赴港上市时甚至分拆了医疗板块。

刘宏斌分析道，垂直大模型难以落地临床的痛点在于，很多大模型研发过程中没有医院的参与，缺乏临床方面的因素，导致一些看上去很炫酷的技术，实际上并不能满足医生的需求。另一方面，医生通常会使用大量文本、影像、视频等数据，很多大模型还是仅以文本语言为主。

即便是CARES Copilot，也只是1.0版本，主要以识别和辅助医生的功能为主，尚未进入商业化落地阶段。刘宏斌表示，现在仍处于科研测试阶段，技术已经有原型机，可供医生使用，但还需要跟临床合作伙伴进行测试，进一步拓展新功能、提高参数精确度，“不过虽然是实验室的产品阶段，已经从研发中心的实验室进入了医生的实验室。”

刘宏斌认为，医疗大模型首先会在“医生很容易判断对错”的环节上落地应用，例如手术路径规划，原本需要花两个小时制定的手术方案，通过大模型可以缩减至半个小时，但最终决策权在医生手上。这个环节中，AI担任了一个提建议的角色。

“另外，大模型下人机互动的能力会更强，体现在手术室里的器械上。”手术室里的无影灯对医生来说就是一个痛点，医生抓无影灯时会把手弄脏，而助手有时候够不到无影灯的位置。“这种情况下，机器人能够提供一些辅助工作，应该也是最快落地的应用。”

至于CARES Copilot的商用前景，目前有两种可能性较大的转化模式，一种是将大模型嵌入医院的管理流程中，通过为医院降本增效获得回报；另一种商业模式是与医院的设备供应商合作，利用人工智能大为医疗器械赋能，提升其医疗器械的附加值。