□ 李成平
作为人工智能(AI)的一个分支,AI大模型能够通过学习大量的数据来生成新的数据实例,这在医疗健康领域有着广泛的应用前景,如药物研发、医学影像和医疗文本分析等。这些应用不仅能提升新药研发效率和医疗服务质量,还能推动整个医疗健康产业的创新发展,形成新的产业生态和生产力。
据不完全统计,2023年以来,已有数十个中医药相关的大模型相继亮相。华为、百度、阿里、科大讯飞等科技大厂基于其算力算法优势,积极在中医药行业开展大模型研发;清华大学、中国中医科学院等科研院所也在积极通过大模型等先进技术进行中医药传承与创新。当然,大模型赛道不乏中医药行业的知名企业,如云南白药、华润江中、太极集团、天士力等,以及大经中医、中医聪宝这类专研中医AI多年的创新企业。此外,在一些具有中医药产业基础的地区,地方政府也在着力发展中医药大模型产业。例如,今年6月,安徽省亳州市宣布和华为公司合作,正式建设华佗中医药大模型;同月,中医药横琴大模型在横琴粤澳深度合作区正式启用。(详见表)
不止于“赛博中医”
出现在很多医疗机构或体检中心的AI中医机器人,因如老中医一般把脉、开方,形成反差感,而被戏称为“赛博中医”。这其中或有调侃成分,但也让更多人开始关注到传统中医药的与时俱进。
现阶段,中医药大模型的应用场景主要包括新药研发、问诊导诊、辅助诊疗和康复健康管理等。
中医聪宝董事长顾高生认为,中医药+大模型是传统中医药服务的一场革命,面向康养机构、药店诊所等偏消费场景的大健康养生服务,是中医药大模型目前最有希望落地的场景。这类场景语言交互需求强,和大模型在语义理解、生成交互方面的技术优势比较契合。在辅助诊疗场景方面,则考验大模型对多模态数据训练、处理和图像识别上的能力。
中医药大模型对新药研发、中药产业发展的助力,吸引了大批中药企业的关注。如天士力“数智本草”大模型能够帮助研究者完成中医药理论证据的挖掘和总结,也可结合相应算法快捷实现药材与复方的筛选和优化。根据天士力研究院的信息,天士力利用天然产物分子大模型,完成了糖尿病肾病及肺纤维化治疗的天然产物分子筛选。通过高效虚拟筛选,精准预测和优化候选分子的药效和安全性,从而加速了中药组分新药的发现和开发过程。此外,由太极集团作为智库联合其他单位开发的本草智库·中药大模型,收录了覆盖中药全产业链的2000余万条中药研究底层核心数据,让中药材有了“基因身份证”,对中药材种植、质量控制、药物研发等中药全产业链关键环节具有重要意义。
辅助诊疗是大多数中医药大模型都希望实现的能力。大经中医创始人、CEO李文友表示,中医诊疗数字化和智能化一直是中医现代化发展的重要方向之一,按照技术演进路径,已经历符号逻辑、机器学习和深度学习三大阶段,随着技术的进步和规模的扩大,模型出现了“知识涌现”的能力,进入生成式AI新时代。可以说,中医药大模型是部分中医智能辅助诊疗系统在AI技术作用下的迭代产物。大经中医发布的岐黄问道·大模型便是基于其完备的知识图谱体系生长起来的。基于过往8年的高质量中医数据和数智中医计算积累,该公司构建了完备的中医知识图谱体系,并将其应用在中医CDSS系统中。而知识图谱转化所形成的1100多万条中医自然语义数据,也成为了大模型的训练数据。
不过,需要强调的是,没有场景,就形成不了数据反馈,中医药大模型就是一个空中楼阁。因此,多位业内人士表示,要把大模型放到具体场景中应用,在使用中实现优化。
高质量数据是基础
如何收集和整理高质量的中医药数据,是中医药大模型开发面临的首要问题。
李文友介绍,中医知识链包括了人、病(疾病)、症(症状、体征)、证(病理性概括)、法(治疗方法)、方(医方)、药物七大要素。如果这7类要素完整,并且之间的关系是真实的,那么即为高质量数据。
首先,中医典籍、经典名方、专业文献这类静态数据,经过专业的辨伪存真,可作为高质量数据的重要来源之一。例如,天大智图的“海河·岐伯”大模型便是以《黄帝内经》等中医典籍为核心,抽取《四库全书》等医家类资料、传统中医文献与权威中医药学资源的文本素材,以中医药领域的基本概念、知识、理论、疾病、药物、方剂等为节点,以节点之间的关系为边,形成完整的知识图谱。天士力的“数智本草”大模型也是学习训练了中药古籍、文献摘要、临床方案、中药专利、药典政策指南等内容,整体参数量达到380亿。
高质量数据的另一个重要来源,是真实诊疗过程中产生的临床数据,如脉象、舌象、经络、穴位数据,以及中医专家的医案数据、诊疗经验等。但这类数据在价值挖掘上存在两个难点:一是临床数据记录不完整或表述不一;二是一些临床数据沉淀在各类医疗机构、名老中医工作室中,独立性和私密性较强。对此,中医聪宝通过两条路径来收集中医临床数据。一方面,基于公司可规模化、可复制的中医智能医共体/城市中医大脑,汇聚了18个省(市)超5000家医疗机构,这些医疗机构诊疗系统中每天产生的“活数据”都可经脱敏后使用;另一方面,其自主研发的智能中医传承创新平台,可帮助全国不同流派的名老中医进行经验落地。
数据质量的好坏直接关系到模型表现的优劣。在收集数据后,开发单位还要设计数据清洗和预处理策略和规则,采用文本处理和强化学习等技术,进行自动数据预处理;同时,结合人工审查,剔除不准确的数据,实现人机协同的大规模中医诊疗预料准备,建立高质量的中医诊疗语料库。比如,大经中医就打造了中医症状/体征的术语规范化词典,在其岐黄问道·大模型中,中医专家还会参与大模型的调整反馈工作,让大模型增加对中医知识和中医思维的理解,确保大模型应答的准确性和一致性。
经观察,现有中医药大模型的数据体量最高为百亿级,虽然和通用大模型动辄以兆计算的数据相比规模较小,但这些数据皆是经过清洗的高质量数据,一条高质量数据的价值或比上百条互联网泛内容的数据价值要高得多。
用户接受度、知识产权等难题待解
除了需要源源不断的高质量数据,中医药大模型还需要对中医药产业具有特有的知识和理解力。
李文友指出,中医药大模型更多是对古老的中医药学智慧的数智化传承,在研发过程中要注意中医思维逻辑的一致性和合理性、个性化治疗方案的精准度和有效性,以及大模型的持续学习和自我迭代能力,才能适应不断变化的医学知识和临床需求。同时,还要注重研发团队的多元化和跨学科融合,培养复合型人才,以促进大模型的创新和发展。此外,中医素有门派之分,如何对其进行合法、合规、合理的产业化,还需要完善知识产权相关的政策措施。
智医存内CEO黄新霆认为,用户接受度也是一个需要注意的维度。当前,行业缺乏对中医药大模型的标准界定。大模型很多,但要符合中医药大模型的特点却很难。可使用、对用户有利、经过验证,且基于真实应用场景,是中医药大模型需具备的几个重要特点,“疗效好”是中医药大模型的最终评价标准。
总而言之,中医药大模型是时代发展的必然趋势。大模型以其强大的数据处理和分析能力,为中医药传承与创新注入新的活力,然而也要清醒认识到,大模型只是工具,中医的“望闻问切”、整体观念和辨证论治等特点,依然是中医药的灵魂所在。
(作者单位:动脉网)