自然语言处理训练
近日,由广州市妇女儿童医疗中心教授夏会民、加州大学圣地亚哥分校教授张康和人工智能公司易图科技等领导的研究团队,,设计了基于AI的疾病诊断系统,并在其中加入了医学知识图谱,让AI可以根据人类医生读取的电子病历“诊断疾病”。
结果也相当乐观:通过对系统收录的55种儿科常见病和部分危重病的检测,AI的诊断水平可以达到儿科主治医生的专业水平。
目前,这项“利用人工智能评估和准确诊断儿科疾病”的研究成果已于2月中旬在线发表在《自然-医学》杂志上。
将深度学习技术与专业医学知识图谱相结合,是人工智能辅助诊断平台的最大特色。易图医疗总裁倪好在接受笔者采访时表示,未来学习临床数据,为医生提供更多辅助诊断能力(疾病),是“非常可行的”。
为了让AI辅助诊断平台具备专业的儿科医学知识,研究团队让它在56.7万名儿童的1.36万份电子病历中学习诊断逻辑。这些来自广州市妇女儿童医疗中心2016年6月至2017年7月的电子病历,覆盖1.01.6亿个数据点,初步诊断包括儿科常见疾病55种。
除了整合医学知识,研究团队还利用易图科技的自然语言处理(NLP)技术构建了自然语言处理模型,对这些电子病历进行标注。该模型通过规范病历,无需“训练”即可对临床信息进行粗略分类。
“粗分类是指以整个电子病历为输入,以专家诊断结果为输出,从而实现粗分类。但这并不能真正理解疾病本身,也很难解释为什么会做出这样的诊断。”倪好告诉笔者,虽然NLP模型突破了病历文本语言和计算机语言之间的壁垒,但知识图谱才是AI诊断平台获取专家能力的关键。
这也是他们接下来的重要工作:由30多名资深儿科医生和10多名信息学研究人员组成的专家团队,在电子病历上人工标注、不断测试、迭代6183个图表,确保诊断的准确性。
研究人员通过资深医学专家标注的图表,在AI诊断平台上进行“训练优化验证”后,发现深度学习后的NLP模型可以很好地标注电子病历,分别在体检和主诉项目的标注上达到最高的灵敏度和准确率。换句话说,深度学习的NLP模型可以准确地读取电子病历中记录的信息,并可以准确地做出符合临床标准的标注。而这也是整个研究中最关键的部分。
“通过引入知识图谱深度解构每种疾病的电子病历,NLP模型具备了理解电子病历的能力。比如哪些特征与手足口病密切相关,川崎病有哪些最相关的特征,让模型在准确诊断的基础上有更好的医学可解释性。”倪好解释道,“借助知识图谱和深度学习技术解构电子病历,我们可以真正理解临床数据。基于此,机器学习分类等算法是有用的,否则不可能把电子病历当成‘黑匣子’来构建高精度的可解释模型。”
利用深度学习技术和医学知识图谱解构电子病历数据,研究人员构建了高质量的智能疾病数据库,未来利用智能疾病数据库构建各种诊断模型更加容易。
构建多层次诊断模型,是科研人员将AI诊断平台打造成为儿科医生的第二步。倪好说,这种基于logistic回归分类器的诊断模型,首先会分为几大系统,比如呼吸系统疾病、胃肠道疾病、全身性疾病,然后在每个类别下细分——这是让AI模拟人类医生的诊疗路径,一步步判断目标儿童的数据。
结果表明,基于NLP模型准确读取的数据,AI诊断模型可以准确诊断儿科疾病:平均准确率为90%,神经精神障碍的诊断准确率高达98%。
该诊断模型在相应儿科疾病的分类和诊断中也表现良好。该系统对上呼吸道疾病和下呼吸道疾病的诊断准确率分别为89%和87%。同时,该系统对常见系统性疾病和高危疾病也具有较高的诊断准确率,如传染性单核细胞增多症、水痘、玫瑰红疹、流感、手足口病、细菌性脑膜炎等。
这揭示了该诊断系统可以根据NLP系统标注的临床数据信息以高准确度判断常见儿科疾病。
研究人员随后使用11926个临床病例,比较了AI诊断系统和五个临床治疗组的儿科疾病诊断水平,其中参与研究的治疗组逐渐增加了临床工作时间和资历。结果表明,反映模型综合性能的AI诊断系统F1平均分高于由两名年轻医生组成的治疗组,但略低于由三名资深医生组成的治疗组。
论文认为,这说明AI诊断系统可以辅助年轻的治疗团队进行疾病诊断,提高团队的诊疗水平。
该系统于今年6月5日至10月6日在广州市妇女儿童医疗中心投入临床应用。从65438+10月1到65438+10月21短短20天,该院医生实际调用其进行辅助诊断30276次,诊断与临床符合率达到87.4%。广州市妇女儿童中心医务部主任孙鑫在体验该系统后表示,该系统在疾病分组和分类方面“更加科学”。
上述论文发表后,《纽约时报》对这一研究进行了评论,称“在儿科医院访问了18个月中国数十万儿童的数据后,如此庞大的数据量可以用于研究,这也是中国在全球人工智能和竞争中的优势。”
“数据的确是我们研究成果的核心关键之一。”倪好说,“然而,高质量的标准数据来自一个强大的联合团队。我们专门开发了数据标准体系,标注了很多数据。”
论文作者之一、广州市妇女儿童医疗中心教授夏会民表示,这篇文章的启示是“AI通过系统学习文本病历,将诊断出更多的疾病”。不过,他警告说,仍然需要认识到还有许多基础工作要做,例如高质量数据的整合是一个长期的过程。
笔者了解到,近三年来,医院注重数据的标准化和结构化,实现了50多个诊断数据子系统的相互沟通和互联互通,为系统的应用奠定了基础。
“另外,在A我了解到海量数据后,其诊断结果的准确性还需要更大范围的数据来验证和对比。”夏会民说。
在AI技术的四大要素中,场景也很重要。该报另一位记者张康认为,研究儿科疾病意义重大。
“儿科疾病的诊断是医疗保健的一大痛点。一些儿科疾病具有威胁性,需要尽早治疗,而儿童恰恰不善于表达自己的病情,因此快速准确地诊断儿科疾病是非常必要的。”张康表示,目前儿科医生需求紧缺,本文构建的AI诊断系统将对严重不足的医疗资源起到极大的辅助作用。
相关论文信息:doi:10.1038/s 41591-018-0335-9。