今天跟大家唠唠我最近在搞的 OMAHA 实践,这玩意儿一开始接触的时候,脑子嗡嗡的。
背景:起因是公司想在医疗健康领域搞点事情,准备做个啥智能化的东西,然后就接触到了 OMAHA(Open Medical and Healthcare Alliance)。听起来挺唬人,就是个开放的医疗健康联盟,搞了一堆标准、术语集啥的,想让大家更好地共享医疗数据和知识。
刚开始,我拿到一堆资料,啥“汇知”医学知识图谱、“七巧板”医学术语集,看得我头大。这都啥跟啥?好在网上查了点资料,大概明白了 OMAHA 是想搞个领域知识库,给人工智能提供基础支撑。
然后就开始啃那些标准和术语集。真挺枯燥的。各种医学术语,各种编码,看得我眼花缭乱。而且这些东西还挺专业的,很多我都不懂。没办法,只能硬着头皮查资料,问同事,一点点地学。
实践过程: 数据准备:得有数据。我们搞了一批医疗记录、文献资料,各种各样的。然后,就开始按照 OMAHA 的标准进行清洗、整理、标注。这绝对是个体力活,而且还得非常仔细,稍微有点错误,后面的工作就全白费了。
有了数据,就开始构建知识图谱了。这玩意儿听起来高大上,就是把数据里的实体、关系提取出来,然后用图的形式表示出来。我们用了一些现成的工具,也自己写了一些代码,把数据里的各种疾病、症状、药物、治疗方法等等都提取出来,然后把它们之间的关系也搞清楚。
规则引擎搭建:知识图谱有了,还得有个规则引擎,才能让它发挥作用。规则引擎就是一套规则,用来推理、判断、决策的。我们参考了 OMAHA 规则库的一些东西,结合自己的业务需求,制定了一套规则。
模型训练:就是模型训练了。我们用了一些机器学习算法,让模型学习知识图谱和规则引擎里的知识,然后让它能够自动地进行疾病诊断、治疗方案推荐等等。
这实践过程,简直就是一部踩坑史。
数据质量:数据质量很差,各种错误、缺失、不一致。搞得我们花了很多时间去清洗、整理数据。
标准理解:OMAHA 的标准,挺复杂的。很多地方,我们理解得不够透彻,导致后面的工作出现了一些偏差。
市面上有很多知识图谱、规则引擎的工具,我们选了好几个,都不太满意。要么功能不够强大,要么太复杂,要么收费太贵。还是决定自己写一些代码,定制化一些工具。
准确度问题:模型训练出来后,准确度不高。后来发现,是规则引擎里的规则有问题。有些规则,把异常发现和疾病标准搞混了,有些规则,把检验和非手术治疗搞混了。没办法,只能人工调整规则,提高准确度。
最终成果:经过一番折腾,总算是把 OMAHA 的东西搞出来了。虽然还有很多不足之处,但总算是迈出了第一步。
我们可以用这个系统来进行一些简单的疾病诊断、治疗方案推荐了。虽然准确度还不是很高,但已经可以辅助医生进行决策了。
搞 OMAHA,真不是一件容易的事情。需要懂医学知识,需要懂数据处理,需要懂人工智能,还需要有足够的耐心。
不过我觉得这件事情很有意义。如果能把 OMAHA 的东西搞就能真正地提升医疗健康服务的效率和质量,造福老百姓。
我会继续努力,把 OMAHA 的东西搞得更
的我再bb两句:
这玩意儿,真不是一蹴而就的,得慢慢来。而且一定要多交流、多学习,才能少走弯路。我还加了一些相关的社群,没事儿就去看看大佬们都在聊看看有没有啥新的进展。
希望我的这回实践记录,能对大家有所帮助!

还没有评论,来说两句吧...