中医妇科专家在诊治妇科疾病的临床实践中,积累了丰富的经验,其中就蕴含着辨证诊断的思维和技巧。利用现代先进的智能技术,同时结合统计分析等传统方法,从大量数据中挖掘有用的信息与知识,将为临床及科研提供宝贵的资源,具有重要意义。笔者选择权威的国家级"十二五"规划教材《中医妇科学》作为案例来源,通过数据挖掘的方式分析妇科疾病证素之间以及症状与证素之间的关系,希冀为妇科临床诊察提供借鉴。
1文献资料来源
选择《中医妇科学》[1]教材中"辨证论治"部分涉及的证型及证候数据作为案例来源。排除各病专论之后记载的医家临床医案。
2数据整理与分析方法
2.1证型名称规范以《中医临床诊疗术语-证候部分(GB/T16751.2-1997)》为标准,依据证型名称同义词关系,对教材中的证型进行规范。如将"肝肾亏损证"规范为"肝肾亏虚证".
2.2证素拆解以朱文锋编着的《证素辨证学》[2]中的53个证素为参考标准,同时结合证候表现将案例对应的证型拆解为证素。如将"气血虚弱证"拆解为病性证素气虚、血虚。
2.3证候规范以朱文锋编着的《证素辨证学》中600余条症状、体征术语为主要参考标准,同时结合黎敬波主编的《中医临床常见症状术语规范》中2138条症状和体征术语对教材中证候进行术语规范,如将"经期提前"规范为"月经提前".
2.4数据分析采用Excel建立妇科数据库,应用SpssCle-mentine12.0进行关联规则分析。
3证候、证素分类关联规则挖掘
3.1数据预处理数据挖掘过程中数据的质量是保证挖掘结果准确性至关重要的一步。为此,在对教材的证型、证候进行术语规范的过程中,同时对资料的完整性、真实性进行核查。此外,拆解的证素需经福建中医药大学中医证研究基地专家的审核,把每个案例都用3个属性来描述,即证型、证素、证候,此处只列出3个辨证案例信息,如表1格式描述,其中"[]"之前为原文证候,之中为相应的规范术语,数字代表轻重程度,分别用1、2、3代表轻、中、重,未明确说明轻重程度则默认为中度而省略。
3.2关联规则定义关联规则(AR)是形如AR:A→B的规则,规则A→B在数据集D中成立,应同时满足最小支持度阈值(Min_Sup)和最小置信度阈值(Min_Conf)。Support(A→B)=P(A∪B),Confidence(A→B)=P(B|A)。支持度(Support)和置信度(Confidence)是描述AR兴趣度的两项重要指标,前者反映规则的普遍性,后者反映规则的可靠性,通常选择支持度和置信度均较高的规则作为发现的有趣模式[3].提升度Lift(A→B)=P(A∪B)/P(B)即置信度与期望置信度的比值[4].
在众多的关联规则算法中,Apriori算法是一种常用的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。目的是从数据库中挖掘出支持度和信任度都不低于给定的最小支持度和最小信任度的关联规则。例如:神疲&倦怠乏力→气虚。其中,"神疲&倦怠乏力"为规则前件(即A);"气虚"为规则后件(即B)。规则频数指神疲、倦怠乏力、气虚三者同时在数据集D中的频数,规则前件频数指食积、胃两者同时出现在数据集D中的频数。本研究的规则频数为27,规则前件频数为30,规则后件频数为51,总案例数为222,故支持度为27/222=0.12162,置信度为27/30=0.9,提升度=0.9×222/51=3.918.
4结果
4.1证素间的关联规则《中医妇科学》教材中共涉及43个证素,其中18个病位证素,25个病性证素。挖掘证素(病位、病性)之间的关联规则,也就是要得到哪些病位的组合常见哪些病性证素,或哪些病性的组合常与哪些病位证素相关。病位证素=>病性证素,最小支持度阈值取1%,最小置信度阈值取60%,提升度大于1.共发现22条规则,如少腹=>血瘀(Sup1.351%,Con100%)等。病性证素=>病位证素,因病性证素较病位证素多,最小支持度阈值取1,最小置信度阈值取80%,共发现11条关联规则,如阳亢=>肝(Sup1.351%,Con100%)等。至此,《中医妇科学》病位证素=>病性证素,以少腹=>血瘀等置信度最高,病性证素=>病位证素,以阳亢=>肝等置信度最高。以下分别列出部分病位证素=>病性证素关联规则,及全部病性证素=>病位证素关联规则(见表2、表3)。
4.2症状=>证素的关联规则挖掘症状和证素之间关联规则,即要得到哪些症状的组合常提示哪些证素,由于涉及症状较多,最小支持度阈值取10%,最小置信度阈值取60%,提升度阈值取3.关联规则形式:症状=>证素,共发现11条诊断关联规则,如(腰膝酸软and头晕)=>肾等的置信度最高。(见表4)
5讨论
通过以上关联规则分析所得到的证素与证素之间、症状与证素之间的关联规则,如少腹=>血瘀、阳亢=>肝、(腰膝酸软and头晕)=>肾等,既符合中医学理论,又为临床所常见,说明关联规则在挖掘妇科教材宝贵诊断经验方面是行之有效的。从证素之间的关联规则结果中发现,某些关联规则置信度和提升度均很高,如膀胱=>闭(Sup1.802%,Con100%,Lift44.4)提升度远大于其他规则(见表2、表3)。
然而对比发现,各规则的支持度均普遍偏低,因此临床应用时需慎重考虑。
从症状与证素之间的关联规则结果来看(见表4),证素主要体现在气血精亏方面(如气虚、血虚),症状则主要以倦怠乏力、神疲、腰膝酸软、心悸、头晕等为主。女子以血为本,经、孕、产、乳均与血相关,血为气之母,血能生气,血能载气,血虚则气虚,气虚则可出现气短、神疲、倦怠乏力等症状。中医学认为精血同源,肝藏血,肾藏精,精血相互滋生,又相互影响。在经、孕、产、乳的过程中各种失血、耗血均易致精亏血少,而致头晕、耳鸣、腰膝酸软、心悸等症状。
本研究由于数据来源较为局限,结论仅限于此,若能得到大量案例,同时结合治法、方药等数据,则可以进行更深层次的研究分析。
参考文献:
[1]马宝璋,齐聪。中医妇科学(3版)[M].北京:中国中医药出版社,2012:35-360.
[2]朱文锋。证素辨证学[M].北京:人民卫生出版社,2008:163-228.
[3]王君,杨雪梅,林端宜。仲景方用药的分类关联规则挖掘[J].福建中医学院学报,2009,19(6)。32-34.
[4]亓文娟,黄书城。统计分析及关联挖掘在大学生心理健康中的应用[J].2014,23(10):228-232.