摘要:为探索搜索引擎技术在急诊医学科局域网知识数据库中的运用,对急诊工作中文件类、文献类、书籍类等各种数据和急诊医学专业知识进行分类整理,依托于急诊工作区局域网的数据库,统一梳理、分级管理急诊知识库目录和内容,将相关非结构化文档扫描、上传、格式转换、利用智能分词技术建立索引,形成索引库,且将所有文档均转换为PDF格式,可在线进行预览。通过搜索引擎技术完成了非结构化文档数据的快速查找,实现跨区域知识共享,提高了工作效率且便于文档的长久保存。自2020年初搜索引擎技术在急诊医学科上线使用后,已覆盖急诊科所有区域,并逐步将急诊相关的科研成果材料、论文全部上传完成,不定期更新。到目前为止,知识数据库运行良好,工作人员对数据库和搜索引擎技术满意度高,相关资料100%实现了电子化管理。利用搜索引擎技术,实现对急诊相关文档和知识的快速检索,可更好地指导临床工作,便于对患者实施精准救治,最终提高救治效率。
关键词:搜索引擎;急诊;数据库;智能分词;
21世纪的成功越来越依赖于个人或单位所拥有知识的质量,利用所拥有的知识创造竞争优势和持续增长竞争优势始终是一个挑战。在组织中建构一个量化与质化的知识系统,让组织中的资讯与知识通过智能系统快速获得、实时分享、持续记录与创造、不断整合与存取、达到更新和创新等过程,并不断地回馈到知识系统内,累积个人与组织的知识,形成永不间断的组织智慧的循环。在组织中成为管理与应用的智慧资本,有助于指导员工做出正确的决策,以适应市场的变迁。知识管理在中国的应用也从研究院所等知识密集型企业,逐步扩展到消费品、房地产、制造业、医疗卫生等各行业。
在长期的医疗实践过程中,医院利用先进的医疗理论和技术积累了丰富的诊疗方案、诊疗技术、护理方法等,创造了一系列的基础研究成果和疾病诊疗原则及标准。对这些知识产品进行有效管理、交流和互动,可不断缩短各层次医生诊疗水平的差距。同时,各类型科研成果、医疗和教学资源、个人数据如期刊论文、会议论文、专着教材,相关证书的电子化长期保存,并可进行快速、精准地检索,是一件有意义、有价值,且可不断丰富和完善的工作[1]。
通过急诊知识库的建设和应用,可对原有的信息和知识进行收集和整理,根据对它们的应用领域特征、背景特征、使用特征、属性特征等进行识别和分类,可实现信息和知识有序化,加快知识和信息的流动并有利于知识共享和交流,有利于实现急诊科的协同与沟通,构建知识图谱进而为学科竞争力提供有力的数据基础。
1 整体设计
1.1 系统架构
(1)在急诊建立数据库服务器。(2)建立工作环境下的局域网。(3)集成医院现有门户,建立客户端,实现单点登录访问。(4)系统可通过不同类型终端进行检索,对待检索内容进行智能分词,基于Elastic Search实现文档检索。见图1。
图1 基于Elastic Search文档检索
1.2 核心技术
1.2.1 数据库的建立
根据科室资料的不同,进行分层分类管理,同时可作为人员档案管理和实现信息化条件下对员工进行科学考评。建立长期运行的机制并不断积累工作经验及管理经验,完善数据库相关数据和制度。(1)数据库分类文件。规范类包括岗位职责、医院和科室制度、管理规范等;文献类包括诊疗指南、专家共识、国家标准或行业标准等;书籍类包括内、外、急诊、重症等相关教科书。(2)急诊常规文档。包括员工基本信息、职级层级情况或年度考评结果、科研成果等,以及理论及技能教学视频等,对内部文档进行整合分类,分析人员工作状态、职级成长等情况。(3)科学研究与经验总结。在急诊工作中,不断收集经典或典型病例收集,将病历资料,照片等整理后上传数据库,便于经验总结和回顾性分析,为以后的科学研究提供数据支撑。(4)数据库管理为实现数据库的长期规范管理,设置由1~2名医生或护士担任专职管理员,科室1~2名领导作为数据管理责任人,定期对数据库进行维护,进行数据资料的整理和上传,只允许在线阅览,禁止一般人员下载和外传。
1.2.2智能分词
对待检索内容实现精准检索的前提在于对待检索内容实现语义识别,因此对一串字符能识别出不同的词就显得尤为重要,如“急诊科人工智能”拆分为急诊科、人工、智能、人工智能、急诊科人工、急诊科人工智能等,检索结果包含“急诊科人工智能”或同时包含“急诊科”“人工智能”,这是最匹配结果;以往的分词方法,无论是基于规则的还是基于统计,一般都依赖于一个事先编制的词表。自动分词过程就是通过查词表来做出词语切分的决策。与此相反,由字极词方法把分词过程视为字的分类问题。即认为每个字在构造一个特定的词语时都占据着一个确定的构词位置[2](即词位)。
由字构词分词技术的优势在于其能够平衡地看待词表词和未登录词的识别问题,在字标注过程中,所有的字根据预定义的特征进行词位特性的学习,获得一个概率模型。然后在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的分类结果,最后根据语位定义,直接获得最终的分词结果。封闭测试结果比较见表1。
表1 backoff2006语料上的封闭测试结果比较
注:-表示无此项。
1.2.3 全文检索
对非结构化文档建立索引,再对索引进行搜索的过程就是全文检索(full-textsearch)。在本系统中,采用了开源的搜索引擎Elastic Search作为基础搜索引擎在本地部署,并进行了一定的完善。Elastic Search基于Lucene构建,且Lucene是Apache软件基金会众多项目之一[3]。Elastic Search是一个实时性全文搜索引擎,在数据存储方面,采用“key-value”键值对的存储方式,同时其restful特性支持通过http的方式进行信息的检索和返回,其安装配置、使用都十分方便[4],具有开源、分布式方便、扩展方便等属性[5]。见图2。
1.2.4 在线预览
对检索出来的内容可通过PC端、移动端等多种不同的设备直接点开预览是知识库系统较为重要的功能之一,将文件下载到本地,然后再打开查看的传统方式,已经不能满足办公节奏日益加快的用户需求[6]。本系统采用金山的在线预览实现无插件式的文件在线预览。实现在线图书馆的功能,不断与急救临床工作相结合,可在线辅导教学,快速指导临床工作,解决急救工作中的关键点和疑难问题[7,8]。
图2 非机构化全文索引
2 应用结果
本系统于2020年初正式上线运行,已实现了本院急诊科全科内员工档案、论文、研究资料、学习资料等的管理,最终建设成急诊医学科个性化、一体化、智能化的数字图书馆平台,助力急诊学科发展。数据库建成运行1年以来,注册用户数量185人,数据库文章发布232篇,根据发布内容进行统计,各类别总阅读量21569人次,平均阅读量93人次,最大阅读量172人次;总点赞数8354次,平均点赞数36次,最大点赞数148次。为了解知识库运行状况,对科室工作人员发放问卷进行调查。问卷共5个条目,分别针对知识库的实用性、反应及时性、急诊知识的全面度、稳定性进行测评。
科室工作医疗、护理、医技、科研专职人员共97人,发放问卷97份,收回97份,调查结果显示,知识库实用性满意度为73.2%,及时性满意度为74.4%,急诊知识全面度满意度为75.6%,系统文档性满意度为71.8%,5个条目满意度均在70%以上。
3 小结
基于Elastic Search搜索引擎实现的非结构化全文检索,可以部署在工作局域网络环境中,用于搭建公开的/私有的文档知识库系统,用于管理TXT、PDF、Office、WPS等常用的档案文件数据。利用搜索引擎技术,实现对海量文档内容的快速检索,可更好地指导临床工作,将精准的医疗措施和护理技术落实到患者的救治过程中,最终提高救治效率。但目前该系统运行时间较短,整合各种资源不够全面,从系统采集的数据量不够全面,相关研究有待进一步验证并不断探索。
参考文献
[1]孙董,谢志耘李晓霞医院机构知识库构建[J].医学信息学杂志,2016,37(4):14-19.
[2]黄昌宁,赵海.由字构词一一中文分词新方法//[C].中国中文信息 学会.中文信息处理前沿进展一一-中国中文信息学会二 十五周年学术会议论文集北京:清华大学出版社,2006:61-71.
[3]郭永利,卢颖颖基于Lucene对文件全文检索的研究与应用[J]微型电脑应用,2014,30(1):51-54.
[4]杜忠晖,何慧.王星.一种Hadoop小文件 存储优化策略研究[J]智能计算机与应用,2015,5(3):28-32.
[5] KONONENKO O,BAYSAL O,HOLMES R,et al.Mining modern repositories with elasticsearch//[C]. ACM ACM,2014:328-331.
[6]靳国艳俄罗斯国家数字图书馆着作权问题解决方案及启示[J].图书馆研究与工作2021,42(12):74-80.
[7]李红梅,田朝霞张红等虚拟仿真训练在基础护理学教学中的应用[J]中华护理杂志,2017.52(3)-.275-279.
[8]吴建中.从数字图书馆到智慧图书馆:机遇、挑战和创新[J]. 图书馆杂志,2021,40(12):4-11.