大数据时代,各类数据扑面而来,在数据的海洋中人们往往无所适从.面对庞大繁杂、急剧膨胀的大数据,该如何保证它们在知识服务中发挥作用,并使其有序化地收敛于高效的知识服务显得尤为重要.以往的做法是将知识视为资源,并以资源驱动的方式来组织并提供知识,但是在大数据背景下,这样的做法使得知识组织缺少解决问题的靶向性.因此,从知识应用与最终问题解决需求的视角出发,必然是以问题驱动进行知识组织,所面临的困难在于面对庞大繁杂、急剧膨胀的大数据,该如何从大数据中提取和组织有针对性的知识,如何高效地整合知识支持提供问题有效的解答.本文针对大数据环境下用户需求和知识组织水平不断提高的背景,提出以问题驱动来宏观架构知识的组织,从微观上探究知识组织的逻辑结构和物理结构,从应用角度探讨知识组织在技术上的实现.针对问题和问题解答所需数据具有多、冗、杂、乱和新等特点,借助知识颗粒度和知识单元来设计知识组织过程,通过问题驱动知识单元的获取、序化、关联、再生和应用,以知识仓库来存储知识,挖掘问题→知识单元→问题解答之间演变规律,最终以高效的知识服务促进知识的共享、创新和应用,不仅有助于完善和深化知识组织理论与框架,提升知识服务的水平,还为企业科技创新、政府管理创新提供深度且可靠的知识服务,为十八大提出的实施创新驱动发展战略和完善知识创新体系提供知识保障.
1 国内外相关研究述评
国内外关于知识组织研究成果较多,2014 年 1 月 30日在 CNKI 上检索主题包含知识组织的文章共有 2398 篇,其中 2006 年以后的占到 70. 7%,检索主题同时包含知识组织和知识单元的文献只有 71 篇,而没有检索到主题同时包含知识组织、知识单元和问题驱动的文献,说明从问题驱动角度探讨知识单元或者知识组织研究成果较少.目前研究主要集中在知识组织原理、框架及过程、知识组织结构和关联以及知识组织应用实践和问题驱动应用实践等3 个方面.
1. 1 知识组织原理、框架及过程相关研究述评
国外知识组织研究主要是以 NKOS ( Networked Knowl-edge Organization Systems / Services) 作为主要的研究领域开展相关研究,如美国国会图书馆发布的 《国会图书馆主题词表》的 SKOS 语义描述版本.Mai 从认知视角结合用户需求来描述和组织知识[1].Pastor-Sanchez 等将 SKOS 与其他的词典、叙词表比较,提出从用户需求角度研究SKOS[2].国内最早的是袁翰青教授认为文献工作就是组织知识的工作[3].自刘迅于 1985 年首次将知识的组织作为图书馆学情报学研究的一个内容,知识组织开始进入图情学研究的视野.刘洪波揭示知识组织中模拟大脑知识记忆结构的原理,并考虑用户个体因素[4].蒋永福从图书情报理论基础的角度对知识组织的基本原理和方法等进行论述[5].王知津指出知识组织顺应了信息社会和知识社会的发展,并对知识组织的方法、目标和任务进行深入探讨[6].王曰芬等研究面向个性化服务的知识组织过程和方法[7].薛春香、乔晓东、朱礼军在词表集成研究综述基础上,从集成角度构建面向具体领域的知识组织系统[8].贺德方从知识组织体系的构建和应用角度总结出用户参与和用户使用优先是知识组织的趋势[9].毕强、滕广青从语义角度研究数字图书馆中的知识组织目标和内容,探析知识组织体系演化路径不断柔化和复杂化[10].马费成等针对网络信息资源集成中的困难提出基于关联数据的网络信息资源集成框架[11].
1. 2 知识组织结构和关联相关研究述评
A. Friedman 首次提出了结合知识表示、语言学模型和概念理论的知识组织方法[12].G. Hodge 在知识组织语义化工具层面上将知识组织界定为 3 个层次、11 种类型[13].J. Abbas 出版专着探讨传统知识组织表示结构、知识组织中个人信息的表示以及 Web 2. 0 下个人和社会信息的表示[14].Christopher 介绍了一种基于一介谓词逻辑的语义表示方法 Common Logic,以及该方法如何表示互联网信息的知识共享、知识推理等问题[15].温有奎等认为知识结构由知识最小单元知识元构成,对知识元的关联、组织、检索等方面分别进行研究[16].文庭孝对知识单元的研究进行梳理,认为知识单元是知识控制与处理的基本单位,探讨知识关联内涵、特征与类型等[17].曾建勋对目前知识链接研究与实践进行梳理,认为基于用户知识元的知识组织链接是发展趋势[18].王军从网络环境下对知识结构进行系统化描述与说明,以此为基础推动信息组织、信息表示和基于内容的信息检索等应用发展[19].
1. 3 知识组织实践和问题驱动应用相关研究述评
中国科学技术信息研究所搭建了一个基于新能源汽车领域的原型系统,可实现多语言监测、跨语言管理和原文传递链接等知识服务功能.中国科学院知识创新工程中,搭建了面向西南生物多样性的知识环境.杨人子、严洪森等面向用户的需求,借助粒度原理和优化算法对制造系统中知识网的结构、关联以及度量等方面研究和探讨.夏立新等从面向用户个性化服务角度对政务门户知识组织的实践应用进行研究.胡瑞平等以 "概率论与数理统计"课程为例,探讨问题驱动教学法的流程模式及应用[22].王波、金芝、梅宏等研究问题驱动的需求捕获方法,并帮助利益相关者协同分析和找到解决的方案[23].
综合有关文献分析,目前知识组织及应用研究呈现以下特点: ①已有研究成果侧重在知识组织的基础理论、关键技术、方法和知识的表示等方面,缺乏知识组织理论与应用结合实践的研究.②现有研究成果缺乏系统地去研究知识组织及其结构,同时缺乏从问题驱动的角度去深刻地考察知识组织体系和结构,导致知识组织应用的效果不佳.③知识组织结构研究深度不够,目前研究成果集中在知识单元概念、特征以及关联等方面,缺乏对知识单元网络结构、重组和再生等知识深度组织和再生方面研究.④知识组织应用侧重于文献服务,离知识服务还有很大差距,导致无法满足用户的需求.因此,笔者将以问题驱动视角宏观架构知识组织框架,从微观深入探讨知识单元获取、重组和再生等知识组织过程,探索知识组织结构,并通过测试和反馈优化知识组织框架和过程,促进用户问题高效的解答.
2 问题驱动的知识组织总体框架
问题驱动的知识组织总体架构目的是希望数据库存储的数据、信息和知识能够满足用户解决问题和支撑决策的知识需求.所以,不仅关注知识如何提供给用户,还应包括用户问题的解答和反馈,只有这样才能使知识组织和应用更加完善和实用.因此,知识组织总体架构以用户问题解决来引导知识组织的架构,借助粒度原理和知识单元来设计知识组织的逻辑和物理结构,以问题库、情景库、知识库、解答库、解答效果库等多库协同的知识仓库存储知识,以问题解答引导知识单元的创建、序化、关联和再生等知识组织过程,并以知识地图等可视化方式提供问题解答服务,最后通过解答和反馈完善和优化知识组织框架和过程,促进知识的应用和创新.图 1 给出了问题驱动的知识组织框架.
2. 1 面向用户需求的问题驱动创建
不同文化程度、不同知识背景、不用职业的用户对知识需求不一样,充分根据问题解答需求,按照不同需求和类型对问题进行组织,按照问题类别及特征等信息形成用户问题库,同时通过分析采集的各类问题,提取不同问题的共同特征和不同点,总体上将用户问题分为一般问题、重点问题以及创新问题三大类,并针对 3 类问题分别采取不同的问题解答过程,最终形成面向用户需求的问题驱动,为知识的组织提供导航.
2. 2 问题驱动的知识组织过程宏观架构
宏观上知识组织过程包括知识组织的目标、原则、组成要素以及知识组织层次体系.以低成本的付出获得足够满意的解答为目标,以用户为中心的原则,以问题解答为驱动,组成问题解答提供方、知识资源、解答接收方、知识组织工具等 4 个知识组织要素,形成用户问题组织层、数据资源层、知识组织层和知识服务层 4 层知识组织层次体系,形成知识组织过程的总体设计.
3 基于知识单元的知识组织过程微观设计
微观上知识组织过程以知识单元为基础,包括数据获取与清洗、知识单元的获取[24]、序化、关联、再生以及应用和反馈等过程,在问题驱动下获取与清洗支撑问题解答的数据资源,定位支持解决用户问题的数据资源库; 借助粒度原理创建不同知识单元来表示数据及其静态关联;通过聚类、分类等方法序化知识单元; 以知识和用户问题之间映射来构建知识单元的显性和隐性关联,形成知识单元关联网; 利用推理算法和工具进行深度挖掘和推理,促进新的知识单元再生,并作为新的知识来源.
3. 1 面向问题的知识单元初始网创建
针对问题的类型和特征,根据问题及问题解答相关性来获取所需数据和知识,将这些数据和知识以知识单元为基础进行描述,知识单元可以描述问题驱动与不同知识单元之间关联关系[16],知识单元主要由名称、属性、操作、状态以及导航等 4 个方面组成,其中名称为知识单元研究的对象,包括其所属领域; 属性为该知识单元所有的属性集合; 操作为知识单元解决问题的方法或能力; 导航为知识单元之间的关联,主要包括一致性关联、隶属性关联以及相关性关联.在问题驱动下获取知识单元后,根据实时环境动态修改知识单元的状态和属性等信息,对于一般问题,通过对知识单元属性和状态进行聚类分析,找到面向问题的相似知识单元,挖掘出知识单元线性关系,以知识单元作为网络节点,并根据线性关系形成面向问题的知识单元初始网,可以直接为用户的一般问题提供解答,而对于重点和创新问题,则需要对知识单元网进行深度挖掘.
3. 2 基于知识仓库的知识单元语义网构建
为了解答用户的重点问题和创新问题,对知识单元网简单关联无法提供解答,有必要运用粒度原理来表达知识和问题,通过知识单元和问题颗粒度刻画,为深度知识单元及其之间关系奠定基础,首先通过筛选、甄别、分类以及推理等流程构成问题库、知识库、情景库、解答库以及解答效果库,通过不同类型库之间协同机制形成相应的知识仓库.在重点问题和创新问题驱动下,以知识单元为核心[26],以知识仓库为载体,以语义化关联为对策,依据知识单元状态和导航等生成支撑问题解答的候选知识单元对,在此基础上进行深度挖掘和推理形成支撑问题解答的知识单元语义网,同时可能伴有新的知识单元再生,最后形成多库协同的知识单元语义网,图 2 给出了知识单元语义网构建过程,为重点问题和创新问题解答提供智力支撑.
4 面向服务的知识组织应用与反馈
知识组织为了有效解决问题与知识之间不匹配的矛盾,有必要通过实践应用对构建的知识组织框架和结构进行验证和完善,以水利行业信息化领域为应用试点,从泵站运行维护方面的问题作为切入点,通过收集泵站运行维护方面问题,并将问题分为一般问题、重点问题和创新问题,利用知识单元描述泵站运行维护问题和解决这些问题所需要的机械、电子信息等方面知识,构建泵站运行维护知识单元初始网和知识单元语义网,如针对用户的一般问题: 水位采集器无法采集水位,首先采集水位采集器及其故障相关知识单元,形成涵盖前端采集器故障和后台软件故障的知识单元初始网,通过问题分层求解方式遍及各种可能导致故障的原因,形成如图 3 所示的为水位采集器无法采集水位的问题解答知识单元初始网,最终可以直接为用户提供水位采集器的故障的解答.
从用户问题提出到问题解答效果评价过程中不断测试、反馈和完善构建的知识组织框架和结构,提高解决用户问题的质量和效率.最后利用知识地图等可视化技术实现知识组织和实践应用,通过问题和解答的相似度完善问题解答库,根据解答效果优化和完善知识组织的框架和过程.
5 总结与展望
问题驱动的组织知识方法有效避免传统先组式知识组织解决问题的局限性,增强问题及解决的针对性,基于知识单元的知识组织过程通过知识单元为基础和核心,借助粒度原理来描述知识和关系,并针对用户一般问题、重点问题和创新问题等不同类型进行不同层次的知识组织,形成知识单元初始网和语义网,同时为新的知识单元产生创造有利条件.下一步将通过实践应用来不断完善知识单元与用户问题、知识单元之间关联的量化,为知识组织实现提供便利,同时提供问题解答的质量和效率.
参考文献
[1] MAI J-E. Actors,domains,and constraints in the design andconstruction of controlled vocabularies [J]. Knowledge Or-ganization,2008,35 ( 1) : 16-30.
[2] PASTO S,et al. Advantages of thesaurus representation usingthe simple knowledge organization system compared with pro-posed alternatives [J]. Information Research, 2009, 14( 4) : 1-16.
[3] 袁翰青 . 现代文献工作基本概念 [J]. 图书馆,1964( 2) : 25-31.
[4] 刘洪波 . 知识组织论---关于图书馆内部活动的一种说明[J]. 图书馆,1991 ( 2) : 14-18.
[5] 蒋永福,李景正 . 论知识组织方法 [J]. 中国图书馆学报,2001 ( 1) : 3-7.
[6] 王知津,张国华 . 知识组织概念模型及相关问题 [J]. 中国图书馆学报,2004 ( 4) : 5-9.
[7] 王曰芬,熊铭辉,吴鹏 . 面向个性化服务的知识组织机制研究 [J]. 情报理论与实践,2008 ( 1) : 7-11.
[8] 薛春香,乔晓东,朱礼军 . 基于集成的领域知识组织系统构 建 初 探 [J]. 现 代 图 书 情 报 技 术, 2009,185( 11) : 29.
[9] 贺德方 . 国内外知识组织体系的研究进展及应对策略[J]. 情报学报,2010,29 ( 6) : 963-972.
[10] 滕广青,毕强 . 知识组织体系的演进路径及相关研究的发展趋势探析 [J]. 中国图书馆学报,2010,136 ( 189) :49-53.
[11] 马费成,赵红斌,万燕玲,等 . 基于关联数据的网络信息资源集成 [J]. 情报杂志 . 2011,30 ( 2) : 167-169.
[12] SIGEL A. The knowledge organization on internet [EB/OL].
[2011-02-23]. http: / /www. isko. org/wiss-org. faq. html.
[13] HODGE G. Systems of kowledge organization for digital librar-ies: beyond traditional authority files [M]. Washington DC:The Digital Library Federation Council on Library and Informa-tion Resources,2009.
[14] ABBAS J. Structures for organizing knowledge: exploring taxon-omies,ontologies,and other schema [M]. 100 William St. ,Suite 2004,New York,NY 10038; 2004 ( 212) : 925-8650.
[15] MENZEL C. Knowledge representation,the World Wide Web,and the evolution of logic [J]. Synthese,2011,182 ( 2 ) :269-295.
[16] 温有奎,焦玉英 . 基于范畴论的知识单元组织与检索研究[J]. 情报学报,2010,29 ( 3) : 387-392.
[17] 文庭孝,罗贤春,刘晓英,等 . 知识单元研究述评 [J].中国图书馆学报,2011,37 ( 195) : 75-86.
[18] 曾建勋 . 知识链接的研究现状与发展趋势 [J]. 情报理论与实践,2011,34 ( 2) : 119-123.
[19] 王军,卜书庆 . 网络环境下知识组织规范研究与设计[J]. 中国图书馆学报 . 2012,38 ( 200) : 39-45.
[20] 杨人子,严洪森 . 基于信息粒度的知识网的模糊分类与检索方法 [J]. 自动化学报,2011,37 ( 5) : 585-595.
[21] 夏立新,叶飞 . 行为学角度的政务门户知识组织与整合研究 [J]. 情报学报,2011,28 ( 3) : 331-336.
[22] 胡端平,李小刚,杨向辉 . 问题驱动教学法的研究与实践[J]. 高等数学研究,2013,16 ( 1) : 80-82.
[23] 王波,赵海燕,张伟,等 . 问题驱动的需求捕获中问题分析与解决技术研究 [J]. 计算机研究与发展,2013,50( 7) : 1513-1523.
[24] 刘盛博,丁堃,王贤文,等 . 基于 TF/IDF 多因素改进算法的知识单元抽取研究 [J]. 情报学报,2011,30 ( 10) :1037-1043.
[25] 西安交通大学 . 一种面向文本的知识单元关联关系挖掘方法: 中国,CN201110312882. 1 [P]. 2012-5-2.