摘 要: [目的/意义]旨在为信息检索相关性研究提供参考。[方法/过程]以CNKI为数据源,采用定性方法,从信息检索的历史脉络和研究学派进行梳理总结,分析信息检索的影响因素和发展趋势。[结果/结论]信息检索相关性是用户、系统的相关性的综合体,任何一方都不能脱离。相关性应该是以用户为关键,系统为基础,研究用户与检索系统的交互、认知以及真实需求的描述与反馈。随着信息检索相关性研究的深入,系统观与用户观将会相互交融,检索技术与用户需求将会协调统一,共同推进检索相关性的发展。
关键词: 用户; 系统; 历史脉络; 相关性; 信息检索;
Abstract: [Purpose/significance]The paper is to provide references for the research of relevance of information retrieval. [Method/process] Taking CNKI as the data source,the paper adopts qualitative method to sort out and summarize the historical context and research school of information retrieval,and analyzes the influencing factors and development trend of information retrieval. [Result/conclusion] The relevance of information retrieval is a complex of the relevance of users and systems. Relevance should be based on the user as the key and system as the basis to study the interaction,cognition,and description and feedback of real requirements between users and retrieval system. With the deepening of the research on the relevance of information retrieval,the view of system and the view of user will blend with each other,and the retrieval technology and the demand of user will be coordinated and unified,to jointly promote the development of the relevance of retrieval.
Keyword: user; system; historical context; relevance; information retrieval;
随着互联网、多媒体和计算机科学的发展,信息内容不再呈现数据库集中管理、稳定、封闭的特征,转变为复杂、广泛、开放、动态、管理松散的状态,信息检索用户扩展到了包括企业、高校、科研等领域在内的普通大众,他们对检索结果和方式都提出了更高、更多元化的要求[1]。信息检索开始出现不确定性的盲区,用户检索与查找结果由匹配转变为相关关系,相关性则成为信息检索发展的关键。美国计算机学家Van Rijsbergen给信息检索下定义为“检出所有的相关性文献和尽可能少的不相关文献”[2]。相关性,是评估信息检索系统功能和效果的重要指标,是情报学基础的、核心的概念,也是信息科学领域一个重要的研究部分。
1、 信息检索相关性演化进程
1.1、 历史脉络
纵观信息检索发展史,国内外情报学不少学者都对相关性这一个核心概念进行了大量研究,并且对它的研究仍然在持续升温,其研究历史大体可以分为六个阶段。从历史脉络入手对相关性研究成果进行分类和梳理,可以总结出各个阶段相关性概念的内涵与特征,深刻理解相关性概念的本质,揭示相关性概念的发展方向。
1.1.1、 系统相关性(1958年之前)
二十世纪五十年代,以美国Mooers为代表的计算机科学研究学者,把计算机技术引入信息检索学科,并开展应用研究,相关性则成为该领域的研究核心[3]。该时期研究该领域的学者认为“相关性即为检索词与文献索引词之间的契合度”。所以,在二十世纪五十年代相关学者是从以检索系统用户输入词与输出结果的匹配来定义相关性概念。相关性被理解为系统的属性,与用户几乎没有关联。但是,这是信息检索相关性研究领域的开端,向人们描绘了相关性概念的轮廓。
这一时期是对相关性研究的初始探索,研究者关注的焦点集中在检索系统的输出结果上,而忽视用户这一主体,因而对用户本身的研究占据着次要地位。因此在早期研究中,系统观的相关性扮演着主要角色。然而,1958年在国际科学信息会议(IC-SI)上,计算机学家B.C.Vickery提出将相关性分为“主题相关”和“用户相关”。由此,用户相关性走进了大众视野,研究者开始瞄准“用户”开展研究,向“系统相关性”发起了挑战。
1.1.2、 二元相关性(1959—1970年)
“系统相关性”遭受怀疑和挑战后,美国计算机学会研究者Cleverdon,Cuadra和Katter开始倾向于“二元观”。为了解决相关性评价中对信息检索系统的评价难题,他们认为相关性包括两种类型:“表出相关性”和“用户相关性”,前者由学科范畴内有合理学识的人判定,后者则要求问题只能由用户本身提出。
针对相关性的不同复杂性,研究学者Cuadra和Katter又进行了一系列相关性的实验判断,引入了“信息需求表述”一致性的概念,重新界定了相关性的二元观,即“文献相关性”和“用户相关性”的崭新二元观。二元观调节了“系统”和“用户”两种相关性观念的冲突,综合了两个方面的研究,在信息检索学科历史上有着重要的转折意义。而“崭新二元观”又是在二元观基础上的创新和发展,揭示了“用户”在相关性研究中的参考价值。
虽然这一时期,二元相关性历史发展上未成气候,用户相关性研究并未有明显成效,也并未引起广泛讨论,系统观的相关性概念依然根深蒂固,但是他们证明了广泛的相关性,该阶段可以说是“系统观”向“用户观”的过渡,起到了重要的桥梁作用。
1.1.3、 逻辑相关性(1971—1972年)
信息检索逻辑相关性研究的代表人物W.S.Cooper在1971年的文章中对Cuadra和Katter的二元相关性提出异议,同时进行犀利的批判,即从逻辑学的视角重新定义“相关性”的概念:“当且仅当一个存储语句存在于构成表述需求的最小前提集合时,一个存储在系统内或用户记忆中的语句的逻辑与用户的信息需求存在相关性。”简而言之,若构成信息需求的最小前提集合存在于某一文献中,就可以判断该文献为相关。表明该阶段相关性的研究重心开始放在用户真正的信息需求上,试图通过逻辑工具处理相关性问题。
1.1.4、 情境相关性(1973—1976年)
美国计算机学家P.Wilson于1973年介绍了“情境相关性”这一观念[4],即通过赋予一定的情境,使相关性更加多样、详实、具体,避免定义含糊、抽象,让逻辑相关性得到进一步延伸和发展。
P.Wilson将情境相关性定义为信息与检索问题情境的联系,同时涉及心理学、信息技术、知识管理等学科,凸显用户主观因素对相关性的影响。由于用户个体差异性,即使同一用户,在不同情境下对同一结果也会有不同认识,使相关性研究更为复杂[5]。情境相关性研究角度与以往研究相关性的定义不同是在着重讲述用户信息需求产生的情景或背景,这是相关性研究史上是一个重大转折点。
1.1.5 、认知相关性(1977—1994年)
二十世纪八十年代,信息检索领域的研究学者开始从认知角度探讨相关性,他们认为,用户将大脑中已有的概念和知识与文献信息进行比对,进行判断,寻找两者间的匹配。认知角度相关性其实是着重论述用户内部概念与外部环境两者的相互作用及内部知识与相关性判断的一种关系。
二十世纪九十年代,认知相关性概念得以延续和发展,扩展到了心理学层面。《心理相关性与情报学》中曾提到,以往主题相关性的研究具有局限性,不利于相关性研究的发展,而从心理、知觉、判断等角度思考相关性,则成为其未来发展方向[4]。
1.1.6 、四维相关性(1994年至今)
美国信息科学学家Stefano Mizzaro对相关性认识进一步深化,梳理出一个相对完整的相关性“四维模型”[6],即信息源、信息需求表述、时间和构件。思维相关性理论框架的提出,为信息检索相关性的研究提供一个新的研究思路和研究方向,更为充分地呈现出信息检索过程中的各种相关性及其联结关系,为人们更好地理解信息检索的相关性含义探索出了一种相对完善的模式。
综合信息检索相关性发展演进的历史脉络可知,相关性研究从一开始是系统相关性占据主导地位,然后从系统相关性过渡到二元相关性。二元相关性虽然引入了用户理念,但二元观的探索学者Cuadra和Katter仍然是系统观着称的研究代表,他们给出的相关性是查询表达式与文献的适合度,而且在当时系统观根深蒂固的环境下,二者二元观并未引起公众的广泛认可,因而二元观仍然归结为系统观的相关性。以用户为中心的相关性强调主观性,所以相关学者依据主观程度将相关性划分成情境观相关性、信息观相关性。信息观相关性是建立在检索请求与文献间概念关联性判断的基础上。因此,逻辑相关性定位于信息观的相关性领域内,而情境相关性、认知相关性,显然隶属于情境观相关性范畴。信息科学学家Stefano Mizzaro的形式化理论框架是针对用户发出查询与用户真实需求的吻合性而言的,因此是针对用户相关性的四维度框架。根据研究者对相关性概念的分类和观点,可以为相关性概念的定义类型做出梳理,如图1所示。
图1 信息检索相关性演进图
1.2、 研究学派
从当前信息检索相关性研究的分支来看,主要有两大阵营:计算机科学界和图书情报学界。计算机科学界围绕检索系统的设计、算法、功能等方面,聚焦查找表述与文献内容的匹配模型、数学计算,被称为系统中心学派。图书情报学界研究者将重点放置在用户检索过程中的认知、交互以及情境等层面,被外界称为用户中心学派。纵使两个学派研究视角存在差异,但其研究目的一致,最终是为了优化信息检索系统的性能与效率。按照上述的两个研究学派对相关性概念进行划分,可以分为系统观相关性和用户观相关性。
1.2.1、 系统观相关性
系统观相关性是按照信息需求的用户的查询指令,检索系统会依据查询的指令从文档集中检索出与之相匹配的文档,是用户信息需求与文献的检索语言这两个方面在检索语言描述上的契合度。
系统相关性的影响因素包括信息系统的信息处理质量、信息结构化程度、形式匹配与内容匹配之间的关系处理、检索系统所采用的分词方法、分词词典、同义词典、主题词典、上下位词典、相关同级词典以及相关度算法等。
1.2.2、 用户观相关性
用户观相关性主要研究用户以及检索中介与系统的关系,具有主观性、抽象性和模糊性的特点。原因一是检索系统检索出的结果与用户的特定查询可以有多种“相关”方式;原因二是不同用户具有个体差异性,即使是对同一检索结果,对相关性的分辨也存在差异性,或同一用户对于同样真实信息需求向不同信息检索系统所发出的查询也会有一定程度的差异。
用户观相关性表示用户发出的查询指令与用户真实的信息需求之间的一致程度。信息科学学家Stefano Mizzaro提出的用户相关性四维度框架模型,如图2所示:
依据图2可以看到用户相关性的四维度:(1)信息源(Information resources);(2)信息需求的表示(Representation of the user’s problem),它包含一个内部流程,即真实信息需求(RIN)→感觉到的信息需求(PIN)→请求(Request)→查询(Query);(3)时间(Time);(4)构件(Components)[7]。不同的用户对同一真实信息需求会形成差异认识,向同一信息检索系统发出的查询也就会有一定程度的差异;同一用户就同一真实信息需求向不同信息检索系统所发出的查询会有一定程度的差异,向同一信息检索系统在不同的时间所发出的查询也存在一定程度的差异。产生这些差异的原因是多方面的,如用户的专业认知、知识结构、检索能力等[8]。
图2 用户相关性的四维度模型
2 、信息检索相关性的研究发展情况
2.1、 信息检索相关性的影响因素
为了理清影响相关性判断因素,信息科学界曾经进行较为有效的实验性研究,时间节点分别为上世纪60年代和90年代,并在该领域实现两次学术领域的高峰[9]。Cranfield(1957、1962)、Goffman、Nevill(1967)、Cuadra、Katter、Rees、Schultz(1967)是第一次学术研究领域的高峰代表人物,以其试验研究为标志性代表。Cranfield测试先后进行了两次,开创了相关性影响因素分析的先河,找到了影响相关性判断的多种因素[10]。Schamber、Park、Barry、Wang(1994)等学者是第二次学术研究领域的高峰代表人物,以其试验研究成果为标志性代表,该阶段研究侧重于找到相对比较完善的相关性评价指标,同时制定相关性评价体系。其中第二次高峰的代表人物Barry[11,12]提出了基于用户自发的信息需求的研究内容,评判用户面对真实信息需求所进行的相关性评估。研究结果表明用户会以主题以外的信息进行相关性判断,据此可知相关性的判断与用户个人素养有很大关系。
笔者认为相关性的影响要素是多方面的,既有系统、时间、环境等客观的因素,也有用户自身表达习惯、语言、文化、年龄等差异性的主观因素。用户是唯一具有感知性的因素,是最具不确定性的复杂因素,同时也是影响相关性最大的因素。正因为有了这种不确定性,才有了相关性研究的必要性。据此,以用户为中心,从影响因素的角度出发,为相关性建立如下模型,如图3所示。
图3 信息检索相关性影响因素模型
时间和环境在信息检索相关性的客观因素,对于信息用户层面来说,专业、年龄以及文化程度都是影响信息检索相关性的主观因素、需求表达则直接影响信息检索的有效性;对于系统层面来说,检索系统则是信息检索相关性的重要工具,是对于信息用户各种需求表达实现的手段,有着关键的定位。检索系统所能提供给我们的只是信息表示和查询表示之间的关系,用户是检索结果是否相关的最后判定者。用户对信息进行相关性评价(或者相关性判断)是信息选择的核心环节,用户做出的相关性判断也是因人而异的,与用户有关的相关性评价的研究是特别值得注意的[13]。
2.2、 信息检索相关性的发展趋势
信息检索是一种用于查找满足查询需求信息的先进技术,可以满足普通文本的处理,并且可以有效地检索信息。有很多算法可以执行正常的文本检索。然而,像地理空间信息检索是非常复杂的,地理空间数据包含比一般数据复杂的细节,如位置、方向等。所以为了处理地理信息查询,需要创新信息检索方法[14]。由此可知,未来信息检索相关性研究发展趋势之一将是创新信息检索系统。
截至2018年底,中国网民规模达8.29亿人,网络已成为信息用户主要信息检索相关性的主要环境,同时也成为信息源的主要获取途径,约有80%的开源信息是信息用户从网络上获得,所以基于网络环境、面向用户需求、体现用户行为的信息检索相关性实证研究也将成为信息检索相关性研究主流发展趋势。
由于相关性反馈在信息检索中兼顾了用户与系统相结合的作用,近年来一直得到广泛的应用,并被很多研究证明能够提高用户检索相关性绩效。目前,就用户相关性反馈研究主要关注:如何提高用户检索绩效、提高个性化服务的针对性、用户交互、网络及多媒体检索尤其是图像检索模型研究、伪相关反馈问题、搜索引擎中的相关反馈问题等[15]。
3、 完善信息检索相关性发展的建议
信息检索相关性的研究,对于用户的信息查询与文献检索有着重要的意义,关乎整个社会信息流通的效率,而相关性的发展要兼顾用户和系统两个层面。
3.1、 从系统角度优化信息检索相关性
(1)更新系统设计理念。信息检索相关性是系统与用户两者综合发展的结果,其中,不确定因素在很大程度上由用户的主观判断决定。因此,信息检索相关性的系统设计不应局限于系统本身,而应以用户为核心,遵循用户个性化需求,从源头上设计和操作系统,建立人性语料库,削弱其非确定性,并站在用户立场思考问题、发现问题并自我修复与完善,提高信息检索的相关性。
(2)改进创新检索模型。布尔逻辑模型、空间向量模型、逻辑模型、概率模型等都是信息检索系统中常用的模型,对系统检索模型的优化、改造和创新,能提高信息检索的系统相关性。例如:词项相似性与倒排文件频率结合的逻辑推理模型、基于相关性概率或语言模型的伪相关反馈等[16]。同时可创新检索模型,如针对临时检索的深度关联匹配模型创新等方法[17]。
(3)强化算法与聚类研究。系统的算法决定了信息系统中信息反馈的性能,对算法的改进能有效提高检索系统的相关反馈性。并且,对海量的文献进行归类、合并,实现有序的聚类,则可以区分相关文本与非相关文本,大大提高检索的相关性。
3.2、 从用户角度提高信息检索相关性
(1)提高需求认知能力。信息需求与相关性的复杂关系,影响着相关性的判定。用户信息需求包括隐性、显性两种需求[18]。隐性需求对于显性需求来说,较难被挖掘和认知。因此,一方面,系统引导用户挖掘隐性需求,并了解动机、追踪细节;另一方面,用户也要注重内在需求的思考和判断,通过对隐性需求的开发,让需求表述更为全面、准确、有效,逐步提高用户对信息需求的理解与认知能力[19]。
(2)完善用户交互机制。系统算法固然能提高信息查取的准确率,但相关性仍主要受信息用户本身的影响。因此,信息检索相关性研究应以人为本,重视用户交互性,完善信息服务体系。凭借用户交互,及时跟踪行为,反馈检索结果集,以完善显示方式。同时,还可以直接由用户根据界面在屏上显示某些主题对某一个主题进行交互[20]。基于用户交互的检索模式,可以改善内容排序,从而增强信息检索相关性,有效支持用户服务。
(3)培养信息意识与技能。加强用户对信息的敏感力、洞悉力和剖析判辨能力,提高其获取信息的技能,有利于改善查询结果,增强用户相关性。例如,高校增设信息检索课程、公共图书馆开设文献查询讲座、MOOC在线信息检索教育等,都是普及用户信息意识与技能的重要途径。加强信息检索意识,提高信息获取能力,完善用户相关性,从而促进信息的传递与流通。
4、 结语
笔者认为,信息检索相关性,是用户、系统的相关性的综合体,任何一方都不能脱离。相关性应该是以用户为关键,系统为基础,研究用户与检索系统的交互、认知以及真实需求的描述与反馈。未来信息检索相关性的发展趋势应是基于网络环境,立足用户需求,同时针对用户的需求特殊性和难易程度来设计以满足需求的算法,所以信息检索相关性实际上是体现了哲学理论矛盾的特殊性和普遍性,无论是从相关性历史脉络的纵向角度,还是从研究学派观点的横向角度,以及各种相关性影响因素,我们都可以看出相关性概念的多变性、复杂性。
参考文献
[1]马芳.信息检索中的相关性研究[J].科技情报开发与经济,2009,19(14):89-90.
[2]莫祖英.信息检索中的相关性[J].情报探索,2006(12):117-119.
[3]程颖,孙建军,巢乃鹏.信息检索中的相关性模型[J].图书情报工作,2004,48(12):46-50.
[4] SCHAMBER L,EISENBERG M B,NILAN M S. A re-examination of relevance:toward a dynamic,situational definition[J]. Information Processing&Management,1990,26(61):755-776.
[5]王知津,卞丹,王文爽.信息检索中“相关性”的概念、类型及其不确定性[J].山东图书馆学刊,2011(1):1-5
[6] MIZZARO S. Relevance:The whole history[J]. Journal of the American Society for Information Science,1997,48(9):810-832.
[7] MIZZARO S. How many relevances in information retrieval[J]. Interacting with Computers,1998,10(3):303-320.
[8]陆小辉.信息检索的相关性[J].科技广场,2007(9):75-77.
[9]王雅坤,成全.信息检索相关性研究综述及发展趋势[J].图书与情报,2012(1):88-94.
[10] SCHAMBER L. Relevance and information behavior[J]. Annual Review of Information Science and Technology,1994,(29):3-48.
[11] BARRY C L. The identification of user releyance criteria and document characteristics:Beyond the topical approach to information retrieval[D]. NY:Syracuse University,1993.
[12] BARRY C L. User-defined relevance criteria:An exploratory study[J]. Journal of the American Society for Information Science,1994,45(3):149-159.
[13]任雅晴,吴景海.国内图情领域检索相关性研究分析[J].情报探索,2016(2):122-126.
[14] UMA R,MUNEESWARAN K. Efficacious Geospatial Information Retrieval Using Density Probabilistic Document Correlation Approach[J]. Journal of Computer Science,2013,9(1):83-93.
[15]李亚琴,孙建军,杨月全,等.基于信息检索用户的相关性行为研究进展[J].情报科学,2014(5):157-160.
[16]庞弘燊,徐文贤.近年来国外信息检索的相关性研究进展[J].中国图书馆学报,2009(4):88-94.
[17] GUO J,FAN Y,AI Q,et al. A Deep Relevance Matching Model for Ad-hoc Retrieval[C]. New York:ACM,2016:55-64.
[18]成全,司辉.信息检索相关性评价及其改善策略研究[J].情报杂志,2008(2):129-133.
[19]骆绍烨.浅析信息检索中的相关性[J].赤峰学院学报(自然科学版),2009(12):42-44.
[20]李芳,杨林.基于用户的检索服务研究进展[J].情报科学,2012,30(9):1424-1430.