该论文的研究目的:
基于已存在的信息检索模型提出一个信息过滤模型,并使用这个模型对信息检索和信息过滤进行比较,以便得出这两者之间的关系及为信息过滤系统的开发者提供参考。
作者的主要观点和贡献:
主要观点:信息检索与信息过滤是在功能上互补的两个系统,通过相互协作在最大程度上满足用户的信息需求。
贡献:作者通过对信息检索概率模型的介绍和解析,提出了基于推理网络的过滤过程模型,并通过该模型比较了检索与过滤间的联系和区别,进一步说明如何将检索研究过程中得到的经验应用于过滤研究。
论据如何支撑观点:
- 列出了信息过滤的典型特征及功能,并表明了其大多数功能与基于文本的信息系统相同。指出了信息过滤功能是信息检索系统的原始功能之一。
- 通过信息检索和信息过滤的概念和一般模型的对比,得出了信息过滤与信息检索在相关的实体和过程这个抽象的层次上几乎相同,但在目标群体、用户的信息需求性质、文本组织和处理等具体细节方面又截然相反的结论。
- 根据用于描述检索系统的概率模型推出了用于描述过滤系统的概率模型并通过该模型总结出了过滤过程。提出虽然信息检索系统与信息过滤系统看起来是恰好相反的过程,但由于对象及配置的不对称而不能将这两个模型视为单纯的相反关系。
- 分别对信息检索研究中的文本表示、检索技术、信息需求获取和系统有效性的评估进行了说明,并进一步阐述将这些研究过程中得到的经验及技术应用到信息过滤研究中的合理性。
论据是否足以支撑观点:
本人认为,上述论据充分说明了信息检索与信息过滤之间的关系,即在基本目标和存在的问题等抽象的层次上相同但在具体细节内容方面几乎相反。这在一定程度上足以支撑“信息检索与信息过滤是同一硬币的两面”这个观点。
个人看法(是否赞同作者的观点、论文中不足/不准确的地方及支持观点的论据):
本人对作者的观点持赞成的态度。不管是信息检索还是信息过滤,都是为了更好地满足用户的信息需求而诞生的,也就是说,它们本质上是一致的,只是表现的形式不一样。信息检索表示为通过对相对固定的数据文件(如静态数据库)等中生成固定的索引,对用户输入的查询需要进行匹配并返回相关结果,信息过滤则表示为根据动态的传入数据流,过滤掉那些对于用户来说并不需要的数据,并将过滤后的数据根据设定好的规则分发给不同的用户。可以比较粗略地作出如下总结:
信息检索主要是用户根据自己的信息需求主动输入相关查询的过程,通过对系统中早就索引好的词项和查询间的匹配得到相关结果,及时反馈给用户让其根据结果推定其是否满足自己的信息需求并作出相应的调整,是一个一次性的过程。
信息过滤则主要是根据用户的特点来倒推出其可能的信息兴趣,进而得到其信息需求。并根据这些推断出的需求来对过滤系统进行事先的配置,过滤掉那些对用户来说无意义的数据或词项以便提升用户的搜寻效率,是一个基于长期搜寻行为的过程;
但是单纯的检索和过滤都难以确切地满足用户的信息需求,而且效率也不高。所以,检索和过滤又是一体的,共同为用户获得执行任务所需的信息提供帮助。
但这篇论文还是存在着以下两点不足:
第一,在文中“Probabilistic Models of Retrieval and Filtering”一节中的“The Filtering Model”根据已有的概率检索模型推导出了一个类似的概率过滤模型,但在之后的阐述中,对其与概率检索模型之间的比较并不直观,容易让人误认为该节与全文的关系不够紧密而造成困惑。此外,该节中提出了问题 “Given a particular object from the incoming stream of objects and a set of profiles, what exactly does it mean to "filter" that object?(在给定来自对象和一组配置文件传入流的特定对象的情况下,“过滤”该对象究竟意味着什么?)”,但并未给出一个合适的解答。
第二,在最后的“conclusion”中,关于数据及时性、信息过滤所涉及到的经济和社会相关问题及信息过滤超出信息检索研究范围的地方并未在文中有所提及,但却在结论中以总结性语言出现,缺少了支撑这些观点的论据。
最后是客观原因所导致的一些问题,即本篇论文发表于1992年,当时的文本及自然语言处理技术并不成熟,所以在一定程度上限制了作者的研究。比如,在现在的自然语言处理技术及语义网的支持下,从用户输入的自然语言判断用户的信息需求已经比较轻松;而在大数据时代的背景下,信息过滤的准确度也大大提升。
原文及译文地址:《Information filtering and information retrieval: Two sides of the same coin?》