读书笔记:《Information filtering and information retrieval: Two sides of the same coin?》

该论文的研究目的:

基于已存在的信息检索模型提出一个信息过滤模型,并使用这个模型对信息检索和信息过滤进行比较,以便得出这两者之间的关系及为信息过滤系统的开发者提供参考。

作者的主要观点和贡献:

主要观点:信息检索与信息过滤是在功能上互补的两个系统,通过相互协作在最大程度上满足用户的信息需求。

贡献:作者通过对信息检索概率模型的介绍和解析,提出了基于推理网络的过滤过程模型,并通过该模型比较了检索与过滤间的联系和区别,进一步说明如何将检索研究过程中得到的经验应用于过滤研究。

论据如何支撑观点:

  1. 列出了信息过滤的典型特征及功能,并表明了其大多数功能与基于文本的信息系统相同。指出了信息过滤功能是信息检索系统的原始功能之一。
  2. 通过信息检索和信息过滤的概念和一般模型的对比,得出了信息过滤与信息检索在相关的实体和过程这个抽象的层次上几乎相同,但在目标群体、用户的信息需求性质、文本组织和处理等具体细节方面又截然相反的结论。
  3. 根据用于描述检索系统的概率模型推出了用于描述过滤系统的概率模型并通过该模型总结出了过滤过程。提出虽然信息检索系统与信息过滤系统看起来是恰好相反的过程,但由于对象及配置的不对称而不能将这两个模型视为单纯的相反关系。
  4. 分别对信息检索研究中的文本表示、检索技术、信息需求获取和系统有效性的评估进行了说明,并进一步阐述将这些研究过程中得到的经验及技术应用到信息过滤研究中的合理性。

论据是否足以支撑观点:

本人认为,上述论据充分说明了信息检索与信息过滤之间的关系,即在基本目标和存在的问题等抽象的层次上相同但在具体细节内容方面几乎相反。这在一定程度上足以支撑“信息检索与信息过滤是同一硬币的两面”这个观点。

个人看法(是否赞同作者的观点、论文中不足/不准确的地方及支持观点的论据):

本人对作者的观点持赞成的态度。不管是信息检索还是信息过滤,都是为了更好地满足用户的信息需求而诞生的,也就是说,它们本质上是一致的,只是表现的形式不一样。信息检索表示为通过对相对固定的数据文件(如静态数据库)等中生成固定的索引,对用户输入的查询需要进行匹配并返回相关结果,信息过滤则表示为根据动态的传入数据流,过滤掉那些对于用户来说并不需要的数据,并将过滤后的数据根据设定好的规则分发给不同的用户。可以比较粗略地作出如下总结:

信息检索主要是用户根据自己的信息需求主动输入相关查询的过程,通过对系统中早就索引好的词项和查询间的匹配得到相关结果,及时反馈给用户让其根据结果推定其是否满足自己的信息需求并作出相应的调整,是一个一次性的过程。

信息过滤则主要是根据用户的特点来倒推出其可能的信息兴趣,进而得到其信息需求。并根据这些推断出的需求来对过滤系统进行事先的配置,过滤掉那些对用户来说无意义的数据或词项以便提升用户的搜寻效率,是一个基于长期搜寻行为的过程;

但是单纯的检索和过滤都难以确切地满足用户的信息需求,而且效率也不高。所以,检索和过滤又是一体的,共同为用户获得执行任务所需的信息提供帮助。

但这篇论文还是存在着以下两点不足:

第一,在文中“Probabilistic Models of Retrieval and Filtering”一节中的“The Filtering Model”根据已有的概率检索模型推导出了一个类似的概率过滤模型,但在之后的阐述中,对其与概率检索模型之间的比较并不直观,容易让人误认为该节与全文的关系不够紧密而造成困惑。此外,该节中提出了问题 “Given a particular object from the incoming stream of objects and a set of profiles, what exactly does it mean to "filter" that object?(在给定来自对象和一组配置文件传入流的特定对象的情况下,“过滤”该对象究竟意味着什么?)”,但并未给出一个合适的解答。

第二,在最后的“conclusion”中,关于数据及时性、信息过滤所涉及到的经济和社会相关问题及信息过滤超出信息检索研究范围的地方并未在文中有所提及,但却在结论中以总结性语言出现,缺少了支撑这些观点的论据。

最后是客观原因所导致的一些问题,即本篇论文发表于1992年,当时的文本及自然语言处理技术并不成熟,所以在一定程度上限制了作者的研究。比如,在现在的自然语言处理技术及语义网的支持下,从用户输入的自然语言判断用户的信息需求已经比较轻松;而在大数据时代的背景下,信息过滤的准确度也大大提升。

原文及译文地址:《Information filtering and information retrieval: Two sides of the same coin?》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 210,978评论 6 490
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 89,954评论 2 384
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 156,623评论 0 345
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,324评论 1 282
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,390评论 5 384
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,741评论 1 289
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,892评论 3 405
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,655评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,104评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,451评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,569评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,254评论 4 328
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,834评论 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,725评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,950评论 1 264
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,260评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,446评论 2 348

推荐阅读更多精彩内容