新浪微博搜素的根本优势还是来源于微博这个平台,在新浪微博上,每时每刻都有大量的内容产生,在移动互联网时代,其中大量的信息是实时的以及地理位置相关的。此外,大量的第三方应用都有分享到微博的功能,加之微博本身的传播特性,微博某种程度上改变了传统互联网上信息的流动方式。举个例子:5年前,我写了一篇博客,除了直接访问的流量之外,主要的流量来源可能是SEO,也就是说信息主要通过通用搜索引擎得到整理和传播。而今天,我同样写了一篇博客,可以把博客的链接分享到微博上,也许更多的人是通过微博看到我的博客的。
所以,微博搜索的主要优点有以下几点:
- 实时搜索。这个可以有很多应用场景,我个人亲身经历,印象最深刻的一次经历是2009年F1车手马萨在比赛中被赛道上的杂物击中头盔,身受重伤。当时不停地在twitter(好吧。。。印象中那个时候还没有新浪微博)上搜索关于马萨的消息。此外,出游时查询查询路况,查询机场飞机延误情况等等也是我自己经常使用的场景。实时性在我看来是微博搜索最大的优势,就不在赘述了。
- 全面性。目前微博UGC内容的搜索已经比较全面了,这些内容传统搜索引擎并不能很好地满足,也催生出搜八卦、人肉搜索、PM搜索用户反馈等等用户场景。而用户从其他站点分享越多的内容到微博上,也会使得微博搜素能够搜索到越多内容。
- 社会化。微博上大量的内容使用户产生的,用户分享的内容是经过用户选择的,点赞、评论和转发是用户对于信息的反馈。微博上的人关注的对象,粉丝数量,又代表着这个人的“社会价值”。以上这些人的因素,在微博搜索中直接的体现是对结果排序的影响。
我个人觉得,微博搜索目前主要的问题是去重和排序。可能的做法有以下几点:
降噪。这个噪音有多种情况,包括:重复的微博(直接copy别的微博来自己发的),转发但是没有什么营养的微博(转发的时候没有自己的内容,或者“呵呵”的),其他应用分享的微博(快来下载xxx App之类的)。
形成一个科学的微博质量评估体系。简单点的例子,一条字数很少的微博(比如<10个字)和一条100个字的微博,是不是可能100个字的微博的质量更高一些。也许不一定,但是这里应该有一个评估的机制。另一个的例子,带短链的微博的质量如何评估,是不是应该抓取链接中的正文内容来评估呢(其实召回也是一个问题,是不是应该把在链接指向的内容中包含Query关键词时也召回呢)。当然,还有长微博,和短链同样的问题。此外,可能还涉及反作弊机制,比如恶意添加热门标签的情况。
持续提升相关度。对于微博而言,个性化的引入可能比通用搜索引擎更加具备条件。比如,我做竞品分析的时候搜索“去哪儿 酒店”时,其实不想看爸爸去哪儿这个节目的微博,而只是想看关于去哪儿网酒店的微博。这个从我个人的描述,我关注的人,关注我的人,以及我前几次的搜索中也许是可以推断出来的。
这些是单纯从搜索系统本身的角度出发所做的考虑,纯属主观臆断,考虑的也仅仅是微博的内容搜索。以上。