设计一个简单的新闻聚合产品

你好,我叫大中,是一家内容类创业公司的产品总监,此前在阿里5年,负责过虾米音乐等产品。平常关注内容、社区和电商类产品,欢迎关注。

你知道在三四线的县城,用户在哪里看新闻么?不是在今日头条里,而是在微信中的那个腾讯新闻里。这是我在安徽青阳做用户调研时绝大多数给我的回答。这或许说明一点:用户没有像设计师那样的洁癖,期望每一个app都有明确的边界。谁说不能在一个社交app里看新闻,我还要加一句,谁说不能在本地头条(我正在负责的产品)里看全国头条。说是这么说了,但是心里清楚这只是产品的外延,既然是外延就应该追求做产品的性价比,所以才有了这个极简的新闻聚合产品。

先定个产品的小目标:通过全技术的方式,给用户提供一个高频更新的新闻列表,运营可进行微调干预。

整个过程7步完成,对,就是七步成诗那七步。

1.构建标签库

标签库其实就是词条库,词条哪里来?或者换一个问法,互联网上谁最懂中文?答案当然是百度咯。跑到百度百科首页一看,我们要的东西就躺在下面的红框里。

那我们还客气啥,爬呀,等等,1400万是不是有点太多了?那我们就去掉一点吧,只留下名词好了,这样可以把词库控制在百万量级。

2.抓取新闻

接下来,就是抓新闻,新闻哪里有,找门户网站呗,公众号app就算了,费时费力,爬PC站不是一样的嘛,以体育为例,我们可以挑选新浪体育,搜狐体育,凤凰体育,还有什么体育?你也看出来了其实我对体育无感,这里就假设有10个体育专题网站吧。

我们要抓的是热门新闻,啥叫热门,出现在第一屏的就是热门,所以我们抓取的时候,只抓取首屏新闻。结果就是我有了一堆标题和链接,还有链接后面的正文。

3.建立新闻和标签的关联

现在到了建立新闻和标签关联的时候了,首先当然是要分词,怎么分?呃,这个好像有很多自然语言词库的吧,你自己去找吧,分词完了之后,计算各个词的出现频率,出现频率越高说明它越可能是这篇文章的关键词。出现在标题里的词是不是比出现在正文里的词更重要呢?所以你可以把标题里的词加个N倍权重,N等于几?关注我私信我就告诉你。

这里分出来的词,其实就是标签库里的标签。这样每一篇文章就有一个对应的词频由高到低的标签列表了,太长了也没用,就取TOP5吧。

这里有个问题留给你,既然文章要分词,文章分出来的词直接做词库不就好了,为啥要去百度爬呢?答案还是要关注我私信我才告诉你。

4.标签热度排序

现在我们为体育频道选择了10个数据源(就是新浪体育这样的网站),每个数据源下抓了50篇文章,每篇文章都有5个标签,现在我们要看哪个标签最热了。我们的方式简单得很,否则怎么说我们设计了一个极(jian)简(lou)的产品呢,方法是如果一个标签在一个数据源出现了,就加1,在10个数据源都出现了那就是10。通过这种方式你会得到每一个标签的值,这个值除以数据源总数就是“热度值”,在我们这里就是0.1到1之间的分布。

这个时候运营的妹子来乱入了,她说她的特长就是八卦,而且是先人一步的八卦,让我们千万要相信她判断热点的是否会大热的能力。这句话的意思是:她想来人肉预先提升一个标签的热度值,虽然现在它还没有大热。嗯,平常关系辣么好,我不信也得做个姿势选择相信,于是就有了下面的线框。她可以调整一个标签次的热度值。

呀,最后怎么还有两个词连接在一起的?实际上多个词比单个词更接近于一个热点事件。当然对于这种二元词,计算方式和一元词略有不同,细节此处不展开。

5.文章按频道排好序

到这里我们已经有了标签的热度排序,那文章的热度怎么算呢?文章不是有5个标签嘛,那个最高热度值标签的热度就是文章的热度。

实际上热度只是文章的一个维度,要给文章排序,你自然还会想到以下的几个维度:

1.质量分:一篇结构完整、图片丰富的文章显然具有更高的质量

2.时效分:越新的越优先,大家是来看新闻的嘛。具体算法上可以用高斯衰减,比如72小时内基本无衰减,超过72小时后每过12小时就衰减一点。说到衰减,最近看了采铜的效益半衰期理论感觉颇为受用,大意是:一个人管理自己日常的行为,可以考虑这个行为对自己长期受用程度来衡量,有些事情效益半衰期很长比如读书和健身,就应该多做,另外一些事情效益半衰期很短比如游戏,就可以少做。

扯一扯防松一下,接回来说。

文章要排序,就是看这3个因子,编一个数据公式把:热度分,质量分,时效分串起来计算出一个数值就ok了,想要公式?好像不是很方便哎,再说你那么聪明,自己也能搞出来。

6.按频道权重整合输出

文章有了排序,下一步直接输出么?可是当前我们只有一个全国新闻频道,细分分频道啊,个性化呀那都是以后的事情,极简系统就是千人一面的啦。所以下一步我们要定一下各种频道的内容如何混在一起。这个没有啥技术含量,就是给各个频道定个权重,然后按这个权重计算个比例去混合就好了。技术上可确保,用户看的越多,实际比例就越接近预先定义的权重分布

咦,好像漏了说文章属于什么频道的了。在我们第2步里决定去哪些数据源抓新闻的时候就决定了。每个数据源都对应了一个频道, 那么从这个数据源里抓取的文章也就对应了一个频道。主要的几个频道是:社会、娱乐、体育、汽车、历史、房产、科技、财经、军事、国际。

7.过滤用户已读

终于来到了最后一步,作诗也没这么累啊。

对于全国新闻这种用之不尽、取之不竭、看过就忘、不看两遍的题材来说,给用户最好的阅读体验就是每次都给他没看过的,过滤掉所有已经看过的。

那如何尽可能简洁地实现呢?简洁的本质就是照顾主要场景忽略次要场景。主要场景是用户每几个小时打开一次,打开一次看十来分钟。如果我们每小时爬取的新闻数足够多,衰减做的足够高,是否需要过滤已读都是可以商量的了。实操里,我们还是记录了用户的已读信息,然后一次请求里返回足够多的新闻,比如10个频道每个频道300篇,也就是3000篇,然后再过滤一下,性能上完全可接受,主要场景里也不会出现新闻看完的情况。

总结一下

在设计这个热门新闻列表产品的过程中,主要是几个点:

1.新闻的热度本质上是标签的热度,标签用百度的词条

2.标签的热度其实就是同时出现在多个网站上的频度

3.文章的排序就是文章热度分,质量分,时效分的综合打分

下集预告:一个县城社区冷启动过程中的产品设计

上集:设计好轮播区,就这3点

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,919评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,567评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,316评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,294评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,318评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,245评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,120评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,964评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,376评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,592评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,764评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,460评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,070评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,697评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,846评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,819评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,665评论 2 354

推荐阅读更多精彩内容