分享工程算法在业务开发中的应用

工程算法，说白了就是leetcode上那些传统算法，常见的应用是……面试。本文分享几例在业务开发中的应用

一、搜索提示

市面上的搜索引擎都有搜索提示功能，基础的功能是前缀匹配，其他还有拼写纠错（如图，值得打成了指的，依然有推荐“值得”）、按照一些统计数据优化推荐（比如搜索量越大的排在越上面）

image.png

开发一个面向C端用户的完善的搜索提示要考虑上述很多功能细节，比较麻烦，但是在工作中，我们肯定会接手各种各样的输入框，这些输入框并没有那么关键（总不能是个输入框就按照上面搞一套搜索提示），或者是仅对公司内部人员开放的内部配置平台，给这些输入框添加只支持前缀匹配的搜索提示还是比较简单的。
那么，前缀匹配怎么做呢？

1.1. 方案A: 数据库like查询

这种方案比较直接，不细说了。缺点是数据量大的时候查库比较慢，而且如果这个输入框是个面向C端用户的输入框，那还得考虑如果流量大怎么办、如果流量不大但是被恶意访问导致流量大了怎么办。
另外还有个缺点，数据库不好做拼写纠错

1.2. 方案B: 在内存里构建字典树

另一种方案是在内存中构建一个字典树缓存，输入数据后直接通过字典树做前缀匹配，这种方案的优点是匹配更快，且不用担心流量大的情况，能做拼写纠错（下文详述）。我找了下leetcode还真有这样的面试题，感兴趣的可以尝试下。

1.2.1. 实践中的优化与细节

1.2.1.1. 注意字符集大小

如果自己实现一个R-way Trie（就是每个节点在数组里存储下一个节点）会存在一个问题：空间复杂度是O(NwR)，依赖于字符集的大小R，如果只是26个英文字母还好，而如果是字符集2字节，每个节点就要开辟大小是65536的数组，太耗费空间。
因此实践中我用的是 Apache包下的Patricia Trie。Patricia Trie相对于普通的R-way Trie，一方面把只有单节点的细长分支压缩成了一个节点，另一方面其基于2进制比较，空间复杂度与字符集大小R无关（严格的说是和logR相关），其存储结构大概如图，每个节点只有两个子节点（而普通的Trie里每个节点要开R个空间用来存子节点）

image.png

1.2.1.2. 并发安全

大致看了Apache实现里的代码，没做并发安全的处理，因此自己封装了一层读写锁。

1.2.1.3. Patricia Trie做前缀匹配：有些API会遍历所有数据

用之前建议仔细看文档或源码，有些操作prefixMap("xxx").firstKey()是会遍历所有数据的，需要避免使用

1.2.2. Follow Up:内存存不下怎么办？

假如这是一场技术面试，那么到这里自然会产生下一个问题：如果数据太多，内存里存不下整个Trie该怎么办？
解决的思路是把Trie分散放在多台机器上。可以对前两个字符做一致性hash来路由机器，比如以ab开头的词都在机器1，以ac开头的词都在机器3。
当然，假如这是一场技术面试，那么随之而来又会产生新的问题：假如有数据倾斜怎么办，有访问热点怎么办？这里就不展开了，哈哈。

二、拼写纠错

搜索引擎还有个常用功能，如果拼写错了会进行纠错并提示用户，如图。

image.png

完善的拼写纠错功能往往使用基于统计的算法，我们的思路还是简单的问题简单解决，不是关键输入框就不搞那么复杂（其实是因为复杂的算法我不会，嘿嘿）这里介绍基于编辑距离的拼写纠错。

2.1. 方案A:计算两个单词的最小编辑距离

首先想到的算法是遍历字典，求输入字符串和字典里每个单词的最小编辑距离，这感觉是很经典的动态规划题目（来来来，复习下动态规划，来写下这道题）
但是这么搞需要对字典里每个单词都求一次，时间复杂度太高。怎么优化呢？

2.2. 方案B:反向编辑距离

如果字典里单词太多，一个优化思路是反过来，即先从查询词生成可能的候选集，找出候选集里在词典出现的词。例如用户输入birthdai，我们发现这个词搜不到东西，那么先来找只需要做一次修改操作就能生成birthdai的词，包括*irthdai,b*rthdai,bi*thdai...birthda* 然后一个一个看他们是否在字典中出现。

2.2.1. 实践中的取舍

2.2.1.0. 使用哪种编辑距离

编辑距离问题有很多种，有的是支持增、删操作，有的是支持增删改操作，鉴于实践中经常把两个字母打错位(比如chain打成了chian)，我选择的是支持增、删、改、交换操作的编辑距离。

2.2.1.1. 把数据都放到内存

全放数据库的话，做一次拼写纠错就要调几百次数据库。

2.2.1.2. 震惊！Apache的Patricia Trie不支持通配符匹配

我写代码写到一半才发现Apache的Patricia Trie不支持通配符匹配……
没办法，简单一点，用丑一点的算法。假设拼写纠错算法只支持由英文字母和下划线构成的字符串，比如用户想打birthday但是输入了birthdai，算法对每一个字符尝试替换、删除、插入、交换，替换只尝试替换为英文字母和下划线。例如尝试把第一位的b替换为acdef...,相应的字符串为airthdai,cirthdai,dirthdai...以此类推。

三、年会上的程序员：抽奖算法怎么写？

年会的时候少不了抽奖环节，抽奖算法怎么写呢？
来来来，请做题：
有50个员工参加年会，抽取一二三等奖，分别有1、2、3人中奖。
有100个员工参加年会，抽取一二三等奖和阳光普照奖，分别有1、2、3、50个员工中奖（我也不知道为啥阳光普照照不到剩下的人）
……
有20万员工，抽取5万人获得阳光普照奖。
有14亿员工，抽取1万人获得阳光普照奖。
有N个员工，抽取K个员工获得阳光普照奖。
应该怎么写才能保证抽奖公平呢？

3.1. hashmap判重呗

把中过奖的员工id存到hashmap里，每次生成一个随机数代表员工id，看看hashmap里有没有，有就重新随机，没有就说明这人中奖了。

3.2. 排序

给每个员工生成一个随机数代表他们的得分，然后找出分值排名在前K个的员工，代表中奖。

3.3. 洗牌算法

《算法导论》介绍过把数组随机打乱的洗牌算法，感兴趣可以复习一下

3.4. 蓄水池抽样

洗牌算法得把整个数组都放内存里，假如在14亿人中抽取1万人发奖（？？）如果14亿人全放内存里太大了，那么可以用蓄水池抽样，内存里只需要放1万人就好了

3.5. 黑名单映射法

每次随机范围缩小，对黑名单建立映射。见
https://leetcode-cn.com/problems/random-pick-with-blacklist/solution/hei-ming-dan-zhong-de-sui-ji-shu-by-leetcode-2

3.6. 填窟窿法

https://leetcode-cn.com/problems/insert-delete-getrandom-o1-duplicates-allowed

你会用哪种算法呢？

最后编辑于：2020.10.02 09:00:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,826评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,968评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,234评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,562评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,611评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,482评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,271评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,166评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,608评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,814评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,926评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,644评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,249评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,866评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,991评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,063评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,871评论 2赞 354

分享工程算法在业务开发中的应用

一、搜索提示

1.1. 方案A: 数据库like查询

1.2. 方案B: 在内存里构建字典树

1.2.1. 实践中的优化与细节

1.2.1.1. 注意字符集大小

1.2.1.2. 并发安全

1.2.1.3. Patricia Trie做前缀匹配：有些API会遍历所有数据

1.2.2. Follow Up:内存存不下怎么办？

二、拼写纠错

2.1. 方案A:计算两个单词的最小编辑距离

2.2. 方案B:反向编辑距离

2.2.1. 实践中的取舍

2.2.1.0. 使用哪种编辑距离

2.2.1.1. 把数据都放到内存

2.2.1.2. 震惊！Apache的Patricia Trie不支持通配符匹配

三、年会上的程序员：抽奖算法怎么写？

3.1. hashmap判重呗

3.2. 排序

3.3. 洗牌算法

3.4. 蓄水池抽样

3.5. 黑名单映射法

3.6. 填窟窿法

推荐阅读更多精彩内容