【算法面试题】重复的DNA序列

【算法面试题】重复的DNA序列


今天是一道关于位运算的题目,来自leetcode,难度为Medium,Acceptance为44.5%

题目如下


所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC", "CCCCCAAAAA"]
来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/repeated-dna-sequences

解题思路

思路一

初看该题很简单,最简单的就是暴力搜索,双层循环,将输入s按照长度10进行截取,窗口index0开始到s.len - 10,内层循环从index+1开始,同样截取长度是10的子串,如果发现重复的组就把它加入到结果中。用 set 进行结果存储。

代码如下


Java版

public List<String> findRepeatedDnaSequences(String s) {
    int len = s.length();
    Set<String> res = new HashSet<>();
    for (int i = 0; i <= len - 10; i++) {
        for (int j = i + 1; j <= len - 10; j++) {
            if (s.substring(i, i + 10).equals(s.substring(j, j + 10))) {
                res.add(s.substring(i, i + 10));
                break;
            }
        }
    }
    return new ArrayList<>(res);
}

显然,时间复杂度是O(n^2),不出所料,超时了……

思路二

在上面的思路中,两层循环相当于每一组子串都遍历了两次,所以造成了时间的浪费。我们可以利用一个 Set ,在遍历的时候就将其放入Set,在加入之前判断 Set 中是否存在,如果存在就说明和之前的发生重复,就把它加到结果中。这样我们可以做到只遍历一次。

代码如下


Java版

public List<String> findRepeatedDnaSequences(String s) {
    int len = s.length();
    Set<String> res = new HashSet<>();
    Set<String> set = new HashSet<>();
    for (int i = 0; i <= len - 10; i++) {
        String key = s.substring(i, i + 10);
         //之前是否存在
        if (set.contains(key)) {
            res.add(key);
        } else {
            set.add(key);
        }

    }
    return new ArrayList<>(res);
}

这样,我们将时间复杂度降到了O(N)

思路二升级版

正常情况下到解法一就已经结束了,也可以AC了。但是考虑上面的思路,时间复杂度降到了O(N),那么空间复杂度呢。因为每个子串都保存到了Set,子串的个数是N-10个,每个子串的长度是L=10,所以总共是O(10*(N-10))=O(L*N)的空间复杂度。

我们思考能不能把空间复杂度降下来,思路如下:

  • 一 在窗口滑动过程中,每次的字符串相对于之前都是少一个字母,多一个字母,而剩下的 9 个字母是没有变化的。

  • 二 因为这里只有4个字母A C G T,字符通常占用空间比数字大,如果不是字母而是数字会不会容易一些,比如,我们将A C G T分别看成是0 1 2 3,那么原字符串AAAAACCCCC就变成了0000011111。发现这其实是一个数的二进制表示,我们就可以将其看成是整数存储,这样大大降低了存储空间。

当然如果含有G T的话就不是二进制了,而变成了4进制,考虑二进制比较简单,我们将0000011111看做二进制形式,即00000000000101010101,这样A C G T就可以看做是00 01 10 11

对于 Input: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"。
就可以看做是 0000000000010101010100000000000010101010100000000000101010111111
当 i 等于 0 的时候,key = AAAAACCCCC
当 i 等于 1 的时候,key =  AAAACCCCCA
当 i 等于 2 的时候,key =    AAACCCCCAA

就可以看做是
当 i 等于 0 的时候,key = 00000000000101010101
当 i 等于 1 的时候,key =   00000000010101010100
当 i 等于 2 的时候,key =     00000001010101010000

key初始化为0,窗口i = 0 时候的key 只需要左移两位,把最高位两位去掉,低位腾出两位,然后加上新加入的字母A,也就是00,就到了i = 1 时候的key

此外,keyint 存储,是32 位的,但我们是10 个字母,每个字母对应两位,所以我们只需要20 位,我们需要把key11111111111111111111(0xfffff) 进行按位与,只保留低20 位,所以更新 key 的话需要三个步骤,左移两位 -> 加上当前的字母 -> 按位与操作

思路有了,代码如下

public List<String> findRepeatedDnaSequences(String s) {
        int len = s.length();
        if (len == 0 || len < 10) {
            return new ArrayList<>();
        }
        Set<String> res = new HashSet<>();
        Set<Integer> set = new HashSet<>();
        char map[] = new char[26];
        map['A' - 'A'] = 0;
        map['C' - 'A'] = 1;
        map['G' - 'A'] = 2;
        map['T' - 'A'] = 3;
        int key = 0;
        char[] array = s.toCharArray();
        //第一组单独初始化出来
        for (int i = 0; i < 10; i++) {
            key = key << 2 | map[array[i] - 'A'];
        }
        set.add(key);
        for (int i = 10; i < len; i++) {
            key <<= 2;
            key |= map[array[i] - 'A'];
            key &= 0xfffff;
            if (set.contains(key)) {
                res.add(s.substring(i - 9, i + 1));
            } else {
                set.add(key);
            }

        }
        return new ArrayList<>(res);
    }

总结
思路二的话是很常规的思路,也可以AC。升级版的话,通过对 key 的选取,在空间复杂度上进行了轻微的优化,这里需要对二进制有较深的理解。

关注我


image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,540评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,640评论 2 374
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,643评论 0 326
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,672评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,525评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,387评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,809评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,450评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,743评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,787评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,560评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,406评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,824评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,048评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,335评论 1 253
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,784评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,997评论 2 337