生信4--用python将blasttab+格式文件和fasta文件写成class对象并给予方法

blasttab+结果写成class
先每一行解析一下

class LastHit(object):
    def __init__(self,line):
        fields = line.rstrip().split("\t")
        self.query_sequence_id = fields[0]
        self.subject_sequence_id = fields[1]
        self.identity = float(fields[2])
        self.alignment_length = int(fields[3])
        self.mismatchs = int(fields[4])
        self.gaps = int(fields[5])
        self.qstart = int(fields[6])            # qstart: start of alignment in query
        self.qend = int(fields[7])              # qend: end of alignment in query
        self.sstart = int(fields[8])            # sstart: start of alignment in subject
        self.send = int(fields[9])              # send: end of alignment in subject
        self.evalue = float(fields[10])         # evalue: expect value
        self.score = float(fields[11])
        self.query_length = int(fields[12])
        self.subject_length = int(fields[13])
        self.undientify = int(fields[14])
        
        if self.qstart >= self.qend:
            tmp_position = self.qstart
            self.qstart = self.qend
            self.qend = tmp_position

发现不是很方便,那就把每一行形成一个列表写成类对象,用了pandas模块方便一点

class LastHits(object):
    def __init__(self,last_result_list):
        self.last_hits = []
        for i in last_result_list:
            self.last_hits.append(LastHit(i))
        
        self.last_result_pd_list = []
        for i in last_result_list:
            self.last_result_pd_list.append(i.split("\t"))
        
        columns_names = ['query_sequence_id','subject_sequence_id','identity','alignment_length','mismatchs','gaps','qstart','qend','sstart','send','evalue','score','query_length','subject_length','unidentify']
        self.last_result_pd = pd.DataFrame(self.last_result_pd_list, columns=columns_names, dtype=float)
        
    def _filter_result_pd(self,result_pd, min_identity, min_alignment_length): #filter identity<=90 alignment_length<=400
        if min_identity is not None:
            filtered_result_pd = result_pd[result_pd['identity'] > min_identity]
            
        if min_alignment_length is not None:
            filtered_result_pd = filtered_result_pd[filtered_result_pd['alignment_length'] > min_alignment_length]
            
        filtered_result_pd=filtered_result_pd.groupby('query_sequence_id', as_index=False, sort=False).apply(lambda g: g[g['identity'] == max(g['identity'])]) #根据query_sequence_id分组并,取每一组内identity值最高的一行
        return filtered_result_pd
        
    def count_filter_result_pd(self, min_identity = 90, min_alignment_length = 400):
        filtered_result_pd = self._filter_result_pd(self.last_result_pd, min_identity, min_alignment_length)
        filtered_result_pd_count = filtered_result_pd.groupby('subject_sequence_id').agg({"identity": np.mean,"query_length": np.mean, "score": np.mean, "subject_sequence_id": len})
        filtered_result_pd_count.columns = ['Depth', 'Ave_Identity', 'Ave_Length', 'Ave_Score']
        filtered_result_pd_count["Gene_names"]=filtered_result_pd_count.index
        return round(filtered_result_pd_count,2)

这样,运行下面代码

cmd = 'lastal -Q1 -P 4 -q 1 -b 1 -Q 0 -a 1 -e 45 -f BlastTab+ AMR.db {}'.format(input_fastq_file) #可以改变Last得分矩阵的参数
cmd += " | grep -v ^# -"
    
last_hits = []
f = os.popen(cmd)
last_result_list = f.read().rstrip().split("\n") #列表,一行为一元素

然后把结果解析成LastHits对象

last_hits = LastHits(last_result_list)

LastHits对象就拥有了last_hits、last_result_pd_list、last_result_pdd属性,并且拥有了filter_result_pd()过滤方法,后面就是不断添加方法。

这种思路就是python面对对象的编程思路,我就做个简单演示

reference也可以做同样的处理

class ReferenceFasta(object):
    def __init__(self,reference_fasta_file):
    
        with open(reference_fasta_file,"r") as ref_fa:
            self.ref_fa_dict = {}
            for line in ref_fa:
                line= line.strip() #strip()方法移除字符串头尾指定的字符(默认为空格或换行符),不会删除中间部分字符
                if line == '':
                    continue
                if line.startswith('>'):
                    read_name = line.lstrip('>')
                    read_name_dict = re.sub('\..*', '', read_name)
                    '''把>标签行整理成bed文件中read标签的格式(比如fasta文件中>标签行:'gi|41406098|ref|NC_002944.2| Mycobacterium avium subsp. paratuberculosis K-10, complete sequence'(ncbi标准格式);bed文件中第一列read标签:如NC_002944.2(只需其中一部分)),运用自己构建的正则表达提取。例句只提取第一个空格前的'''
                    self.ref_fa_dict[read_name] = ''
                else:
                    self.ref_fa_dict[read_name] += line
                    
        self.ref_fa_names = pd.DataFrame(self.ref_fa_dict.keys(), columns = ["Gene_names"], dtype = object)
        
        ref_fa_names = self.ref_fa_names.copy(deep = True)
        ref_fa_names['Depth'] = float(0)
        ref_fa_names['Ave_Length'] = float(0)
        ref_fa_names['Ave_Score'] = float(0)
        ref_fa_names['Ave_Identity'] = float(0)
        self.ref_fa_count_initialization = ref_fa_names
        
    def count_result_depth(self,filter_result_count_pd):
        result_depth_count = self.ref_fa_count_initialization.copy(deep=True)
        for i in filter_result_count_pd['Gene_names'].to_list():
            result_depth_count.loc[result_depth_count['Gene_names'] == i, 'Depth'] = filter_result_count_pd.loc[i, 'Depth']
            result_depth_count.loc[result_depth_count['Gene_names'] == i, 'Ave_Length'] = filter_result_count_pd.loc[i, 'Ave_Length']
            result_depth_count.loc[result_depth_count['Gene_names'] == i, 'Ave_Score'] = filter_result_count_pd.loc[i, 'Ave_Score']
            result_depth_count.loc[result_depth_count['Gene_names'] == i, 'Ave_Identity'] = filter_result_count_pd.loc[i, 'Ave_Identity']
        return result_depth_count

瞬间觉得可重复了

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容