在《Multi-omics Hammer软件之‘元素索引的批量查找’》推文中我们着重介绍了如何利用大文件的矩阵操作套件实现“元素索引的批量查找”功能。这篇推文主要介绍一下如何利用这一套件来整理GO/KEGG注释文件的格式。
一 功能开发
GO/KEGG注释与分析是许多生信分析中必不可少的一个环节之一。以这两个数据库的信息为基础进行差异基因的富集分析,可以帮助分析人员快速定位到哪个功能途径可能参与诱导差异性状的产生,如种子的败育、花瓣的早衰、果实的抗裂等。
但是,对于许多生信小白而言,在做这种分析时,常常会遇到下面这种情形。需要将下面的这种格式数据
转换为下面这种格式
亦或者是这种格式
如果数量较少,或许可以通过excel或者人工来一个个的进行挑选,但是如果是成千上万呢?所以,这里需要的就是使用我们的Multi-omics Hammer软件来进行操作啦!
二 软件调用
开头第一步,也是最重要的一步。就是打开我们的Multi-omics Hammer软件(文字链接可以查看该软件的介绍,下载地址则见文末)。随后,在‘Dataprocess’菜单中点击‘Data process as matrix’选项,弹出对话框(如图1和图2所示)。
①Formatconversion method: 文件进行格式转换时调用的方法
②Input file:需要转换的文件
③Formatconversion command: 文件转换时的辅助命令
④Documentsfor retrieval: 用于检索的文件(如需要以此文件的内容作为种子查找对应的内容)
⑤Previewoutput results: 结果预览(如果用户不需要保存结果,通过此窗口即可实现结果好看)
⑥Output filelocation: 此窗口填入的内容为保存输出结果的文件的绝对路径
⑦CommandLaunch Options: 命令启动选项,用于启动功能和保存文件。其中7-1为文件是否保存的复选框,7-2为是否仅用窗口的数据进行运算的复选框,7-3为启动按钮,7-4为加载示例文件按钮
随后,我们需要在Formatconversion method选择‘[13]file_separator_replace’方法,将我们的数据文件拖入到‘inputfile’文件对话框中,如图3所示。
并且在CMD lines对话框中输入以下指令。
点击start按钮之后,即可将格式1文件转换为格式2文件,如图4所示。
那么,如何将格式2的文件转换为格式3文件呢?
这一步,我们同样在这个窗口,但是我们需要选择在Multi-omics Hammer软件中大文件的矩阵操作套件的另一个功能,即‘[11]file_second_col_split_and_merge’选项。
如上文一样,我们将需要转化的文件拖入到inputfile文件中,如图5所示。
并在CMD line中输入模式1
随后,点击start按钮,既可将格式2转换为格式3,如图6所示。
其中,使用本软件还有一些细节需要注意,大家可以参考之后的这篇推文《Multi-omics Hammer软件之'元素索引的批量查找'》
三 惯例小结
实际上,这一方式的文件格式转换可以帮助用户快速将其他格式整理成富集分析所需要的格式内容(这部分内容会在后面结合相应的案例继续介绍)。如果读者觉得还有什么功能需要实现,也可直接通过公众号留言。最后的最后,欢迎大家多用Multi-omicsHammer软件,多提宝贵建议。也欢迎大家多关注公众号(见个人介绍)。
软件下载地址:
https://github.com/wangjun258/Multi-omics-Hammer