本文全部都是个人经验、个人观点
阶段一:进入学习状态
学姐和我说过这么一句话:做项目最简单的是学习,难在设备和技术,说白了就是资源
进入一个新的领域最简单就是两步走:读两本书——实践两个项目
有些人能把技能点满,有些人全部靠外包,差距在哪?差距就在开头,关键就在于谁能开得了头。
进入新领域、学习新东西,最好的方法就是读书,读大佬的书。
读两本书:
《R语言实战》、《R数据科学》
这两本书对于在使用R的人来说可能都比较熟悉和基础,但是当时我个人在自学入门时走了很多弯路,才找到这两本书。
这两本书都有中文版,价格都不贵。
读的方法:
1、通读,做记号,认真看,搞懂代码,每一本书一周时间就解决了,不需要记忆,达到想到什么问题,知道大概在什么位置,能当做工具书手查就足够了。
2、最好中英文对照读,了解英文对应的专业词汇,扎实的基础能省去以后很多麻烦
两个项目:
做图、文章复现
可以在读完第一本书之后,就找一批原始数据,最好是找没经过专业数据处理培训的人要模拟数据。然后定个模版图,用找来的数据做出来。过程中遇到什么问题就去搜,去问,去解决。
做图的过程会接触到:文件读写、数据处理、做图,也是对R语言有个加深了解,为读第二本书开个头
读完第二本书后,找一篇文章,开始复现。这个没什么说的,硬刚就完了。
给个建议,最好养成在R script中编码和注释的习惯,crtl+enter运行单行就够用了。
复现文章的过程,应该会接触到:数据库、生信分析手段及各种R包(后面详细说)、各种琐碎的知识(遇到就查,查后记录保留)
阶段二:进入生信领域
以上两步如果你能耐着性子花时间精力做完,你自己就明白要学什么了。
所以,我这里只再给个人的理解。
1、怎样算进入这个领域:加点群,不管有没有问题逛逛论坛,关注几个博主,能看懂、能交流、有思路、会解决问题就算是入门了。
2、生信到底是什么:基于NGS或数据库——(测序本——组装——)counts/normalized counts——数据处理——差异、富集——建模——可视化
其他还有结合临床信息survival、细胞聚类等等,说白了都是一个差异化、富集化的过程。
3、生信过程中零散的知识点,随查随记:counts\fpkm\tpm、survival\hazard,OR\HP\RR,p\adp\q\fdr,aic\bic,文件格式等等
4、后面的学习主要分几个步骤:
文章复现、R包学习——机器学习(、Markdown、shiny学习)——做项目(最好学习使用服务器、python从测序未组装开始)——读R包源代码——尝试写包
过程中不能停止做图,要做各种图,因为做图不仅仅局限在应用,更在对于数据的敏感和理解
过程中最好穿插着python学习,以及其他工具的学习
给自己的任务
从块、包、图、点、库等方面记录学习和工作
块如项目步骤等的经验
包如seurat、SummarizedExperiment等
点如各类小知识点的记录
库如各类数据库