搞生信的,python和R语言是必不可少的两种语言, 尤其是python。
NGS测序数据的数据量一般都较大,数据的分析大都需要使用布置了linux系统的服务器进行分析。
Linux系统桌面做的一般,数据的分析大都需要使用命令行进行操作。
Windows中布置python或者R环境有什么用呢?
对linux系统不熟的初学者,可以使用此教程在Windows系统中学习python或者R语言;
对已经分析好的数据结果进行统计及可视化,比如委托第三方分析好的数据结果,NGS原始fastq数据太大,个人笔记本的确处理不了,但分析好的结果数据一般不大,个人笔记本完全可以搞定。
对常规的数据进行统计及可视化,如一些临床数据,qPCR的数据等
学习机器学习或者深度学习建模,找一个数据量较小的数据集完全可以在个人笔记本电脑进行机器学习或者深度学习的实操练习。
那么如何在Window中布置python和R语言环境呢?在这里我推荐使用Jupyter(一个IDE),Jupyter绝对是数据科学家的神器,是数据处理,数据可视化,机器学习建模的不二之选。
其有以下几个优点:
交互性: Jupyter 提供了交互式的编程环境,可以逐步执行代码并即时查看结果。这种实时反馈有助于快速迭代和调试代码。
可视化: Jupyter 支持内联可视化,可以在文档中直接嵌入图表、图形和其他可视化结果,从而使数据分析更具交互性和可视化。
文档编写: Jupyter 文档本身是由文本、代码和可视化组成的,因此非常适合编写数据分析报告、教学材料和技术文档。您可以在同一个环境中结合代码和解释性文本,使得代码更易于理解和分享。
多语言支持: 虽然 Jupyter 在 Python 社区中应用广泛,但它也支持其他编程语言,例如 R、Julia 和 Scala。这使得 Jupyter 成为一个多用途的工具,可用于各种数据科学和计算任务。
可扩展性: Jupyter 是一个开源项目,具有强大的社区支持和活跃的开发者生态系统。您可以通过安装各种插件和扩展来扩展 Jupyter 的功能,以满足特定需求和工作流程。
如何安装Jupyter呢?我推荐使用Anaconda(安装包下载地址:https://www.anaconda.com/download/success):
下载好安装包后,直接点击安装即可,推荐安装到C盘以外的其它盘,其它设置无需修改。安装好之后,Anaconda会让你注册一个账号,随意,不注册也不影响使用。
打开Anaconda后,需要创建一个同时包含python和R语言的新环境(依次点击下图红框的中的两个,python和R都选择上):
等待安装好即可,安装好之后进入该环境,再启动主页的JupyterLab(下图红框,JupyterLab是更易使用的Notebook版本):
启动JupyterLab后,其会在系统默认浏览器中打开一个窗口:
点击红框内的python3或者R语言内核,即可启动基于Jupyter notebook的python/R运行界面了,下面以python为例(下图中左侧为文件夹区域,默认为C盘用户目录,右面为代码区):
可以点击File下拉菜单中的“Save Notebook As”,修改一下文件名:
其默认在C盘中的目标用户目录下,会生成目标的ipynb后缀文件,下次打开可继续运行。
下面就可以开始码代码了:首先介绍一下按键功能:
其它不必说,代码块性质有三个选项(Code/MarkDown/Raw):Code就是代码,MarkDown就是支持MarkDown格式的文本,如(两个#号+空格+文字在MarkDown中表示二级标题):
另外支持代码自动补全:
随便生成数据测试一下(下图中第一个代码块导入所需要的包,第二个代码块先生成两个0,1,2-9的Array并分别赋值给x,y,然后使用x,y绘制了一个折线图,横坐标为x,纵坐标为y):
如果你需要的某一个python包没有安装,直接在Notebook中运行安装命令即可(下图):
也可在Anaconda目标环境界面进行手动搜索安装,下图中两个红框,选择未安装,并搜索目标安装包:
Jupyter对于python的支持已经非常好了,但是对于R语言还是有些差强人意。R语言推荐使用RStudio,Anaconda中已经兼容RStudio,直接安装运行即可(安装时会提示需要建一个RStudio单独的环境,确认即可):
进入RStudio环境并在主界面启动RStudio(上图红框),就会进入RStudio的界面(下图),就可直接测试R语言代码了。
如果你是小白,不知道如何选择python或者R语言。直接无脑选择python即可,python代码更加易懂,并且对于机器学习和深度学习有更好的支持。
生信相关数据分析python都可以搞定,只是进行某些绘图/统计时,R语言会更好用一些。
赶快行动试试吧。