生信数据思维 | 快速入门R语言,优雅的分析数据

生物信息学之R语言数据思维

大部分半路出家搞生信的朋友都遇到过一个问题——无法建立数据之间的联系,根本原因是缺少必备的数据思维,传统生物学中对数学的忽视,造成了现在大数据情况下思维混乱。

如果没有数据思维,就只是数据堆叠。

如何培养数据思维?

学习数据分析工具和技术:

了解数据分析所需的基本工具和技术,包括统计学、机器学习、数据可视化等。

掌握数据收集和处理技能:

学会如何获取、整理、清洗和转换数据,使其适合进行分析。

练习数据分析和解释:

利用实际数据集进行练习和分析,并熟悉如何将分析结果以及数据图表传达给受众。

培养数据驱动的思考方式:

使用数据来支持决策和解决问题,例如使用数据来验证假设和评估方案效果。


如何提升R语言能力?

R提供了丰富的数据处理、统计分析和图形可视化功能,包括基本的统计方法(如描述性统计、假设检验、线性回归等)和高级的统计技术(如非参数方法、广义线性模型、决策树、聚类分析等)。

此外,R还提供了强大的绘图和可视化功能,可以创建各种类型的图表,包括散点图、条形图、直方图、箱线图、密度图、热力图等。

我最近看到了一本很适合R语言爱好者的书,它是由哈尔滨工业大学基础数学博士张敬信教授编著的《R语言编程—基于tidyverse

15151515

这本书的作者张教授先在信息与计算科学专业打牢学术基础,然后继续在基础数学领域深造并一举拿下博士学位,年纪轻轻就成为了副教授。

干货满满

内容新颖

Tidyverse包是Hadley及团队的集大成之作,是专为数据科学而开发的一系列包的合集,提供了一致的底层设计哲学、语法、数据结构。它集数据导入—数据清洗—数据操作—数据可视化—数据建模—可重现与交互报告整个数据科学流程于一身,以“现代的”“优雅的”方式和管道式、泛函式编程技术实现。

本书绝大部分内容都是参阅最新版本R包的相关文档,很少参阅书籍(而且尽量参阅最新的在线版本)。本书全面采用最新的R语言技术编写,特别是tidyverse“整洁流、管道流、泛函流”数据科学。

真正融入编程思维

很多国内 R 语言编程书只是罗列堆砌编程语法,国外有不少优秀的 R语言编程书,但翻译版往往就只是 “直译”,只把表面意思用生硬的汉语表达出来,很难让初学者学透它们。

解决办法就是真正融入编程思维:编程思想引导,编程语法到底是怎么回事,应该用于何处、怎么使用。本书前言和第一章融入向量化编程与函数式编程思维;第二章主要融入数据思维。

精心准备实例

编程语法讲透彻还不够,必须配以合适的实例来演示,所以也请读者一定要将编程语法讲解与配套实例结合起来阅读,比起实例代码调试通过,更重要的是借助实例代码理解透彻该编程语法,所包含的编程思维。

本书后半部分是R语言在应用统计、探索性数据分析、文档沟通方面的应用,所配案例力求能让读者上手使用。

程序代码优雅、简洁、高效

本书程序代码都是基于最新的tidyverse,自然就很优雅;简洁高效是能用向量化编程就不用逐元素,能用泛函式编程,就不用 for 循环。

可以说,读者如果用我这本书入门 R 语言,或者更新您的 R 知识,就会自动跳过写低级啰嗦代码的阶段,直接进入写让别人羡慕的 “高手级” 代码的行列。


本书内容安排简介

R 语言编程的基本语法

同时渗透向量化编程、函数式编程思维。这些语法在其它编程语言中也是相通的,包括搭建 R 语言环境,常用数据结构(存放数据的容器) :向量、矩阵、数据框、因子、字符串(及正则表达式) 、日期时间,分支结构,循环结构,自定义函数。

这些基本语法是您写 R 代码的基本元素,学透它们非常重要,只有学透它们才能将其任意组合、恰当使用,以写出各种各样的解决具体问题的 R 代码。同样是讲 R 基本语法,本书不同之处在于,用tidyverse中更一致、更好用的相应包加以代替:用tibble代替data.frame、用forcats包处理因子,用stringr讲字符串 (及正则表达式)、用lubridate包讲日期时间、循环结构中用purrr包的map_函数代替apply系列函数,其中特别讲到编程技术:泛函式编程。

tidyverse数据操作思维

先简单介绍 tidyverse包以及编程技术之管道操作,接着围绕各种常用数据操作展开,包括数据读写(各种常见数据文件的读写及批量读写、R连接数据库、中文编码问题及解决办法),数据连接(数据按行/列拼接、SQL数据库连接),数据重塑 (“脏”数据变“整洁”数据,长宽表转换、拆分与合并列),数据操作 (选择列、筛选行、对行排序、修改列、分组汇总)、其它数据操作 (按行汇总、窗口函数、滑窗迭代、整洁计算),以及data.table基本使用 (常用数据操作的dplyr语法与data.table语法对照)。

tidyverse最大的优势就是以“管道流”、“整洁语法”操作数据,这些语法真正让数据操作从R base的晦涩难记难用,到tidyverse的“一致”、“整洁”好记好用,比Python的 pandas还好用!关键是用一次就能记住!

为了最大程度地降低理解负担,本书特意选用中文的学生成绩数据作为演示数据,让读者只关心语法就好。另外,tidyverse 的这些数据操作,实际上已经在语法层面涵盖了日常Excel数据操作、SQL数据库操作,活用tidyverse上述数据操作语法已经可以胜任这些工作。

可视化与建模技术

可视化只介绍最流行的可视化包ggplot2,先从 ggplot2的图层化绘图语法开始,依次介绍ggplot2的九大部件:数据、映射、几何对象、标度、统计变换、坐标系、分面、主题、输出;接着介绍图形从功能上的分类:类别比较图、数据关系图、数据分布图、时间序列图、局部整体图、地理空间图,对每一类图形分别选择其中代表性的用实例加以演示。

建模技术包括三个内容:(1) 用broom包提取统计模型结果为整洁数据框,方便后续访问和使用;(2) modelr包中一些有用的辅助建模函数;(3) 批量建模技术,比如要对全世界 170 多个国家的数据分别建立模型、提取模型结果,当然这可以用for 循环实现,但这里采用更加优雅的map_实现,以及“行化迭代”实现。

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,509评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,806评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,875评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,441评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,488评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,365评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,190评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,062评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,500评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,706评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,834评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,559评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,167评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,779评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,912评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,958评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,779评论 2 354

推荐阅读更多精彩内容