准备导入R的数据文件的最佳实践
在前一章中,我们提供了R编程的要点,包括安装、启动、基本数据类型和算术函数。在下一篇文章中,您将学习如何将数据导入到R中。为了避免在将文件导入到R中时出错,您应该确保您的数据准备充分。
在本文中,我们将描述一些在导入R之前准备数据的最佳实践。
打开你的文件
我们假设您使用Excel打开并准备文件。
准备文件
行和列名称:
将第一行用作列标题(或列名)。通常,列表示变量。
使用第一列作为行名。通常行表示观察结果。
每一行的名称应该是唯一的,所以删除重复的名称。
列名应该与R命名约定兼容。
命名约定:
避免使用空格的名称。好的列名: Long_jump or Long.jump。错误的列名:Long jump。
避免用特殊符号命名:?,$,*,+,#,(,),-,/,},{,|,>,<等。只能使用下划线。
避免变量名以数字开头。用字母代替。好的列名:sport_100m或x100米。坏的列名:100m
列名必须唯一。不允许使用重复的名称。
R区分大小写。这意味着Name与name或NAME不同。
避免数据中出现空白行
删除文件中的任何注释
用NA替换缺失值
如果有包含日期的列,请使用四位数格式。格式正确:01/01/2016。错误格式:01/01/16
最终文件:
我们的最终文件应该是这样的:
保存文件
我们建议将文件保存为.txt(制表符分隔的文本文件)或.csv(逗号分隔的值文件)格式。
如果仍要将其保存为xls | xlsx文件格式,则可以执行此操作。我们将在下一篇文章中学习如何将xls | xlsx文件导入R。