R2 | #30天专注橙长计划#~SAS~Day 11

2.12 一行有多个观测值的原始文件读取

当一行出现多个观测值时，可以在input语句结尾加一个停止符号@@

例子有一个关于降水量的数据，precipitation.dat，文件包含城市名、州名、月平均降水量、月平均降水天数：

这个数据文件中，第一行包含了两个观测值，可以用@@的程序读取：

日志记录如下：

中间的说明，SAS went to a new line when INPUT statement reached past the end of a line.是指读取第二个值时达到第一行末尾，并转到下一行继续读取。通常这些信息会预示一个问题出现，但在这里它们都是你所想要的（为什么？）

输出结果如下：

2.13 读取原始数据的部分观测值

有时候只需要读取原始数据的部分观测值，比如只需要年鉴中的女性数据、收入超过10万的人口数据等。

此时的数据读取方式如下：在SAS读取某一行观测值时，首先读取足够的变量以便决定是否需要保留此行的观测值。然后在input语句结尾加符号@，叫做a trailing at（called a trailing at），这告诉SAS先停在（hold）此行，同时用IF语句检测此观测值是否满足需要，如果是，那么可以再用一个input语句来读取现有的变量。

例子有一个关于当地交通的数据，traffic.dat数据包含街道的类型（freeways和surface）、街道类型、早晨每小时的机动车流动量、晚上每小时机动车流动量。

如果现在你只需要freeway的数据，可以用下述程序：

第一个input读取字符串变量，@是SAS停留在观测值上并用IF检测，第二个input读取input后面的变量值。

程序执行后日志包括两部分说明，一个说明读取了8个记录，另一个说明新数据集中只包含三个观测值。

输入结果如下所示：

@ vs @@ @的作用类似于@@，都是行停留指示符（line-hold specifiers），不同地方在于停留多久，@能使SAS停留到下一个input语句（也不换行），@@能使停留的时间到下一个data步（也不换行）。比如这段代码：

data test;

infile cards ;

input x @; input y;

input z @@;

cards;

1 2 3 4 5 6

7 8 9 10 11 12

13 14 15 16 17

;

run;

test输出结果就是：

2.14 用infile语句中的选项控制输入

读取原始数据时，SAS做了某些假设，比如从第一行开始读取数据，对于跨行观测值，会自动转到下一行继续读取。但有的特殊数据不满足这些假设，infile语句中的选项可以让SAS读取这些特殊数据。

FIRSTOBS= FIRSTOBS= 选项告诉SAS从哪一行开始读取数据，当数据开头有些说明信息，或者想要跳过某些行时，这个选项很有用。例如，如下原始数据文件中，开头两行是关于数据的描述：

那么用如下程序可以让SAS从第三行开始读取数据：

OBS= OBS=告诉SAS一直读取到哪一行位置，注意是行而不是观测值（有的观测值占据多行）比如，如下的原始数据文件中，结尾处还有一句不需要的数据说明时。就需要这个选项：

用FIRSTOBS=3和OBS=5就可以读取第三行到第五行的数据：

MISSOVER 在input语句中输入的几个变量，SAS在观测值中就读取几个变量，如果一行未读完，则进入下一行直到输入的变量都读取了变量值。missover可以让SAS不进入下一行读取，未赋值的变量就使其成为缺失值。当如下这种数据，就需要missover选项，一个学生应该有5门课的成绩，但由于最后两门是自学课程，不是所有学生都完成，故而缺失：

如下的程序可以让SAS将Nguyen第五门课的成绩设为缺失值，从而不牵扯到下一行：

Truncover 使用column input或formatted input输入时可能会需要这个选项，因为这时有的数据行比其他的短。如下的原始数据中，由于三行的长度都不一样，input中只能指定最长的一行：

程序如下：

这里指定了第二行的长度street $ 22-37，但是第一行maple ave.并没占够至第37列（注意后面是没有空格的），故而必须用truncover，否则会转到下一行继续读取，第三行情况也是。

2.15 用数据步读取分隔符文件（delimited files）

分隔符文件中，变量值之间会用一些特殊的字符隔开，比如逗号或制表符。DLM=和DSD选项可以让SAS容易的读取这些分隔符文件。

DLM= 用list input读取文件时，变量值之间应该用空格隔开。对于其他的分隔符，可以用DLM=，DELIMITER=选项来指定，从而可以读取文件。

例子如下的数据中，学生姓名、每周读的书的数目是用逗号隔开的：

用选项来指定分隔符即可：

如果原始数据是用制表符隔开的，那么可以使用DLM=’09’X来指定，因为制表符的十六进制值是09，如果你电脑使用EBCDIC（扩充的二进制编码的十进制交换码），那么应该用DLM=’05’X。

DSD DSD (Delimiter-Sensitive Data)有三个作用：忽略引号中数值的分隔符；自动将字符数据中的引号去掉；将两个相邻的分隔符当做缺失值来处理。并且，DSD默认分隔符为逗号，如果数据中的分隔符不是逗号，那么要用delimiter来指定。比如，读取一个制表符为分隔符、并且用两个制表符代表缺失值的数据文件，则要用下面的语句：

INFILE ’file-specification’ DLM=’09’X DSD;

CSV文件 CSV文件，Comma-separated values files，是可以用DSD选项的文件类型。Excel可以储存CSV格式的文件。

例子某咖啡馆，老板每晚请不同的乐队表演来吸引顾客，他记录了乐队名称、演出日期、晚上8点、9点、10点、11点的顾客数量：

注意，其中有一个乐队的名字中用逗号来分隔，并且使用了引号。最后一条记录中还有一个缺失值，用两个连续的逗号表示。INFILE语句中的DSD选项可以用来读取这个文件，并且，由于每个记录长度不一样，还需要用missover：

注意bandname和GigDate两个变量使用了冒号修改器，冒号修改器告诉SAS读取信息的长度（BandName为30，GigDate为10）。输出结果如下：

2.16 用导入过程（IMPORT procedure）读取分隔符文件。

Proc import会浏览你的数据文件，自动决定变量类型（字符串或数值），为字符串变量分配正确的长度，辨认出日期变量。Proc import会将两个连续的分隔符视为缺失值，会读取引号中的变量值。一行读完后，会自动分配缺失值给未赋值的变量。Also,if you want,you can use the first line in your data file for the variable names。导入过程（IMPORT procedure）自动问你写下数据步，这可以在提交之后的日志窗口中查看。

一个导入过程（IMPORT procedure）的最简单形式：

PROC IMPORT DATAFILE=’filename’ OUT=data-set;

用语句DATAFILE=’filename’读取文件名，用OUT=data-set创建SAS数据集。SAS会通过文件的扩展名来检测文件的类型：

如果文件没有正确的扩展名，或者是DLM格式的，必须在proc import语句中用DBMS=option。如果想要创建的数据集名字已经存在，那么要用replace选项代替。一个使用replace和dbms的例子。

PROC IMPORT DATAFILE=’filename’ OUT=data-set DBMS=identifier REPLACE;

导入过程（IMPORT procedure）从数据文件中的第一行获取变量名，可以通过在PROC IMPORT后面增加GETNAMES=NO语句来改变这种默认，PROC IMPORT会分配给变量名字：VAR1，VAR2，VAR3等。如果你的数据文件是DLM类型的，PROC IMPORT会假定分隔符为空格，用DELIMITER=可以改变默认的分隔符。如下是一段有上述代码的程序：

例子下面还是使用咖啡馆中，乐队表演的例子（2.15），注意其中有一个乐队的名字中用逗号来分隔，并且使用了引号：

用proc import读取数据的代码如下：

输出结果如下，注意GigDate的日期格式能够被proc import辨认出来：

最后编辑于：2017.12.04 06:38:33

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

R2 | #30天专注橙长计划#~SAS~Day 11

2.13 读取原始数据的部分观测值

2.14 用infile语句中的选项控制输入

2.15 用数据步读取分隔符文件（delimited files）

2.16 用导入过程（IMPORT procedure）读取分隔符文件。

推荐阅读更多精彩内容