一、在跑cellranger的过程中出了个问题。要琢磨一下怎么回事。
报错:sequence and quality length mismatch。
image.png
wc -l FH-H3-Y7-B1_S2_L004_R1_001.fastq
先统计文件的行数
image.png
cat FH-H3-Y7-B1_S2_L004_R1_001.fastq| head -n 48934044 | tail -n +48934041
#再查看报错的那几行数据,发现都是序列和质量值都是150长度啊。没有mismatch啊。
118c09a0addaf711ccefa3e533dad3f.jpg
二、原因
1,怀疑是文件完整性的问题。可能不完整。
2,数据截取的问题。对于10X数据,R1就是read1 :主要用来标记(barcode、UMI以及reads的来源)。R2就是read2:与基因组比对 (配合UMI进行定量),这个是最重要的数据。一般R1只需要截取26-28bp就可以了。R2是要150bp。这次数据中R1和R2都截取了150bp。
那就一个个来试一下吧。看看完整性:
三、使用md5.txt来校验fastq文件完整性
把数据和md5.txt文件放到同一个文件夹下。cd到该文件夹中,输入命令md5sum -c md5.txt
1f5a97f2cad56a99d7b81100f281c265_.jpg
果然是R1不完整啊。重新下载吧。发现新下的文件和之前的大小完全一样。跑了md5以后,就不一样了。之后重新跑cellranger count就正常啦。
四、结论
cellranger count命令的数据可以是150:150截取的。单数据完整性一定要保证。用md5.txt文件做验证,可以确定是否完整。如果出现failed,说明数据传输中有错误。需要重新下载。