数据文件
circos
的输入文件是纯文本数据文件
像染色体定义、数据(<plot>
),关系(<link>
),强调(<highlight>
)都需要外部文件作为输入内容
根据展示数据信息的不同,不同格式的输入文件会有少许不同
1 文件格式
1.1 KARYOTYPE —— 生物学应用
karyotype
文件用于定义染色体,默认会绘制所有染色体
每条染色体都会有名字、标签、起始和终止位置以及颜色
例如,人类的 karyotype
文件,像这样
#
chr - hs1 1 0 249250621 chr1
chr - hs2 2 0 243199373 chr2
chr - hs3 3 0 198022430 chr3
...
circos
在染色体名字前面使用特殊的前缀,而不是常用的 chr
前缀
而染色体颜色还是用 chr
作为前缀,为啥?因为颜色是不需要区分物种的
karyotype
文件可以选择性的为染色体定义染色体遗传条带
band hs1 p36.33 p36.33 0 2300000 gneg
band hs1 p36.32 p36.32 2300000 5400000 gpos25
band hs1 p36.31 p36.31 5400000 7200000 gneg
...
你可以在 data/karyotype
文件夹下找到常用的参考基因组的 karyotype
文件
(base) ➜ ls circos-0.69-9/data/karyotype
README karyotype.human.hg18.txt
assembly karyotype.human.hg19.txt
chromosome.band.hg19.txt karyotype.human.hg38.txt
chromosome.band.hg38.txt karyotype.human.txt
dm6.hires.txt karyotype.mouse.mm10.txt
dm6.lowres.txt karyotype.mouse.mm9.txt
karyotype.arabidopsis.tair10.txt karyotype.mouse.txt
karyotype.arabidopsis.txt karyotype.oryzasativa.txt
karyotype.chimp.pt4.txt karyotype.rat.rn4.txt
karyotype.chimp.txt karyotype.rat.txt
karyotype.drosophila.dm6.hires.txt karyotype.rm.3.txt
karyotype.drosophila.dm6.lowres.txt karyotype.rm.txt
karyotype.drosophila.hires.dm3.txt karyotype.sorghum.txt
karyotype.drosophila.lowres.dm3.txt karyotype.yeast.txt
karyotype.drosophila.txt karyotype.zeamays.txt
karyotype.human.hg16.txt parse.karyotype
karyotype.human.hg17.txt
1.2 KARYOTYPE —— 一般应用
如果你的数据不是基于染色体的,可以在 karyotype
文件中定义你需要展示数据的任意轴线
例如,定义 3
个大小分别为 1000
, 2000
和 3000
的片段,并命名为 axis1
,axis2
和 axis3
chr - axis1 1 0 1000 black
chr - axis2 1 0 1500 blue
chr - axis3 1 0 2000 green
1.3 线、散点图、直方图和热图
线、散点图、直方图和热图都是 2D
数据,都是与基因组位置相关的值
#chr start end value [options]
hs5 50 75 0.75
1.4 tile
tile
定义为同一染色体上的区间,用来显示覆盖率相关信息,如 reads
或 clones
等信息
#chr start end [options]
hs5 50 75
1.5 text
与基因组位置相关的文本信息,如文本标签
#chr start end label [options]
hs5 50 75 ABC
如果你要显示多个词,可以用 tab
作为分隔符
1.6 links
同一染色体或不同染色体不同区域之间的关系,可以绘制成线条或丝带的形状
# chr1 start1 end1 chr2 start2 end2 [options]
hs1 200 300 hs10 1100 1300
hs7 50 150 hs 5000 6000 color=blue
binlinks
, bundlelinks
和 filterlinks
工具 可以用于操作和分析 link
文件.
2 options 选项
在<plot>
, <link>
,或 <highlight>
块中定义的特定数据点的任何格式化选项,如形状、大小、颜色等,都通过输入文件来定义
在上面展示的例子中的 [options]
字符可以通过以逗号分隔的键值对的字符串来设置
chr start end var1=value1,var2=value2,...
而对于解析为列表值,如 RGB
值,需要用 ()
、[]
来分隔
chr start end color=(R,G,B)
有无数据值时的 options
输入文件中有与基因组位置相关的值时,options
域在第 5
列
chr start end value options
如果没有值,options
域在第 4
列
chr start end options
如果你试图在将有值的文件,作为期望无值的输入文件,将会抛出错误,无法解析 options
列
Error parsing data point options. Saw parameter assignment [0.75] but expected it to be in the format x=y.
3 文件分隔符
默认情况下是以空白符作为分隔符,想要更改分隔符
可以在配置文件中定义 file_delim
参数
最好是将参数放在 etc/housekeeping.conf
文件中
# etc/housekeeping.conf
file_delim = \t
如果想要设置多词文本标签,需要设置分隔符为 tab
,将会应用于所有输入文件(数据文件和核型文件 karyotype
)
4 文件位置
如果指定特定文件的绝对路径,circos
将不会去其他地方寻找文件
file = /path/to/file.txt
如果文件 /path/to/file.txt
不存在,将会引发错误
如果使用相对路径
file = data/file.txt
circos
将会试图以下面的顺序在多个目录中查找
- 在
data_path
下的所有目录 CWD/
CWD/etc
CWD/data
CWD/../
CWD/../etc
CWD/../data
CWD/../..
CWD/../../etc
CWD/../../data
CWD
为当前目录,推荐使用相对路径的方式,这样的可移植性较好
建议你将数据文件放置一个单独的文件夹中 (e.g. data/)
,与配置文件区分开