一、什么是Mach-O文件?
Mach-O
是 Mach Object
文件格式的缩写,是 mac
以及 iOS
上可执行文件的格式,对应系统通过应用二进制接口(application binary interface,缩写为ABI)
来运行该格式的的文件。Mach-O
文件对应有多种格式:
- 目标文件
.o
- 库文件:
.a
静态库文件.dylib
动态库文件.framework
文件,自己创建的为静态库文件 - 可执行文件
-
dyld
动态链接器将依赖的动态库加载到内存 -
.dsym
符号表
Mach-O格式用来替代BSD系统的a.out格式。Mach-O文件格式保存了在编译过程
和链接过程
中产生的机器代码和数据
,从而为静态链接和动态链接的代码提供了单一文件格式。
clang单文件编译
在Xcode
中我们可以直接创建.c
文件,通过终端clang
命令来对.c
文件进行编译或生成可执行文件
,下面看一下clang
怎样使用的。
- 1、创建一个main.c文件如下:
#include <stdio.h>
int main(){
printf("打印:hello\n");
return 0;
}
- 2、编译文件
clang -c main.c
会生成main.o
文件,该文件即为mach-o
文件,通过命令file main.o
查看文件信息如下
main.o: Mach-O 64-bit object x86_64
是一个object类型
的文件称为目标文件
,并不是可执行文件
-
3、生成可执行文件
- 命令
clang main.o
会生成a.out
文件,即可执行文件,通过ls
查看 - 命令
clang -o main main.o
也会生成可执行文件main
- 命令
clang -o main main.c
直接根据源文件生成可执行文件main
- 命令
size -x -l -m main
查看文件信息,如下:
- 命令
4、执行文件
./a.out 或 ./main
多个文件是如何编译的呢?
开发中根据不同功能模块我们会分很多文件来实现,在clang
中是可以对多个文件进行一次性打包,生成一个可执行文件。如下:
- 1、新建一个功能文件
people.c
#include <stdio.h>
void sleep(){
printf("正在睡觉\n");
}
- 2、在
main.c
中声明sleep
方法并调用
void sleep();//声明方法
int main(){
printf("打印:hello\n");
sleep();//调用方法
return 0;
}
- 3、编译为可执行文件
clang -o main main.c people.c
- 4、执行可执行文件
./main
, 运行结果如下:
二、通用二进制文件(Universal binary)
在iOS
中不同手机对应着可能不同的架构,如arm64、armv7、armv7s
。为了兼容不同架构的手机,苹果推出了通用二进制文件,包含了应用程序常用的这些架构,因此通用二进制文件,比单一架构二进制文件要大很多。
架构选择
通过以上配置真实编译出来的是包含arm64、armv7架构
通用二进制文件在哪呢?
在xxx.app
中的xxx黑色文件
即是通用二进制文件,右键xxx.app
显示包内容即可获得。
lipo命令
通过lipo
命令可以查看、拆分及合并以上提出的架构,在做静态库时也会使用,来合并真机下和模拟器下的静态库,以适应不同的调试环境。
从LoginApp.app
中我获取可执行文件LoginApp
- 1、查看架构信息:
lipo -info LoginApp
// 终端输出结果如下
Architectures in the fat file: LoginApp are: armv7 arm64
- 2、拆分armv7、arm64架构
lipo LoginApp -thin armv7 -output LoginApp_armv7
lipo LoginApp -thin arm64 -output LoginApp_arm64
// 终端输出结果如下
Non-fat file: LoginApp_armv7 is architecture: armv7
Non-fat file: LoginApp_arm64 is architecture: arm64
- 3、合并架构
lipo -create LoginApp_armv7 LoginApp_arm64 -output LoginApp_ALL
-
产生的可执行文件如图:
三、Mach-O文件结构
官方图解:
文件分为三个部分:
-
Header
:包含Mach-O
文件的基本信息,字节顺序、架构类型、加载指令的数量等 -
Load commands
:包含区域位置、符号表、动态符号表,加载Mach-O
文件时使用这里的数据确定内存分布 -
Data
:数据段segment
,包含具体代码、常量、类、方法等,有多个segment
,每个segment
有0到多个section
,每个段有一个虚拟地址映射到进程的地址空间
直接使用 MachOView
打开LoginApp可执行文件,如下:
结构体对齐
1、查看Macho headers
// 查看 Header,包括 Load commands
objdump --macho --private-headers LoginApp
otool -l ${MACHO_PATH}
// 只查看 Header
objdump --macho --private-header LoginApp
otool -h ${MACHO_PATH}
在 Mach-O
中定义了程序的入口main
函数(定义在LC_MAIN的Load command
命令),告诉动态链接器去加载程序的入口
// grep代表搜索, -A 5:向下输出5行
objdump --macho --private-headers LoginApp | grep "MAIN" -A 5
- 以上打印的两段分别是
armv7
、arm64
架构下的header信息 在objc4
源码loader.h文件中有mach_header
的结构体定义,如下:
struct mach_header {
uint32_t magic; /* mach magic number identifier */
cpu_type_t cputype; /* cpu specifier */
cpu_subtype_t cpusubtype; /* machine specifier */
uint32_t filetype; /* type of file */
uint32_t ncmds; /* number of load commands */
uint32_t sizeofcmds; /* the size of all the load commands */
uint32_t flags; /* flags */
};
struct mach_header_64 {
uint32_t magic; /* mach magic number identifier */
cpu_type_t cputype; /* cpu specifier */
cpu_subtype_t cpusubtype; /* machine specifier */
uint32_t filetype; /* type of file */
uint32_t ncmds; /* number of load commands */
uint32_t sizeofcmds; /* the size of all the load commands */
uint32_t flags; /* flags */
uint32_t reserved; /* reserved */
};
-
magic
:魔数,确定是64位还是32位 -
cputype
:cpu
类型 -
cpusubtype
:cpu
子类型 -
filetype
:Mach-O
支持多种文件类型,使用filetype
来标注具体文件类型 -
ncmds
:加载命令的数量 -
sizeofcmds
:命令区域(load commands
)总的字节大小 -
flags
:标识二进制文件所支持的功能,主要与系统的加载、链接有关
2、Load commands
Header
之后是load commands
段为加载命令段,在header
结构体中有对加载命令段相关信息的描述,用于解析加载命令。在objc4
源码loader.h中,有对loadcommand
的定义:
struct load_command {
uint32_t cmd; /* type of load command */
uint32_t cmdsize; /* total size of command in bytes */
};
-
cmd
:命令类型,针对不同架构有不同的结构(32位、64位) -
cmdsize
:命令所占字节大小(32位size必须为4字节的倍数,64位size必须为8字节的倍数)在文件中有两个结构体segment_command
和segment_command_64
针对不同架构的结构体,内部设置字段相同。以segment_command_64
为例:
struct segment_command_64 { /* for 64-bit architectures */
uint32_t cmd; /* LC_SEGMENT_64 */
uint32_t cmdsize; /* includes sizeof section_64 structs */
char segname[16]; /* segment name */
uint64_t vmaddr; /* memory address of this segment */
uint64_t vmsize; /* memory size of this segment */
uint64_t fileoff; /* file offset of this segment */
uint64_t filesize; /* amount to map from the file */
vm_prot_t maxprot; /* maximum VM protection */
vm_prot_t initprot; /* initial VM protection */
uint32_t nsects; /* number of sections in segment */
uint32_t flags; /* flags */
};
-
cmd
:加载命令类型 -
LC_SEGMENT
:表示这好似一个段加载命令,需要将它加载到对应的进程空间上 -
LC_LOAD_DYLIB
:这是一个需要动态加载的链接库,它使用dylib_command
结构体表示 -
LC_MAIN
:记录了可执行文件的主函数main()
的位置,它使用entry_point_command
结构体表示 -
LC_CODE_SIGNATURE
:代码签名的加载命令,描述了Mach-O
的代码签名信息,它属于链接信息,使用linkedit_data_command
结构体表示 -
cmdsize
:加载命令所占内存大小 -
segname
:存放16字节大小的段名字,当前是__PAGEZERO
。 -
vmaddr
:段的虚拟内存起始地址 -
vmsize
:段的虚拟内存大小 -
fileoff
:段在文件中偏移量 -
filesize
:段在文件大小 -
maxprot
:段页面所需要的最高内存保护(4=r,2=w,1=x) -
initprot
:段页面初始的内存保护 -
nsects
:段中包含section
的数量 -
flags
:其他杂项标志位
以上加载命令含义如下:
-
LC_SEGMENT_64
:将文件中的段映射到进程地址空间中 -
LC_DYLD_INFO_ONLY
:动态链接相关信息 -
LC_SYMTAB
:符号表信息,位置、偏移、数据个数,供dyld
使用 -
LC_DYSYMTAB
:动态符号表信息,供dyld
使用 -
LC_LOAD_DYLINKER
:链接器信息,记录使用那些链接器完成内核后序的加载工作 -
LC_UUID
:Mach-O文件的唯一标识 -
LC_VERSION_MIN_MACOSX
:支持最低操作系统版本 -
LC_SOURCE_VERSION
:源代码的版本号 -
LC_MAIN
:设置主线程的入口 -
LC_LOAD_DYLIB
:依赖库信息,dyld
通过该命令去加载依赖库 -
LC_FUNCTION_STARTS
:函数的起始地址表 -
LC_CODE_SIGNATURE
:代码签名
3、Data
Data
区域由Segment
段和Section
节组成:
segment
主要有__TEXT
和__DATA
组成-
__text
:是主程序代码-
__stubs
、__stub_helper
:是动态链接的桩 -
__cstring
:程序中c语言字符串 -
__const
:常量
-
-
__DATA
含义:-
Section64(__TEXT,__objc_methname)
:OC类名 -
Section64(__DATA,__objc_classlist)
:OC类列表 -
Section64(__DATA,__objc_protollist)
:OC原型列表 -
Section64(__DATA,__objc_imageinfo)
:OC镜像信息 -
Section64(__DATA,__objc_selfrefs)
:OC类自引用 -
Section64(__DATA,__objc_superrefs)
:OC类超类的引用 -
Section64(__DATA,__ivar)
:OC类成员变量
-
总结
- 查看
mach-header
:objdump --macho -private-header ${MACHO_PATH}
otool -h ${MACHO_PATH}
- 查看
__TEXT
:objdump --macho -d ${MACHO_PATH}
- 查看符号表:
objdump --macho --syms ${MACHO_PATH}
- 查看导出符号表:
objdump --macho --exports-trie ${MACHO_PATH}
- 查看间接符号表:
objdump --macho --indirect-symbols ${MACHO_PATH}