抽空看了《Python源码剖析》+ python3.7的源码,记录一下觉得重要的知识点
类型对象
- 整数
- 通过整数对象池解决对引用计数的过度访问
- 频繁执行的代码会提供宏(节省函数开销,牺牲类型安全)和函数(检查类型安全降低效率)两种版本
- 小整数池在python初始化时创建,范围在[-5, 257),可以通过修改源码动态改变这个临界值
- 大整数开辟一块内存空间轮流使用,用单向列表来管理空闲态内存
- 整数引用计数为0不会向系统堆归还内存,会加入到上述单向列表中
- 字符串
- 预存字符串hash值和intern机制提高Python虚拟机20%执行效率
- intern机制节省空间、简化PyStringObject比较,即只会存在唯一一个与被intern字符串对应的Obj对象
- interned实际为dict存储key value来保证相同string不重复创建
- 创建的string对象会进行intern操作并缓存到字符缓冲池中
- 列表
- list也存在缓冲池,默认维护80个PyListObject对象
- 初始会分配一定的内存,操作时通过list_resize来调整list的内存占用
- 字典
- 字典采用hash表实现,理论上能达到O(1)的查询效率
- python采用开放定址法解决散列冲突,删除探测链元素使用“伪删除”操作
- 创建默认8个entry,即键值对,会预存hash值避免重复计算
- dict也存在缓冲池,与list缓冲池机制一致
虚拟机
- 编译
- python执行会先编译文件再执行
- PyCodeObject是真正编译的结果,pyc文件是这个对象在硬盘上的表现形式
- 编译结果存在于内存中,运行结果后保存到pyc中,下次执行相同程序从pyc中建立PyCodeObject对象
- pyc文件不是一定生成的,只有在有重用情况下会编译生成pyc文件,如import xxx
- pyc文件包含magic number(用于区别不同版本python)、创建时间信息(同步pyc和py文件)、PyCodeObject对象
- w_object在PyCodeObject写入pyc时存储对象的类型,在从pyc中加载时恢复对象的结构和蕴含信息
- 对于字符串生成pyc和从pyc中解析分别采用PyDictObject减少冗余和PyListObject来作为索引取值(对于重复的字符串会记录一个位置标识表示之前出现的string的位置,dict不支持索引取值,所以采用list)
- 字节码虚拟机
- python执行时,虚拟机上实际不是PyCodeObject对象,而是PyFrameObject对象
- PyFrameObject栈空间大小不同取决于Code Block执行时所需大小,并维护PyCodeObject对象
- 作用域和名字空间
- LBG规则:名字引用沿着local作用域、global作用域、builtin作用域的顺序查找名字对应的约束
- 闭包函数满足LEGB规则
- global关键字使python强制只参考global名字空间而不用管LEBG规则
- 类机制
- python3.7中采用的都是新式类,用户可以定义继承python内置类型的类
- class实现"__call__"方法则对象为可调用对象,称作“可调用性”
- 虚拟机这部分内容书中多是机器码的实现,这里不赘述