可以自我改写的代码的实验

简述/Rationale

自改写代码(self-modifying code / self-mutating code),是非常古老的概念。自改写代码允许在程序执行当中修改构成程序本身的指令。在IBM/360时代以及相应的语言,包括ALGOL 60和COBOL都允许在程序执行的过程中修改自身代码。在今天常见的编程语言中几乎都没有这个功能,同时操作系统也默认禁止这样做,通常的做法是写-运行互斥,即将内存标记为可写可运行,却不能同时被修改和执行,从而保障系统安全。另外自改写代码造成了缓存的利用率低下,缓存的依据是locality(“程序运行中的大部分是件是在执行它一小部分代码”),如果这一小部分代码被频繁修改,那么缓存的意义就不太大了。因此到今天自改写代码这一概念已经不大流行了。

那么自改写代码本身有什么意义呢?可能最大的意义就在于人工智能了。自改写代码在上世纪七八十年代有过一些在人工智能方面失败的应用。那时是神经网络和基因算法刚刚起步的时候,但是如果没有任何huristic method而单纯让代码自我演进的效率非常低下。所以这些实验随后就终止了。但是我们不妨设想一下,从进入二十一世纪,互联网逐渐普及起来,我们通过代码制造了大量的数据的时候,代码却还是需要人类一行一行敲入,这是一件非常奇怪的事情。计算机的产生旨在减少人类的重复作业,但是编程这一人类活动在大部分情况下都是重复作业。所以这样一个尝试,从某种意义上说就是希望在人工智能不断替代人类工种的进程中,把编程这一活动也替代吧。

道德和伦理/Ethics

这种实验很容易让人联想到人工智能的发展,以及人类未来的走向,也会像克隆人或各种干细胞实验一样上升到伦理道德层次讨论。事实上比蒸汽机更早时,英国的纱厂主开始应用水轮机来纺纱的时候,工人们的恐慌和我们今天所感受到的都是一样的。

我在这里想说的是,技术从古至今都是双刃剑。技术提高了社会生产力,增加了社会总财富的增速,但是也加大了贫富差距。技术让很多事情完成的更快,但是却又为人类带来了更多的事。总体来说,人如果不奴役技术,就会被技术所奴役,这个争斗随着历史进程的发展,变得更加尖锐了。

对于写代码的人来说,自己需要想清楚一些事情。除了代码本身的美学和艺术价值之外,你写代码总是要完成一些事情的。如果你写代码所完成的事情是在帮助你自己,完成向他人及社会提供价值的事(撰文,记账等,然而写代码本身并不是这样一件事),那么计算机是你的工具。如果你不能立刻得出这个答案,那么需要仔细掂量,是你在操作计算机,还是计算机在操作你。你是否正在扮演计算机上面一台低效的代码生成设备。

如果您耐心看到此处,那么衷心希望计算机是您的工具,而您过着充实美好的生活。您是一位计算机使用者,而不是一台设备。请您务必怀着要通透了解并驾驭计算机的心态阅读后文。

实验介绍/Introduction

这个实验的设想是从我个人2014年开始的。当时我正在接触嵌入式系统和FPGA。FPGA吸引人之处莫过于其现场可编程能力,理论上它可以达到运行时更改自身电路结构的能力,但是在实践中非常难操作,FPGA的学习曲线很长,并且在调试过程中会遇到很多来自电路层的不确定性的问题,所以相当耗时。于是我想到,是否可以退而求其次,先在计算机上去实现可以改变自身代码的能力,作为proof of concept,在想法成熟之后再拿到硬件平台上进行下一步的尝试。

与此同时我接触到了Forth语言,一个广泛应用在嵌入式系统上的语言,保持底层的灵活性。和C这样的编译语言不同,Forth实现了一个最小的运行时环境,并且鼓励使用者通过这个环境不断扩充代码。目前只有Forth语言按照这个思想设计。于是这个语言成了实现的自改写代码的首选。然而问题是,目前官方的Forth已经是一个很庞大的系统了,内部的行为很难探究。同时Forth社群都鼓励使用者先用汇编自行实现一个最小的Forth运行时环境。然而汇编语言非常难调试,并且在平台间移植的问题上花了大量时间。实现Forth的项目于去年2月份开始,持续了半年之后便中止了。

所以之后我又做了退而求其次的决定,先去实现一个简陋的计算机emulator,包括实现实现Forth所需的所有指令。目前正在进展的就是这项工作。

代码

#include "stdio.h"
#include "stdlib.h"
#include "string.h"

#define MEM_SIZE 256 

以下是几个类似汇编的数据类型,均是无符号类型,分别占1/2/4字节。hook是用来接收类型不确定的变量的。

typedef unsigned char  byte;
typedef unsigned short word;
typedef unsigned long  quad;
typedef void *         hook;

定义完数据类型,以下是几个模拟寄存器的变量。StackegReturnReg以及EntryPointer均是Forth中才会用到的。Memory是我们主要操作的场所,一切数据和代码都在当中。MemPointer是指向内存地址的指针,可以把它理解为instruction pointer。Register数组保存了16个4字节的空间,它们是作为一般数据寄存器用的。Command是一个buffer,用来存储读入的指令。

word StackReg     = 0,
     ReturnReg    = 0,
     EntryPointer = 0;

byte Memory[MEM_SIZE];
byte * MemPointer = Memory;

quad Register[16]; 
byte Command[8];

接下来,trans模仿了CPU的transfer指令,将一个地址上的内容复制到另一个地址上(并改写)。注意到声明为void *类型的hook是不能直接使用的,所以我们将此地址加上我们所需要的偏置,然后再dereference。Size指出需要连续搬运多少个字节,但需要注意的是,Size是不能直接拿来用的,因为当我们逐个字节搬运时使用的是下标。譬如要连续搬运两个字节的话,是要搬运指定地址开始的第0个和第1个。因此我们使用一个递减的while循环,从Size - 1开始到0结束。

这是种不大常见的写法,涉及到对C寻址的理解。我们常见的写法是array[index],来得到一个名为array数组的第index位置的值。但事实上,array[index]等价于*(array + index)也等价于index[array]。也就是说,array是一个指针,指针可以像普通整型数一样做加减运算。这个指针加上了一个index作为偏移量,然后通过dereference操作得到实际的值。按照默认的方法,我们无法重新cast指针的类型,而hook是一个void *类型,必须经过cast才能使用。所以在下文中(byte *)(Dest + DestOff + c)是先将指针cast为byte类型(单字节),然后再进行dereference,而没有直接按照Dest[DestOff+c]的形式。

void trans(hook Source, word SourceOff, hook Dest, word DestOff, word Size) {
    int c = Size - 1;

    while (c >=0) {
        *((byte *)(Dest + DestOff + c)) = *((byte *)(Source + SourceOff + c));
        c --;
    }
}

trans的基础上我们设计了四个更具体的操作,assign用于将一个常量赋于指定地址,clone用于在两个地址之间转移。最后两个是用来和数据寄存器交互的。

word assign(hook Source, word Off, word Size) {
    trans(Source, 0, Memory, Off, Size);
    return Off + Size;
}

void clone(word Source, word Dest, word Size) {
    trans(Memory, Source, Memory, Dest, Size);
}

void to_reg(word Source, word Reg, word Size){
    trans(Memory, Source, Register, Reg*4, Size);
}

void from_reg(int Reg, word Dest, word Size){
    trans(Register, Reg*4, Memory, Dest, Size);
}

有了这几个像汇编指令一样的东西,我们就可以创造一些生成代码的工具。以下这些工具的功能类似于汇编语言中的assembler directive,它们是辅助汇编器生成一些代码,但不会直接成为可以被执行的CPU指令。但从我们所实现的机器来看,它们还是有本质的区别。assembler directive是在编译时执行的,所生成的内容都保存在了汇编之后的二进制文件中,在运行时直接被载入对应的段内。我们此处完成的则更像是汇编代码的一部分,它们是在程序载入后才开始进行的工作。但是对于接下来要完成的工作,它们都相当于初始化的一部分,所以没有影响。

那么assign_char_const是将一个字节从内存偏移Offset处开始写入,重复times次。assign_string是我们所完成的string结构,包含一个记录长度的字节,以及后面字符串内容。Entry结构会在后面的例子中描述。

word assign_char_const(word Offset, const byte c, word times) {
    
    byte copy = c;
    int counter = times - 1;

    while (counter >= 0) {
        trans(&copy, 0, Memory, Offset + counter, 1);
        counter --;
    }

    return Offset + times;
}

word assign_string(word Offset, byte* String) {
    
    byte length    = strlen(String);
    byte afterByte = assign(&length, Offset, sizeof(byte));
    byte finalLen  = assign(String, afterByte, length);    

    return finalLen;
}

word assign_entry_name(word Offset, byte* String, word PaddedLen) {
   
    byte padCopy   = PaddedLen; 
    byte strLength = strlen(String);
    byte addedByte = assign(&padCopy, Offset, sizeof(byte));
    byte addedStr  = assign(String, addedByte, strLength);    
    byte padded    = assign_char_const(addedStr, ' ', PaddedLen - strLength);

    return padded;

}

word assign_entry(word Offset, byte* EntryName, word(* Content)(word)) {
    
    word OffCopy = Offset;

    word afterAssigned      = assign_entry_name(Offset, EntryName, 15);
    word afterAddingContent = Content(afterAssigned);
    word finalEntryLength   = assign(&OffCopy, afterAddingContent, sizeof(word));

    return finalEntryLength;
}



word test_content(word Offset) {
    
    byte test[] = "@CONTENT";

    word afterAssigned = assign_string(Offset, test);

    return afterAssigned;
}

接下来为了让输出好看一些,我们设置不同的前景色和背景色。以下是ANSI颜色代码标准,但是在terminal不同的color scheme下会显示出不同效果。

//fonts color
#define FBLACK      "\033[30;"
#define FRED        "\033[31;"
#define FGREEN      "\033[32;"
#define FYELLOW     "\033[33;"
#define FBLUE       "\033[34;"
#define FPURPLE     "\033[35;"
#define FDGREEN     "\033[36;"
#define FGRAY       "\033[37;"
#define FCYAN       "\x1b[36m"

////background color
#define BBLACK      "40m"
#define BRED        "41m"
#define BGREEN      "42m"
#define BYELLOW     "43m"
#define BBLUE       "44m"
#define BPURPLE     "45m"
#define D_BGREEN    "46m"
#define BWHITE      "47m"

#define NONE        "\033[0m"
#define BOLD        "\033[1m"
#define UNDERLINED  "\033[4m"

这可能是对我来说帮助最大的部分,我能很方便地查看memory map,而且颜色和布局能帮很大的忙。其中ASCII字符部分(0x32以上)会按字符来显示,而其余的数字则都显示为十六进制数。未来这部分代码会继续扩充。

void print_mem() {

    for (int iter = 1; iter <= MEM_SIZE; iter ++) {
        if (0x20 <= Memory[iter-1]) {
            printf(BOLD FYELLOW BBLACK " %c " NONE, Memory[iter-1]);
        } else {
            if(Memory[iter-1] == 0x00)
                printf(FDGREEN BBLACK "%02X " NONE, Memory[iter-1]);
            else 
                printf(BOLD FGREEN BBLACK "%02X" NONE " ", Memory[iter-1]);
        }
        if (!(iter % 16) )
            printf("\n");
    }

}

那么接下来我们就做试验了。


int main() {

    byte c = 0x40;
    //assign(&c, 0, 1);
    //clone(0, 1, sizeof(byte));
    //clone(0, 2, sizeof(word));

    //word offset = 0x20;
    //byte example[] = "example";
    //assign_entry(offset, example, test_content);

    print_mem();

    return 0;
}
Screenshot from 2017-07-06 00-09-37.png

这是没有做任何事时的memory map。当我们解除了第一行注释时,我们把ASCII码为0x40的字符放在了内存的第一个位置上,也就是那个@。

Screenshot from 2017-07-06 00-12-21.png

当我们继续解除后续两行注释时,我们知道我们先将内存中位置0的内容copy到了位置1,继而又把位置0和1两个字节的内容复制到了以位置2开头的区域,也就是2和3,于是我们会看到

Screenshot from 2017-07-06 00-15-09.png

把最后三行注释解除,我们会看到

Screenshot from 2017-07-06 00-17-09.png

有兴趣的读者可以思考一下这是如何得到的,以及末尾“CONTENT"后面为什么多了一个空格。

完整代码见于(这里)[https://coding.net/u/marv/p/metacordia/git/blob/4fa7a763497b28af76f21b4315d4f71dba6ff2b9/metacordia.c]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容