本节课主要涉及词法分析,将一段话使用分词器tokenizer 进行分词,关键是怎么分词?分词的规则是啥?一般我们会联想到正则文法进行匹配? 如果正则满足不了呢?等等一系列的问题。
在分词过程中我们需要有一个数学模型-有限自动机(Finite-state Automaton,FSA),或者叫做有限状态自动机(Finite-state Machine,FSM),什么是状态机呢?
状态机是有限状态自动机的简称,是现实事物运行规则抽象而成的一个数学模型。
说白了就是一张状态转换图,这里会涉及到四个概念:
状态,比如开 闭等
事件 执行某个操作触发的条件或者指令
动作,事件发生后的要执行的动作
变换transition 从一个状态变化未另一个状态
上图是对数字字面量和标识符的状态转移过程; 进入初始状态(单线圈标识临时状态),遇到数字进入1,如果接下里还是数字继续处于1状态,如果接下来是空格,这代表此状态结束进入初始状态,此时前面的数字部分就是一个单独的token; 同理初始遇到的是一个字母,则进入2状态,接下来一个字符是数字或者字母则继续呆在2状态,除非遇到空白字符或者其他标识符导致异常出现
词法分析的过程,其实就是对一个字符串进行模式匹配的过程
词法分析器
1. 生成词法分析器
词法分析器生成工具 lex(及 GNU 版本的 flex)能够基于规则自动生成词法分析器。
2. DFA & NFA
DFA 它是“Deterministic Finite Automaton”的缩写,即确定的有限自动机。它的特点是:该状态机在任何一个状态,基于输入的字符,都能做一个确定的状态转换。前面例子中的有限自动机,都属于 DFA。
NFA,它是“Nondeterministic Finite Automaton”的缩写,即不确定的有限自动机。它的特点是:该状态机中存在某些状态,针对某些输入,不能做一个确定的转换。
3. 任何一个正则表达式都可以转化为DFA或者NFA
语法分析
掌握语法分析阶段的核心需要两个基本功:
第一,必须能够阅读和书写语法规则,也就是掌握上下文无关文法;
第二,必须要掌握递归下降算法。两种算法思路:一种是自顶向下的语法分析,另一种则是自底向上的语法分析。