- 到目前为止所使用的模式匹配的拆解和匹配都建立在
case class
的基础上,如果要创建自己的模式而不定义case class
,提取器提供了一种实现手段。
提取器
- 在
Scala
中,只要有一个object
拥有unapply
的方法,该object
就被称为提取器,这个unapply
的作用是跟selector
进行匹配,如果匹配成功,就将其拆解开来。
object EMail { // The injection method (optional) def apply(user: String, domain: String) = user + "@" + domain // The extraction method (mandatory) def unapply(str: String): Option[(String, String)] = { val parts = str split "@" if (parts.length == 2) Some(parts(0), parts(1)) else None } }
定义了一个名为EMail
的提取器。unapply
方法是apply
方法的逆操作,unapply
的入参为email
地址,返回user
和domain
,但是为了处理字符串不是email
的情况,将unapply
的返回值定义为Option
类型。在模式匹配中,如果case
后面遇到了提取器,就调用unapply
方法,其入参是选择表达式。
selectorString match { case EMail(user, domain) => ... } EMail.unapply(selectorString)
unapply
方法的返回值必须是Option
类型的。这里的case Email(param1)
模式,如果没有定义apply
方法,有两种写法,第一种是Email(param1)
,这个param1
是unapply
返回的整个元组;第二种就是Email(param1, param2, ……)
,参数的个数和unapply
定义的返回参数个数相同。定义了apply
方法也是同样的情况。
目前选择器selectorString
的类型和提取器unapply
的参数类型是一致的,都是String
,但这并不是必须的,selectorString
可以为任何类型,unapply
会首先检查selectorString
的类型是不是String
类型的,apply
和unapply
是对偶的,如果两者存在于一个对象中的话,Email.unapply(Email.apply(user, domain))
的返回值是Some(user, domain)
,apply
使用参数来构建对象,unapply
将对象解析为构造参数。推荐将两者放在一起。
0个或者1个变量的模式
- 如果返回多个模式元素,可将这个元素放在元组中,并使用
Some
包裹起来进行返回,如果要返回单个元素,直接使用Some
将这个元素进行包装。如果不返回元素,则返回布尔值。
object UpperCase { def unapply(s: String): Boolean = s.toUpperCase == s }
case EMail(Twice(x @ UpperCase()), domain)
中含有三个unapply
模式。UpperCase
的()
要带上,不然匹配的就是UpperCase
自身的类型。UpperCase
自身虽然没有绑定任何变量,但可以使用变量绑定@
将跟它匹配的模式关联一个变量,DIDI@xiaomi.com
返回的x
就是DI
,可见嵌套的模式匹配是从最外层进行的。
提取可变长度参数的模式
如何使用提取器支持下面的代码:
dom match { case Domain("org", "acm") => println("acm.org") case Domain("com", "sun", "java") => println("java.sun.com") case Domain("net", _*) => println("a .net domain") }
就是一个提取器可生成多个匹配模式,使用unapplySeq
方法。
def unapplySeq(whole: String): Option[Seq[String]] Some(whole.split("\\.").reverse)
返回的是Option[Seq[String]]
类型。
def unapplySeq(email: String): Option[(String, Seq[String])]
既能够返回固定元素String
,也能够返回不定元素,不定元素需要写在最后面。这里的Seq
也可以换成List,Array,IndexedSeq
等。
提取器和序列模式
- 列表模式其实就是在
List
中存在一个unapplySeq
方法。Set
和Map
应该是不可以的。因为在比较的时候是有序的。
提取器和样例类的比较
- 样例类将数据的具体实现细节暴露给了使用方。在能够正确匹配构造器模式的情况下,选择器
selector
的具体实现细节是暴露的。 - 提取器则隐藏了数据的具体实现,既可以使用模式匹配又可以隐藏,模式可以跟数据类型无关,这种特性称之为表现独立,在大型的开发系统中是非常有必要的,可以更改实现细节而不影响客户端的实现。
- 表现独立是提取器相对于样例类一个重要的优势,样例类相对于提取器的优点主要有:样例类更好实现,编译器可以更好的优化,因为
case class
的实现是固定的,但是提取器中可以写任何代码,最后,如果case class
继承自sealed trait
或者sealed class
,则在进行模式匹配的时候编译器可以帮助检查所有的情况。 - 如果是封闭的应用,则使用样例类是更好的,因为方便,还可以提供静态检查;如果类的继承关系是需要改变的,且需要暴露给使用方,提取器是不错的选择,保持了表现独立。
正则表达式
- 提取器的另外一个应用场景是正则表达式,
Scala
跟Java
一样,通过一个类库来提供对正则表达式的支持。 -
scala
的正则表达式支持在scala.util.matching
中。新的正则表达式是将一个字符串传递给Regex
构造方法来完成的,在String
中需要对特殊字符进行转义。也可以直接在""""""
中写入原生字符串,比如"""(-)?(\d+)(\.\d*)?"""
scala> val Decimal = new Regex("""(-)?(\d+)(\.\d*)?""")
或者
val Decimal = """(-)?(\d+)(\.\d*)?""".r
,因为在StringOps
中存在一个名为r
的方法可以生成Regex
表达式。
查找正则表达式
- 可以使用不同的操作符,在字符串中查找正确的正则表达式
-
regex findFirstIn str
,在str
中查找regex
,返回Option
类型;
-
-
regex findAllIn str
,在str
中查找regex
,返回Iterator
类型;
-
-
regex findPrefixOf str
,在str
的一开始查找regex
,返回Option
类型。
-
使用正则表达式提取信息
- 每一个正则表达式都有对应的提取器,用来表示正则表达式中匹配的
组
字符串。
scala> val Decimal(sign, integerpart, decimalpart) = "-1.23" sign: String = - integerpart: String = 1 decimalpart: String = .23
可绑定的变量是正则表达式中的各个组。
- 提取器泛化了模式匹配,允许定义自己的模式,并不需要跟
selector
的类型相关,同时提取器在模式和数据的具体表现形式之间增加了一层保护层,使得大型软件的实现更为灵活,保持了表现独立性。