本章将介绍如何使用字符串来设置其他值的格式(比如便于打印),并大致了解使用字符串方法可完成的重要任务,如拆分、合并和查找等。
3.1 字符串基本操作
标准序列操作(索引、切片、乘法、成员资格检查、长度、最小值和最大值)都适用于字符串,但字符串是不可变的,所有的元素赋值和切片赋值都是非法的。
3.2 设置字符串的格式:精简版
指定要设置其格式的值时,可使用单个值(如字符串或数字),可使用元组(如果要设置多个值的格式),还可使用字典。
>>> format = "Hello, %s. %s enough for ya?"
>>> values = ('world', 'Hot')
>>> format % values
'Hello, world. Hot enough for ya?'
也可以使用模板字符串,包含等号的参数为关键字参数。
>>> from string import Template
>>> tmpl = Template("Hello, $who! $what enough for ya?")
>>> tmpl.substitute(who="Mars", what="Dusty")
'Hello, Mars! Dusty enough for ya?'
使用融合并强化了上述方法的优点,使用这种方法时,每个替换字段都用花括号括起,其中可能包含名称,还可能包含有关如何对相应的值进行转换和格式设置的信息。
在最简单的情况下,替换字段没有名称或将索引用作名称。
# 默认替换
>>> "{}, {} and {}".format("first", "second", "third")
'first, second and third'
# 序列替换
>>> "{0}, {1} and {2}".format("first", "second", "third")
>>> 'first, second and third'
>>> "{3} {0} {2} {1} {3} {0}".format("be", "not", "or", "to")
'to be or not to be'
# 命名字段替换
>>> from math import pi
>>> "{name} is approximately {value:.2f}.".format(value=pi, name="π")
'π is approximately 3.14.'
如果变量与替换字段同名,还可使用一种简写,需要注意这个字符串是以f开头的。
>>> name = 'Tom'
>>> f'Hello,world!My name is {name}.'
'Hello,world!My name is Tom.'
3.3 设置字符串的格式:完整版
字符串格式替换会用花括号,如果最终结果中想要现实花括号,可使用两个花括号,即:{{}}
。替换过程中,以下部分都是可选的。
- 字段名:索引或标识符。
- 转换标志:跟在叹号后面的单个字符。当前支持的字符包括r(表示repr)、s(表示str)和a(表示ascii)。
- 格式说明符:跟在冒号后面的表达式,包括格式类型(如字符串、浮点数或十六进制数),字段宽度和数的精度,如何显示符号和千位分隔符,以及各种对齐和填充方式。
3.3.1 替换字段名
只需要向format提供其格式的未命名参数即可,可以指定参数名,也可以指定索引位置。
>>> "{foo} {1} {bar} {0}".format(1, 2, bar=4, foo=3)
'3 2 4 1'
可使用索引,还可使用句点表示法来访问导入的模块中的方法、属性、变量和函数。
>>> fullname = ["Alfred", "Smoketoomuch"]
>>> "Mr {name[1]}".format(name=fullname)
'Mr Smoketoomuch'
>>> import math
>>> tmpl = "The {mod.__name__} module defines the value {mod.pi} for π"
>>> tmpl.format(mod=math)
'The math module defines the value 3.141592653589793 for π'
3.3.2 基本转换
print("{pi!s},{pi!r},{pi!a}".format(pi='π'))
π,'π','\u03c0'
print("number is {num:.2f}".format(num = 32))
number is 32.00
上述三个标志(s、r和a)指定分别使用str、repr和ascii进行转换。
你还可指定要转换的值是哪种类型,具体清单见下表
类型 | 含义 |
---|---|
b | 将整数表示为二进制数 |
c | 将整数解读为Unicode码点 |
d | 将整数视为十进制数进行处理,这是整数默认使用的说明符 |
e | 使用科学表示法来表示小数(用e来表示指数) |
E | 与e相同,但使用E来表示指数 |
f | 将小数表示为定点数 |
F | 与f相同,但对于特殊值(nan和inf),使用大写表示 |
g | 自动在定点表示法和科学表示法之间做出选择。这是默认用于小数的说明符,但在默认情况下至少有1位小数 |
G | 与g相同,但使用大写来表示指数和特殊值 |
n | 与g相同,但插入随区域而异的数字分隔符 |
o | 将整数表示为八进制数 |
s | 保持字符串的格式不变,这是默认用于字符串的说明符 |
x | 将整数表示为十六进制数并使用小写字母 |
X | 与x相同,但使用大写字母 |
% | 将数表示为百分比值(乘以100,按说明符f设置格式,再在后面加上%) |
3.3.3 宽度、精度和千位分隔符
设置浮点数的格式时,默认在小数点后面显示6位小数。
宽度使用整数指定,精度的指定也是整数,但是需要在前面加上小数点。对于其他类型也可以指定,但是不常见。
可使用逗号来指出你要添加千位分隔符,这个逗号应放在宽度和表示精度的句点之间。
>>> from math import pi
>>> f"{pi:10.2f}"
' 3.14'
>>> "{:.5}".format("helloworld")
'hello'
>>> '{:28,.3f}'.format(10**10)
' 10,000,000,000.000'
3.3.4 符号、对齐和用0填充
在指定宽度和精度的数前面,可添加一个标志。
零表示使用0来填充数字。
>>> '{:010.2f}'.format(pi)
'0000003.14'
要指定左对齐、右对齐和居中,可分别使用<、>和^。
>>> print('{0:<10.2f}\n{0:^10.2f}\n{0:>10.2f}'.format(pi))
3.14
3.14
3.14
可以使用填充字符来扩充对齐说明符,这样将使用指定的字符而不是默认的空格来填充。填充字符必须是在有扩充对齐说明符的时候才可用。=
说明符将填充字符放在符号和数字之间。
>>> "{:$^15}".format(" WIN BIG ")
'$$$ WIN BIG $$$'
>>> print('{:10.2f}\n{:*=10.2f}'.format(pi,-pi))
3.14
-*****3.14
如果要给正数加上符号,可使用说明符+
(默认为-
)。如果将符号说明符指定为空格,会在正数前面加上空格而不是+。
>>> print('{:-.2}\n{:-.2}'.format(pi,-pi))
3.1
-3.1
>>> print('{:+.2}\n{:+.2}'.format(pi,-pi))
+3.1
-3.1
>>> print('{: .2}\n{: .2}'.format(pi,-pi))
3.1
-3.1
#
选项,可将其放在符号说明符和宽度之间。这个选项将触发另一种转换方式,转换细节随类型而异。例如,对于二进制、八进制和十六进制转换,将加上一个前缀。对于各种十进制数,它要求必须包含小数点。
>>> '{:b}'.format(42)
'101010'
>>> '{:#b}'.format(42)
'0b101010'
>>> '{:g}'.format(42)
'42'
>>> '{:#g}'.format(42)
'42.0000'
3.4 字符串方法
3.4.1 center
方法center通过在两边添加填充字符(默认为空格)让字符串居中。
>>> "The Middle by Jimmy Eat World".center(39)
' The Middle by Jimmy Eat World '
>>> "The Middle by Jimmy Eat World".center(39, "*")
'*****The Middle by Jimmy Eat World*****'
3.4.2 find
方法find在字符串中查找子串。如果找到,就返回子串的第一个字符的索引,否则返回-1。参数中可以添加起点和终点。
>>> language = 'Java Python C++ Ruby'
>>> language.find('Python')
5
>>> language.find('c')
-1
>>> language.find('Python', 6)
21
>>> language.find('Python', 6, 21)
-1
3.4.3 join
join与split相反,用于合并序列的元素。
>>> seq = [1, 2, 3, 4, 5]
>>> sep = '+'
>>> sep.join(seq)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: sequence item 0: expected str instance, int found
>>> seq = ['1', '2', '3', '4', '5']
>>> sep.join(seq)
'1+2+3+4+5'
3.4.4 lower
方法lower返回字符串的小写版本。
>>> 'Trondheim Hammer Dance'.lower() 'trondheim hammer dance'
3.4.5 replace
方法replace将指定子串都替换为另一个字符串,并返回替换后的结果。
>>> 'This is a test'.replace('is', 'eez')
'Theez eez a test'
3.4.6 split
split用于将字符串拆分为序列。
>>> '1+2+3+4+5'.split('+')
['1', '2', '3', '4', '5']
>>> 'Using the default'.split()
['Using', 'the', 'default']
3.4.7 strip
方法strip将字符串开头和末尾的空白(但不包括中间的空白)删除,并返回删除后的结果。可以在一个字符串参数中指定要删除哪些字符。
>>> ' internal whitespace is kept '.strip()
'internal whitespace is kept'
>>> '*** SPAM * for * everyone!!! ***'.strip(' *!')
'SPAM * for * everyone'
3.4.8 translate
方法translate与replace一样替换字符串的特定部分,但不同的是它只能进行单字符替换。
这个方法的优势在于能够同时替换多个字符,因此效率比replace高。
使用translate前必须创建一个转换表。可对字符串类型str调用方法maketrans,调用方法maketrans时,还可提供可选的第三个参数,指定要将哪些字母删除。
>>> table = str.maketrans('ab', 'cd', 'ef')
>>> table
{97: 99, 98: 100, 101: None, 102: None}
>>> 'aaabbbcccdddeeefff'.translate(table)
'cccdddcccddd'
3.4.9 判断字符串是否满足特定的条件
很多字符串方法都以is打头,如isspace、isdigit和isupper,它们判断字符串是否具有特定的性质(如包含的字符全为空白、数字或大写)。如果字符串具备特定的性质,这些方法就返回True,否则返回False。