任务
获取字符串的某个部分。
解决方案
切片是个好方法,但是它一次只能取得一个字段;如果还考虑字段的长度,struct.unpack可能更适合。
import structdef fields(baseformat, theline, lastfield=False):# theline超出的长度也由这个base-format确定# (通过struct.calcsize计算确切的长度)numremain = len(theline) - struct.calcsize(baseformat)# 用合适的s或x字段完成格式,然后unpackformat = "%s %d%s" % (baseformat, numremain, lastfield and "s" or "x")return struct.unpack(format, theline)
#test>>> theline = "numremain = len(theline) - struct.calcsize(baseformat)"
>>> numremain = len(theline) - struct.calcsize(baseformat)
>>> format = "%s %ds" % (baseformat,numremain)
>>> format
'5s 3x 8s 8s 30s'
>>> l,s1,s2,t = struct.unpack(format,theline)
>>> l
'numre'
>>> s1
'n = len('
>>> s2
'theline)'
>>> t
' - struct.calcsize(baseformat)'
如果获取固定字长的数据,可以利用带列表推导(LC)的切片方法
pieces = [theline[k:k+n] for k in xrange(0,len(theline),n)]
如果想把数据切成指定长度的列 用带LC的切片方法比较容易实现
cuts = [8,14,20,26,30]
pieces = [ theline[i,j] for i j in zip([0]+cuts,cuts+[None])]
PS:
将以上代码片段封装成函数
def fields(baseformat,theline,lastfield=False):#theline 超出的长度也有这个base-format 确定#(通过 struct.calcsize计算切片的长度)numremain = len(theline)-struct.calcsize(baseformat)#用合适的s或者x字段完成格式 然后unpackformat = "%s %d %s" % (baseformat,numre
下边这个是使用memoizing机制的版本
def fields(baseformat,theline,lastfield=False,_cache={ }):#生成键并尝试获得缓存的格式字符串key = baseformat,len(theline),lastfieldformat _cache.get(key)if format is None: #m没有缓存的格式字符串 创建并缓存numremain = len(theline) - struct.calcsize(baseformat)_cache[key] = format = "%s %d%s" % (baseformat,numremain,lastfield and "s" or "x")return struct.unpack(format,theline)
cookbook上说的这个比优化之前的版本快30%到40% 不过如果这里不是瓶颈部分,没必要使用这种方法
使用LC切片函数
def split_by(theline,n,lastfield=False):#切割所有需要的片段pieces = [theline[k:k+n] for k in xrange(0,len(theline),n)]#弱最后一段太短或不需要,丢弃if not lastfield and len(pieces[-1] < n):pieces.pop()return pieces
def split_at(theline,cuts,lastfield=False):#切割所有需要的片段pieces = [ theline[i,j] for i j in zip([0]+cuts,cuts+[None])]#若不需要最后一段 丢弃if not lastfield:pieces.pop()return pieces
使用生成器的版本
def split_at(the_line,cuts,lastfield=False):last = 0for cut in cuts:yield the_line[last:cut]last = cutif lastfield:yield the_line[last:]
def split_by(the_line,n,lastfield=False):return split_at1(the_line,xrange(n,len(the_line),n),lastfield)
字符串介绍
1. 字符串定义
使用单引号 ’ 你可以用单引号指示字符串,就如同’这是一句话’这样。
str = '这是一句话'
print( str )
使用双引号 " 在双引号中的字符串与单引号中的字符串的使用完全相同,例如"What’s your name?"。
str = "What's your name?"
print( str )
使用三引号(‘’'或"“”) 利用三引号,你可以指示一个多行的字符串。你可以在三引号中自由的使用单引号和双引号。
str ='''
这是一个多行文本. 这是第一行.这是第二行.
'''
print(str)
转义符 假设你想要在一个字符串中包含一个单引号('),那么你该怎么指示这个字符串?
例如,这个字符串是What’s your name?。
你肯定不会用’What’s your name?'来指示它,因为Python会弄不明白这个字符串从何处开始,何处结束。所以,你需要指明单引号而不是字符串的结尾。可以通过 转义符 来完成这个任务。
你用’来指示单引号——注意这个反斜杠。现在你可以把字符串表示为’What’s your name?'。
另一个表示这个特别的字符串的方法是"What’s your name?",即用双引号
str1 = 'What\'s your name?'
str2 = "What's your name?"
print(str1)
print(str2)
2. 索引(即下标)
s = 'ABCDEFGHIJKLMN'
s1 = s[0]
print('s[0] = ' + s1) #s[0] = A
print('s[3] = '+ s[3]) #s[3] = D
print('倒数第三个数为:' + s[-3]) #倒数第三个数为:L
print('最后一个数为:' + s[-1]) #最后一个数为:N
3. 切片:顾头不顾尾(截取一部分字符串)
s = 'ABCDEFGHIJKLMN'
s2 = s[0:3]
print('s[0:3] = ' + s2)
#s[0:3] = ABC
print('整个字符串如下:' + s[:])
#整个字符串如下:ABCDEFGHIJKLMN
print('整个字符串如下:' + s[0:])
#整个字符串如下:ABCDEFGHIJKLMN
print('前两个字符:' + s[:2]) #前两个字符:AB
4. 跳取 s[首:尾:步长]
s3 = 'ABCDEFGHIJKLMN'
print(s3[0:6:2]) #ACE
print(s3[::2]) #ACEGIKM
print(s3[4:0:-1]) #倒着取:EDCB
print(s3[3::-1]) #DCBA
print(s3[-1::-1]) #NMLKJIHGFEDCBA
5. 字符串的操作
1)首字母大写
s = 'alexWUsir'
s4_1 = s.capitalize() #首字母大写
print(s4_1) #Alexwusir
2)全部大写
s = 'alexWUsir'
s4_2 = s.upper() #全部大写
print(s4_2) #ALEXWUSIR
3)全部小写
s = 'alexWUsir'
s4_3 = s.lower() #全部小写
print(s4_3) #alexwusir
4)大小写互换
s = 'alexWUsir'
s4_4 = s.swapcase() #大小写互换
print(s4_4) #ALEXwuSIR