2014-01-06 40 views
1

我想將一個長字符串(比如說500個字符)分成更小的塊(比如說,每個< = 100個字符),但保留整個單詞。也就是說,塊應該儘可能接近100個字符,但不應該截掉整個單詞。我的第一反應是將字符串和循環分成每個單詞,將每個單詞連接到一個緩衝區,直到達到極限,然後重新開始每個單元,但是我認爲必須有更有效的方法。將一個字符串分成塊,保留Python中的整個字符

謝謝!

+0

<= 100或儘可能接近100?哪一個?或兩者? 101是否允許? – Junuxx

+0

不好意思,這是<= 100 – sundance

回答

5

您可以使用textwrap模塊在Python這樣做:

s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu," 

import textwrap 
var = textwrap.wrap(s, 100) 
for line in var: 
    print(len(line)) 

print(var) 

您可以瞭解more about it here

Live Demo

+0

完美,謝謝! – sundance

0

如果沒有額外的進口,嘗試:

s = "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu," 

out = []; leftover = "" 
for i in map(''.join, zip(*[iter(s)]*100)): 
    i = leftover+i 
    toappend, _ , leftover = i.rpartition(" ") 
    if len(toappend) > 100: 
     leftover = toappend[99:] 
     toappend = toappend[:99] 
    out.append(toappend) 

print out 

[出]:

['Lorem存有悲坐阿梅德,consectetuer adipiscing ELIT。 Aenean commodo ligula eget dolor。 Aenean','massa。 Cum sociis natoque penatibus et magnis dis parturient montes,nascetur ridiculus mus。 Donec','quam felis,ultricies nec,pellentesque eu,pretium quis, sem。 Nulla consequat massa quis enim。 Don','ecpede justo,fringilla vel,nec aliquet nec,vulputate eget,arcu。在enim justo,rhoncus ut, imperdiet','a,venenatis vitae,justo。 Nullam dictum felis eu pede mollis pretium。整數tincidunt。 Cras','dapibus。 Vivamus elementum semper nisi。 Aenean vulputate eleifend tellus。 Aenean LEO ligula, portti']

+0

@alvas,我認爲這正是OP想要避免的...... – alvas

1
import textwrap 

long_string = 'Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu,' 
string_list = textwrap.wrap(long_string,100, drop_whitespace = False) 

for line in string_list: 
    print(line) 

print(string_list) 

輸出:

['Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean ', 'massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec ', 'quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. ', 'Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, ', 'imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. ', 'Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, ', 'porttitor eu,'] 

使用drop_whitespace =假保持原有間距

查閱其他選項here

相關問題