2015-06-30 82 views
0

如果有以下的html:的Python // // BS4標籤

</br></td>, <td class="first">TEXT_1a<br>TEXT_1b 
          </br></td>, <td class="first">TEXT_2a<br>TEXT_2b 
          </br></td>, <td class="first">TEXT_3a<br>TEXT_3b 
          </br></td>, <td class="first">TEXT_4a<br>TEXT_4b 
          </br></td>, <td class="first">TEXT_5a<br>TEXT_5b 
          </br></td>, <td class="first">TEXT_6a<br>TEXT_6b 

我用

[i.text.strip() for i in soup.select('td.first')] 

Hoever,然後我得到了

['TEXT_1aTEXT_1b', 'TEXT_2aTEXT_2b', 'TEXT_3aTEXT_3b', 'TEXT_4aTEXT_4b', 'TEXT_5aTEXT_5b', 'TEXT_6aTEXT_6b'] 

如何刪除TEXT_1b, TEXT_2b ... TEXT_nb。此外,我想不會有一個數組,但N1 = TEXT_1a,N2 = TEXT_2a ... NN = TEXT_na

回答

0

我認爲你可以使用:

[i.contents[0].strip() for i in soup.select('td.first')] 

關於你問題的第二部分 - 你想要在單個變量中有字段?你可以做到,但這可能不是一個好主意。這有什麼原因嗎?

要麼,你就知道他們中有多少有,在這種情況下,你可以這樣做:

n1, n2, n3, ...nN = [i.contents[0].strip() for i in soup.select('td.first')] 

或者你不這樣做,在這種情況下,一個數組(列表,在python)真的是唯一的有道理的事情。

+0

工作正常。你是對的。陣列是要走的路,也僅僅是由於計算原因。然而,我將「單元格」從數組中拉出來以便將其寫入excel。再次感謝! –