2011-07-06 54 views
-2

我對一個項目的任務是數據挖掘一個網站的具體名稱。我對Python的使用經驗並不高。Python/Scrapy問題:如何獲得更清晰的結果?

[u'Bob喬 ']
[u'Tim湯姆']
[u'Anne弗蘭克 ']
[u'superman':當我刮所有的名字,他們以這種格式問世]

如何清理這些值? '你'表示什麼?我的xpath錯了嗎?我是否需要在scrapy管道中清理它(我想避免這種情況)?我只想要名稱而不是附近的垃圾。

回答

1

在Python 2中,'u'前綴表示它是一個Unicode字符串。 [u'Bob Joe']是一個包含一個Unicode字符串的列表。

+0

你能解釋一下如何刪除前綴嗎?所以,如果我輸入 print item.name 它會打印出完整的名稱?我很抱歉,如果這個問題是非常簡單的,但我是新的Python,我受到時間限制,這使我無法充分地花時間學習語言。 – Tom

+0

這是一個列表。嘗試打印列表的第零個元素,即字符串:'print item.name [0]'。 – MRAB

+0

你救了我!謝謝! – Tom