2
我想提高我的代碼的性能替代他們,我要來標記一個數據幀的2列,我是有這樣的熊貓適用於2列和一行
submission_df['question1'] = submission_df.apply(lambda row: nltk.word_tokenize(row['question1']), axis=1)
submission_df['question2'] = submission_df.apply(lambda row: nltk.word_tokenize(row['question2']), axis=1)
我也許以爲我可以在一個行,這樣我就只對所有的行(200萬美元)迭代一次將它們合併,所以我想這樣的事情
submission_df['question1'],submission_df['question2'] = submission_df.apply
(lambda row:
(nltk.word_tokenize(row['question1']),
nltk.word_tokenize(row['question2'])), axis=1)
,但沒有工作,也許有其他方法來改善它而不是使用apply方法。
它是否工作嗎? @ set92 – Dark
它給出了一個錯誤:TypeError :('期望的字符串或像字節的對象','發生在索引question1')。我想這是因爲nltk.word_tokenize(文本)需要接收你想要應用標記器的文本。 – set92
@ set92更新我的答案希望它有幫助。 – Dark