我正在嘗試檢測可能由未知數量的語言組成的文本的語言。下面的代碼給了我不同的語言爲答案 注:我減少了審查,原因是其在後期過程中給予的錯誤「」不準Python中的文本語言檢測
print(detect(كانت جميله وممتعة للأطفال اولا حيث اماكن اللعبر))
print(detect(的馬來西亞))
print(detect(Vi havde 2 perfekte dage i Legoland Malaysia))
print(detect(Wij hebben alleen gekozen voor het waterpark maar daar ben je vrijs snel doorheen. Super leuke glijbanen en overal ruimte om te zitten en te liggen. Misschien volgende keer een gecombineerd ticket kopen met ook toegang tot waterpark))
print(detect(This is a park thats just ok, nothing great to write home about. There is barely any shade, the weather is always really hot so they need to take this into consideration. The atractions are just meh. I would only go if you are a fan of lego, for the sculptures are nice.))
這裏是輸出
ar
zh-cn
da
nl
en
但使用以下循環,所有評論給我'恩'作爲結果
from langdetect import detect
import pandas as pd
df = pd.read_excel('data.xls') #
lang = []
for r in df.Review:
lang = detect(r)
df['Languagereveiw'] = lang
輸出是所有五行的'en'。
需要指導,哪裏是缺失鏈?
這裏是樣品data
其次,我怎樣才能獲得語言的完整名稱,即英語「恩」
您通過這樣做覆蓋整個列:'df ['Languagereveiw'] = lang'您可以擺脫那個循環並且只是做'df ['Languagereveiw'] = df ['Review']。apply(detect)' – EdChum
爲什麼不投票:(( – Abrar
@EdChum你可以把這個解決方案放在答案中? 它的工作 – Abrar