我正在爲我參加的大學課程做一個項目。使用PHP進行文本挖掘
我使用PHP構建一個簡單的Web應用程序,鳴叫分類基於一組詞典「陽性」(或快樂)和「負」(或悲傷)。我現在想到的算法是樸素貝葉斯分類器或決策樹。
但是,我找不到任何PHP庫,可以幫助我做一些嚴肅的語言處理。 Python有NLTK(http://www.nltk.org)。有什麼類似的PHP?
我打算使用WEKA作爲Web應用的後端(在從PHP中從命令行調用Weka的),但它不似乎效率不。
你知道我應該用這個項目嗎?或者我應該切換到Python?
感謝
樸素貝葉斯分類器是不是真的很難,如果你理解了基本原理自己編寫。你實際上可以用PHP這樣做所有的事情。 聖哈辛托已經涵蓋了我對NLP部分所說的一切。 我可以告訴你的另外一件事情,就是我幾周前做過的一個類似的項目,那就是使用標準的文字袋方法進行情感分類並不能很好地工作。儘管我沒有嘗試任何類似n-gram的東西,但我確實有這種感覺,他們會表現得更好,但當然這會讓你有更多的尺寸... – 2010-05-07 07:33:48
沒有任何跡象表明你帖子或你鏈接到的那個爲什麼這是一個合適的解決方案。 – 2010-05-06 23:38:13
PEAR的Text_LanguageDetect可以從文本樣本中識別52種人類語言,併爲每個語言返回置信度分數。這不是一個有趣的選擇嗎? – nuqqsa 2010-05-07 16:28:59