2012-06-15 66 views
-4

我試圖從組購買網站來建立一個數據提取算法來構建一個交易的agregator。首先,我需要一個能夠提取標題,價格,折扣,圖像,座標的算法。Naive bayes python-php-javascript-node

我有解決方案的圖像,折扣和座標,但標題和類別識別我需要創建一個樸素貝葉斯算法。什麼是最好的語言來做到這一點:PHP?蟒蛇? JS? Node.js的?

我需要什麼來創建算法?

帶有示例的模型? 等我給100個標題,然後給所有的網站內容從一些網站和腳本可以識別什麼是句子是一個標題?

所以我不需要一個字。我需要一個句子,這句話有時候是<h1> - <h2>,還有其他的。

回答

0

我認真聽不懂多少您的文章,但由於樸素貝葉斯東西在這裏非常普遍要求對SO,我創建了一個簡單的代碼可以在不Python中的任何附加庫(類似NLTK)使用(並也比NLTK訓練快)。你可以找到它here

+0

我upade我的問題.. –

相關問題