2013-01-16 68 views
-6

我有一個網絡爬蟲和整個網絡爬行。 我的策略是什麼?我應該使用什麼樣的分類算法?如何搜索紐約市內的餐館?

我說我有一個網絡爬蟲,我din手段抓取網絡。

+0

嗯...手動填寫數據? –

+0

最便宜和最好的會購買餐廳指南(不要開玩笑!)但是,您可能會遇到與版權有關的問題。所以也要考慮一下是否是提供這些數據的權威。 – AlexWien

+0

好的,那麼你爲什麼要求人們使用谷歌?而是購買相關文本,而不是搜索谷歌。我的問題是我有一個網絡爬蟲,如何使用該爬蟲爲我分類相關文本,只是打開我正在尋找的想法 – Peter

回答

2

您可以嘗試對您抓取的每個網頁進行分類並確定它是否爲餐廳(二元分類器),並使用supervised learning

可以使用Bag of Words model它 - 這意味着,使用的話爲「特徵」和它們的存在(occurances的數目)確定特徵的值。

您還需要先手動標記一組頁面,並確定它們是否爲餐廳頁面。您生成的數據稱爲訓練集

請注意,單詞模型袋往往有一個巨大的特徵空間 - 所以你將需要一個對非信息特徵不敏感的分類器。

您可以稍後使用cross-validation來估計您的模型有多好。

這裏有一些建議用字模型的袋子分類數據時,我發現有用:

  • SVM往往是非常有用的,併產生了很好的效果的詞袋模型。我沒有看到線性內核和高斯內核的性能差異。
  • 使用stemming和過濾器stop words - 你不需要它產生的噪音。
  • 使用bi-grams,它們是非常豐富的信息,至少對我來說 - 傾向於顯着增加分類器的準確性。
相關問題