如何搜索紐約市內的餐館？

-6

我有一個網絡爬蟲和整個網絡爬行。我的策略是什麼？我應該使用什麼樣的分類算法？如何搜索紐約市內的餐館？

我說我有一個網絡爬蟲，我din手段抓取網絡。

2013-01-16 Peter

嗯...手動填寫數據？ –

最便宜和最好的會購買餐廳指南（不要開玩笑！）但是，您可能會遇到與版權有關的問題。所以也要考慮一下是否是提供這些數據的權威。 – AlexWien

好的，那麼你爲什麼要求人們使用谷歌？而是購買相關文本，而不是搜索谷歌。我的問題是我有一個網絡爬蟲，如何使用該爬蟲爲我分類相關文本，只是打開我正在尋找的想法 – Peter

您可以嘗試對您抓取的每個網頁進行分類並確定它是否爲餐廳（二元分類器），並使用supervised learning。

可以使用Bag of Words model它 - 這意味着，使用的話爲「特徵」和它們的存在（occurances的數目）確定特徵的值。

您還需要先手動標記一組頁面，並確定它們是否爲餐廳頁面。您生成的數據稱爲訓練集。

請注意，單詞模型袋往往有一個巨大的特徵空間 - 所以你將需要一個對非信息特徵不敏感的分類器。

您可以稍後使用cross-validation來估計您的模型有多好。

這裏有一些建議用字模型的袋子分類數據時，我發現有用：

2013-01-16 21:26:46 amit

回答