-6
A
回答
2
您可以嘗試對您抓取的每個網頁進行分類並確定它是否爲餐廳(二元分類器),並使用supervised learning。
可以使用Bag of Words model它 - 這意味着,使用的話爲「特徵」和它們的存在(occurances的數目)確定特徵的值。
您還需要先手動標記一組頁面,並確定它們是否爲餐廳頁面。您生成的數據稱爲訓練集。
請注意,單詞模型袋往往有一個巨大的特徵空間 - 所以你將需要一個對非信息特徵不敏感的分類器。
您可以稍後使用cross-validation來估計您的模型有多好。
這裏有一些建議用字模型的袋子分類數據時,我發現有用:
- SVM往往是非常有用的,併產生了很好的效果的詞袋模型。我沒有看到線性內核和高斯內核的性能差異。
- 使用stemming和過濾器stop words - 你不需要它產生的噪音。
- 使用bi-grams,它們是非常豐富的信息,至少對我來說 - 傾向於顯着增加分類器的準確性。
相關問題
- 1. 使用Facebook Graph API獲取紐約市的餐館名單
- 2. 我如何獲得紐約市時間?
- 3. 獲取城市代碼從當前位置如獲得市,紐約州紐約市
- 4. 正在檢索城市信息(酒店,餐館,景點等)
- 5. 搜索使用Google地圖API的餐館
- 6. 的Objective-C:NSLinguisticTagger「紐約」與「紐約」
- 7. 顯示100英里內的餐館
- 8. 這個城市有哪些加油站,餐館等?
- 9. jinja2.exceptions.UndefinedError如何定義「餐館」
- 10. 轉換城市將第一個字母改爲大寫。如果我有紐約,我希望它紐約
- 11. 搜索城市
- 12. 建立出錯紐約市的地圖get_map功能
- 13. 建模和顯示地圖紐約市的:病毒模擬
- 14. 是否可以通過API for iPhone SDK搜索附近的餐館和酒吧?
- 15. 什麼是重寫www.example.com/?city_name="New-York」到/城市/紐約
- 16. Tokenizing的地方像紐約
- 17. 當查詢Google Maps API時,我得到了「紐約,美國」和「紐約,紐約,美國」的相同結果
- 18. Foursquare場館搜索和TOS
- 19. 搜索帶過濾器的餐廳
- 20. 紐約時報文章搜索API不返回某些查詢的結果
- 21. Foursquare的API得到過濾的餐館
- 22. 如何獲得Google地圖對象(咖啡館,餐館)的反饋?
- 23. 如何在openstreetmap中搜索最近的野餐桌和長凳?
- 24. 如何在搜索範圍內搜索?
- 25. 實時搜索城市?
- 26. 紐約州彩票飼料
- 27. 紐約時報API,蟒蛇
- 28. Python JSON紐約時報API
- 29. 紐約時報API JSON
- 30. 設置紐約座標
嗯...手動填寫數據? –
最便宜和最好的會購買餐廳指南(不要開玩笑!)但是,您可能會遇到與版權有關的問題。所以也要考慮一下是否是提供這些數據的權威。 – AlexWien
好的,那麼你爲什麼要求人們使用谷歌?而是購買相關文本,而不是搜索谷歌。我的問題是我有一個網絡爬蟲,如何使用該爬蟲爲我分類相關文本,只是打開我正在尋找的想法 – Peter