我是NLP領域的新成員,但是我目前的研究需要從URL地址(例如,URL)中進行一些文本解析(或稱爲關鍵字提取)。假網址,NLP中的英文分詞?
http://ads.goole.com/appid/heads
兩個約束都放在我的分析,
第一個「廣告」和最後一個「頭」應該是不同的,因爲「廣告」中的「頭」是指多後綴而不是廣告。
「appid」可以分解爲兩部分;即'app'和'id',它們都在互聯網中具有語義意義。
我試過Stanford NLP工具包和Google搜索引擎。前者試圖按照我所期望的語法來分類每個單詞。谷歌引擎顯示更多關於「appid」的智能,它給了我關於「app id」的建議。
我無法查看Google搜索中的搜索歷史記錄引用,因此它給了我「app id」,因爲有很多人搜索過這些單詞。我可以得到一些離線行方法來執行類似的解析嗎?
更新:請跳過正則表達式建議,因爲在甚至簡單的URL中,可能存在未知數量的單詞組合,如「appid」。
感謝,
賈敏
我已經完成了教程,發現給定的語料庫(來自書籍文本)與Internet網址(例如appid)無法正常工作。但這是一個很好的起點。所以我會搜索其他免費的語料庫以外的非免費的谷歌 - 2006年的數據。謝謝。 – caesar0301