關鍵詞識別 - 可能嗎？

我有一個系統，提供用戶搜索任何他想要的，並從不同的地方抓到內容到一個頁面。關鍵詞識別 - 可能嗎？

我通過關鍵字/標籤或幾個關鍵字來限制搜索結果，所以用戶不會得到他從未要求的垃圾。我始終堅持主要的市場/標籤主題（關鍵字），不讓搜索出錯。

一開始一切都很好，但是當我深入開發這個系統時，我開始明白我無法預測或過濾將要檢索的內容。

系統是自動的，當你搜索「克里斯蒂亞諾羅納爾多」我想要他的照片，視頻，twits，新聞和其他東西。當我構建出所有這些頁面時，爲了增強我的搜索引擎優化，我使用內容中最重複的單詞來提供更多內容，如「查看更多」鏈接或基於1個用戶搜索生成更多頁面。

我遇到了一個問題，當自動內容爬蟲開始帶來廢話內容時。我搜索「virgin atlantic」，它給我帶來了我想要的航空公司信息，它使用了我進一步查看的信息中的部分內容和關鍵字，並且它給我帶來了弗吉尼亞，這是相關的，但不是什麼我想要。然後，它帶來東/西，然後美國，然後它在一個錯誤的方向越來越深。

這是一個簡短的。我真正的問題......是否有任何算法，理論或其他內容需要閱讀，並且有可能將內容/關鍵字的主題/方向/含義/相關性識別爲我手動設置的主題。所以如果我說 - >只去看運動相關的內容，它不會給我帶來有關羅納爾多新女友的消息，但他的統計數據，職業數據和類似的事情。

我不介意讓一個人手動過濾內容並告訴AI： ACCEPT/DECLINE，這樣它就會知道要帶什麼和不根據請求的主題/模式。

神經網絡，任何其他A.I.算法來識別內容？

來源

2012-10-24 deb0rian

這是一個非常寬泛的問題，有多種方法來解決這個問題。嘗試查找「Google語義搜索」並查看它是如何工作的。 – NotAUser

至少在哪裏有關？ A.I？數據挖掘？還有別的嗎？ :) – deb0rian

呃...非常普遍。這個微不足道的解決方案，當你搜索C.羅納爾多時，你會添加一個關鍵字「運動」，使結果偏向更多。問題是，運動可能不是合適的詞，也許在你得到足球或其他東西的頁面上。你真正想要做的是對結果進行聚類。基於距離的一些明確定義（即文檔中單詞的函數），將相似的文檔保存在一起。這絕對是人工智能，可以說是數據挖掘，但我想這裏的標籤並不相關。 – NotAUser

簡短的回答：看看隱馬爾可夫模型和貝葉斯網和語義網的研究。可以填寫整個圖書館關於這個主題的研究。

龍回答：

與AI的問題通常是這些類型的問題是非常，非常辛苦。是的，有很多理論。但是實施這些理論是另一回事。我見過很多公司製造某種引擎，他們引以爲豪。但是，他們通常是以工具爲中心的，忘記他們真正想要解決的問題。這就是我稱爲AI-blackbox-problem的問題。你有一個算法，比如隱馬爾可夫模型，神經網絡，貝葉斯網絡，卡爾曼濾波器，支持向量機等等。然後你向他們扔了一堆數據，然後他們就可以得到一堆參數化模型。但通常不可能追蹤內部狀態。

所以，如果你想解決語義網絡問題，你已經選擇了一個最難的問題。如何告訴計算機你在找什麼？ Google使用鏈接結構來檢索信息。然後是語義網支持者，它說內容提供者應該添加一堆元數據。我認爲這種方法很大程度上失敗了。總有新創業公司試圖在這個領域做新事物。 Palantir也許是這些數據挖掘公司中的一員。

因此，我建議先從學習玩具問題的基本知識入手，拿起一本教科書，比如羅素/諾維格，去上課，你現在可以在網上做http://www.udacity.com/overview/Course/cs373/CourseRev/apr2012，然後從那裏開始。玩弄難題無可厚非，但很容易讓人沮喪。知道你的問題在有限的時間和資源中是可以解決的。（說自己已經在一個幾乎不可能的問題上工作了5年）。

來源

2012-10-26 13:04:53 RParadox

嘿，非常感謝您的答案。這正是我尋找的答案。我知道它有多困難，而且我已經熟悉了一些A.I的基礎知識，是的，我已經參加了一些在線課程，並觀看了斯坦福大學和麻省理工學院的離線課程。 :)我在這個領域缺乏知識不會阻止項目啓動並做它現在可以做的事情，我只會平行地學習這個主題，有一天，誰知道，我可能會成功一點點地理解什麼我收到的內容類型，並決定是保留還是忽略。謝謝！好樣的！ :) – deb0rian

HMM如何處理這些任務？在ML社區中，HMM是時態模型。在這種情況下，哪裏時間？ – ziggystar

關鍵詞識別 - 可能嗎？

回答

相關問題