2012-10-24 67 views
0

我有一個系統,提供用戶搜索任何他想要的,並從不同的地方抓到內容到一個頁面。關鍵詞識別 - 可能嗎?

我通過關鍵字/標籤或幾個關鍵字來限制搜索結果,所以用戶不會得到他從未要求的垃圾。 我始終堅持主要的市場/標籤主題(關鍵字),不讓搜索出錯。

一開始一切都很好,但是當我深入開發這個系統時,我開始明白我無法預測或過濾將要檢索的內容。

系統是自動的,當你搜索「克里斯蒂亞諾羅納爾多」我想要他的照片,視頻,twits,新聞和其他東西。 當我構建出所有這些頁面時,爲了增強我的搜索引擎優化,我使用內容中最重複的單詞來提供更多內容,如「查看更多」鏈接或基於1個用戶搜索生成更多頁面。

我遇到了一個問題,當自動內容爬蟲開始帶來廢話內容時。 我搜索「virgin atlantic」,它給我帶來了我想要的航空公司信息,它使用了我進一步查看的信息中的部分內容和關鍵字,並且它給我帶來了弗吉尼亞,這是相關的,但不是什麼我想要。然後,它帶來東/西,然後美國,然後它在一個錯誤的方向越來越深。

這是一個簡短的。我真正的問題......是否有任何算法,理論或其他內容需要閱讀,並且有可能將內容/關鍵字的主題/方向/含義/相關性識別爲我手動設置的主題。所以如果我說 - >只去看運動相關的內容,它不會給我帶來有關羅納爾多新女友的消息,但他的統計數據,職業數據和類似的事情。

我不介意讓一個人手動過濾內容並告訴AI: ACCEPT/DECLINE,這樣它就會知道要帶什麼和不根據請求的主題/模式。

神經網絡,任何其他A.I.算法來識別內容?

+0

這是一個非常寬泛的問題,有多種方法來解決這個問題。嘗試查找「Google語義搜索」並查看它是如何工作的。 – NotAUser

+0

至少在哪裏有關? A.I?數據挖掘?還有別的嗎? :) – deb0rian

+2

呃...非常普遍。這個微不足道的解決方案,當你搜索C.羅納爾多時,你會添加一個關鍵字「運動」,使結果偏向更多。問題是,運動可能不是合適的詞,也許在你得到足球或其他東西的頁面上。你真正想要做的是對結果進行聚類。基於距離的一些明確定義(即文檔中單詞的函數),將相似的文檔保存在一起。 這絕對是人工智能,可以說是數據挖掘,但我想這裏的標籤並不相關。 – NotAUser

回答

2

簡短的回答:看看隱馬爾可夫模型和貝葉斯網和語義網的研究。可以填寫整個圖書館關於這個主題的研究。

龍回答

與AI的問題通常是這些類型的問題是非常,非常辛苦。是的,有很多理論。但是實施這些理論是另一回事。我見過很多公司製造某種引擎,他們引以爲豪。但是,他們通常是以工具爲中心的,忘記他們真正想要解決的問題。這就是我稱爲AI-blackbox-problem的問題。你有一個算法,比如隱馬爾可夫模型,神經網絡,貝葉斯網絡,卡爾曼濾波器,支持向量機等等。然後你向他們扔了一堆數據,然後他們就可以得到一堆參數化模型。但通常不可能追蹤內部狀態。

所以,如果你想解決語義網絡問題,你已經選擇了一個最難的問題。如何告訴計算機你在找什麼? Google使用鏈接結構來檢索信息。然後是語義網支持者,它說內容提供者應該添加一堆元數據。我認爲這種方法很大程度上失敗了。總有新創業公司試圖在這個領域做新事物。 Palantir也許是這些數據挖掘公司中的一員。

因此,我建議先從學習玩具問題的基本知識入手,拿起一本教科書,比如羅素/諾維格,去上課,你現在可以在網上做http://www.udacity.com/overview/Course/cs373/CourseRev/apr2012,然後從那裏開始。玩弄難題無可厚非,但很容易讓人沮喪。知道你的問題在有限的時間和資源中是可以解決的。 (說自己已經在一個幾乎不可能的問題上工作了5年)。

+1

嘿,非常感謝您的答案。這正是我尋找的答案。我知道它有多困難,而且我已經熟悉了一些A.I的基礎知識,是的,我已經參加了一些在線課程,並觀看了斯坦福大學和麻省理工學院的離線課程。 :)我在這個領域缺乏知識不會阻止項目啓動並做它現在可以做的事情,我只會平行地學習這個主題,有一天,誰知道,我可能會成功一點點地理解什麼我收到的內容類型,並決定是保留還是忽略。謝謝!好樣的! :) – deb0rian

+0

HMM如何處理這些任務?在ML社區中,HMM是時態模型。在這種情況下,哪裏時間? – ziggystar