我有一個系統,提供用戶搜索任何他想要的,並從不同的地方抓到內容到一個頁面。關鍵詞識別 - 可能嗎?
我通過關鍵字/標籤或幾個關鍵字來限制搜索結果,所以用戶不會得到他從未要求的垃圾。 我始終堅持主要的市場/標籤主題(關鍵字),不讓搜索出錯。
一開始一切都很好,但是當我深入開發這個系統時,我開始明白我無法預測或過濾將要檢索的內容。
系統是自動的,當你搜索「克里斯蒂亞諾羅納爾多」我想要他的照片,視頻,twits,新聞和其他東西。 當我構建出所有這些頁面時,爲了增強我的搜索引擎優化,我使用內容中最重複的單詞來提供更多內容,如「查看更多」鏈接或基於1個用戶搜索生成更多頁面。
我遇到了一個問題,當自動內容爬蟲開始帶來廢話內容時。 我搜索「virgin atlantic」,它給我帶來了我想要的航空公司信息,它使用了我進一步查看的信息中的部分內容和關鍵字,並且它給我帶來了弗吉尼亞,這是相關的,但不是什麼我想要。然後,它帶來東/西,然後美國,然後它在一個錯誤的方向越來越深。
這是一個簡短的。我真正的問題......是否有任何算法,理論或其他內容需要閱讀,並且有可能將內容/關鍵字的主題/方向/含義/相關性識別爲我手動設置的主題。所以如果我說 - >只去看運動相關的內容,它不會給我帶來有關羅納爾多新女友的消息,但他的統計數據,職業數據和類似的事情。
我不介意讓一個人手動過濾內容並告訴AI: ACCEPT/DECLINE,這樣它就會知道要帶什麼和不根據請求的主題/模式。
神經網絡,任何其他A.I.算法來識別內容?
這是一個非常寬泛的問題,有多種方法來解決這個問題。嘗試查找「Google語義搜索」並查看它是如何工作的。 – NotAUser
至少在哪裏有關? A.I?數據挖掘?還有別的嗎? :) – deb0rian
呃...非常普遍。這個微不足道的解決方案,當你搜索C.羅納爾多時,你會添加一個關鍵字「運動」,使結果偏向更多。問題是,運動可能不是合適的詞,也許在你得到足球或其他東西的頁面上。你真正想要做的是對結果進行聚類。基於距離的一些明確定義(即文檔中單詞的函數),將相似的文檔保存在一起。 這絕對是人工智能,可以說是數據挖掘,但我想這裏的標籤並不相關。 – NotAUser