2009-09-13 112 views
1

有一部電影我不記得的名字。這是關於一個狂歡或遊樂園與一個恐怖的房子和一羣青少年被一個小丑面具一個一個地謀殺。我在20年前看過這部電影,它是續集,但不能完全記住它。 (也忘了它的標題。)結果,我開始想知道如何解決技術問題。通過描述搜索

假設我有一個數據庫,其中包含發佈的每部電影的故事情節和其他數據。 (類似於IMDb)。我將擁有一個編輯字段,用戶可以用純文本輸入描述。系統然後將開始分析這個文本以找到符合這個描述的電影。例如(不同的電影),我在編輯字段中輸入:「一些關於埃及國王在馬背上攻擊一羣印第安人的電影,但他受了重傷,而他的馬在他失敗的戰鬥中死亡。」 然後系統應該從2004年開始報告電影「亞歷山大」作爲答案,但可能還有更多。 (即使允許在描述中出現一些錯誤)。

要創建這樣一個系統,其中通過搜索描述來分析描述以找到匹配的記錄,我需要哪些技術來實現像這樣複雜的事情?並不是說我現在想要創建類似的東西,但是如果我想要挑選一些有趣的新項目,那更多是出於好奇。

(我想獎勵加分對於那些誰認識我在開頭提到的電影,但一個谷歌,嘗試後,我找到了我自己!)

順便說一句,這不是搜索引擎本身對我感興趣,但分析描述以獲得搜索引擎將理解的內容!有了這部電影的例子,人類的邏輯幫助我找到了標題。 (令人討厭的是,這部電影不在荷蘭出售。)人類邏輯永遠是一個需求,但它是關於分析用戶輸入,這是以故事或描述的形式出現的,可能有錯誤。

+0

啊!這部電影被稱爲「The Funhouse」。 :-)我認爲它沒有續集。我想他們只是重複了幾次電影。哇,它是從1981年開始的。 – 2009-09-13 20:15:20

+0

那麼,你開始這一切只是爲了認可這部電影的額外積分? ;-) – 2009-09-13 20:18:23

+0

:-)不是。根據我自己的描述,我只能忍不住Google。結束於http://www.popsyndicate.com/site/story/theme_park_terror/ – 2009-09-13 20:20:05

回答

1

你應該看看document classification.

幾個文檔分類技術

+0

啊!如果我把這個項目做成一個新項目,那肯定是一個雄心勃勃的計劃。 :-) – 2009-09-13 20:41:25

+1

是的,但它是一個迷人的話題;-) – 2009-09-13 20:46:06

1

對於我自己的意見,我可以告訴你,谷歌是使用的技術。 ;-)但是,說實話,我認爲或多或少的搜索引擎會做。

編輯:嘿,您刪除您的評論,但我記得你提到谷歌成爲一個值得加分

編輯+:好吧,您再次提到谷歌,但我不想刪除我的第一次編輯。 ;-)

+0

是的。在問Q.谷歌Google搜索「恐怖電影小丑遊樂園」後,我發現它在幾分鐘之內,並找到了幾個相關電影的鏈接。但是如果你想自己做點什麼呢?哪裏有優秀搜索引擎的力量? – 2009-09-13 20:22:38

+0

是的,刪除了第二個評論,因爲它是不正確的。我認爲有一部電影類似於80年代的Funhouse,但並非如此。所以,對於那些知道我的意思是哪部電影的人來說,加分。 :-) – 2009-09-13 20:28:31

+0

嗯,在這個領域,我沒有真正做好準備去做任何事情,除了沒有研究的無聊的答案。至於一個好的搜索引擎的力量 - 看着前進的一步 - 兩個步驟後退所有SE正在做的立場,我敢於懷疑一個好的搜索引擎的力量存儲在知名的地方;) – 2009-09-13 20:43:34

1

純粹的猜測:會不會有一些微不足道的東西,比如在描述「埃及,印度,馬戰等等」並對這些總結工作的數據庫進行模糊匹配?也許有一些正常化,例如。國王==領導==皇帝?

嗯......年輕男人,女朋友,游泳池,媽媽,婚禮是否讓我們到研究生?那麼我猜想它可能會帶有少量的「羅賓遜」細節。

+1

也許。但是如果描述中提到「沒有母親」這樣的話呢?然後它會和母親一起搜索電影。 :-)至少需要一些分析。 – 2009-09-13 20:34:25

+1

啊,是的,爲了簡單起見。如果我們不區分「母親」和「沒有母親」,我們會發現多少影片會被誤認爲是有趣的。你可以通過減少它們以識別音樂來「增加同樣的音量」 - 參見http://knowbodies.blogspot.com/2008/03/identifying-tune.html - 我想知道如何有效的識別電影識別可能是把這種看似關鍵的修飾語排除在外的是「不」 - 用音樂看來,半音和八度之間的區別並不重要! – djna 2009-09-13 21:06:23

1

你可以做很多有趣的東西與IMDB關鍵字搜索:

http://akas.imdb.com/keyword/carnival/clown/murder/

您可以指定多個關鍵字,它會建議電影和更多關鍵字與給定關鍵字處於相似的上下文中。

imdb中包含的數據公開可用於非商業用途,可以是downloaded作爲文本文件。你可以從它建立一個數據庫。

+0

是的,但問題不在於構建數據庫,而在於如何將描述轉換爲可用於搜索的內容。 (我手動做了一些事情來再次記住電影。) – 2009-09-13 22:43:06