2009-11-20 73 views
1

我的隊友和我有一個非常具有挑戰性的新項目要做,我們應該在下週提交。我們不知道如何做到這一點,並且確實需要幫助。我們是本科生,對信息檢索和人工智能是新手,真的需要你的想法。關於設計的問題

的項目大致是:

當專家是在文檔中引用, 找到一個專家相對 意見&找出他/她說 有關的話題。

我們可以自由使用任何編程語言,但我們不關心編程。我們希望幫助我們開始。請給我們一個關於如何設計這樣的系統以及如何在互聯網上檢索信息的粗略想法。我們應該如何得到他的意見,然後找到相反的意見?

+0

發佈更多信息,請教授幫助獲取更多信息。 – JonH

+5

這聽起來像一個AI項目,需要一定程度的AI能力,我不認爲現在存在......(或者它會產生重大的新聞標題) –

+0

數據的分配是否爲這種反對意見挖掘整個互聯網? –

回答

2

簡單:使用Amazon's Mechanical Turk

如果沒有(或相當於)你有麻煩。如果問題沒有進一步的限制,那麼你將需要一個完整的AI,這種尚未存在的AI。如果有嚴重的限制,那麼你可能有可能在一週內做到這一點。如果專家可以在任何領域(醫學,政治,歷史,時尚,科學,漫畫書等),那麼將沒有單一的,組織良好的散文庫。您必須使用Google來查找Dr. X的意見。一旦你發現了Dr. X的寫作(讓我們祈禱它的文字,而不是音頻),你必須做一些自然語言處理來獲得它的主旨,即使你有幸找到一個描述性的標題(「數碼攝影絕對是偉大的「)。那麼你必須弄清楚它是相反的。 「Neil Gaiman爲他的故事創意吸引民間傳說」的相反之處是什麼?找出你正在尋找的意見將是一個嚴重的問題。之後,事情變得更加容易:你可以谷歌爲主題,並使用相同的魔法工具來找到你正在尋找的。

那麼有什麼機會解決?搜索其他人已經組織成「專業」和「專業」的意見。一些在線政治論壇是這樣組織的。維基百科在其一些文章的特殊部分中引用了相反的觀點。科學期刊打印反駁信件。環顧四周,你會發現一個更加乾燥的地方。選擇一個足夠小的競技場,你會有一個可追溯的問題。

編輯:媽的,奔鄧拉普打我的評論我的所有要點。嘆息

0

聽起來像一個NLP問題給我。至於文件和引用信息,http://citeseerx.ist.psu.edu應該是一個很好的起點。

對於每個紙張,有幾個引用其是指在紙張上。至少,你必須掃描論文的摘要和引文的摘要,並運行你自己的算法來確定是否有任何引用是反對意見。也許你的教授可以給你一些近似啓發式的提示,但據我所知這是一個非常困難的問題。

我會看更多有趣的方法這個線程。

0

自動提交類似谷歌搜索請求「expert_name吸」,「expert_name錯誤的」,或者類似的東西。找到具有「PhD」的第一個結果,並在同一句中包含文檔鏈接並返回鏈接。

0

我想你可能會把這個問題吹得有點過大......作爲一個本科項目,我會把它稍微小一些。

除非您的規範說明您必須使用實際的互聯網資源,否則您最好創建自己的自定義短文檔數據庫。將元數據添加到每個文檔,說明他們對某些主題提出的觀點。

接下來,我將創建鏈接到每個文檔的引文列表,並添加一些表示專家對該主題的立場的元數據。當有人閱讀文檔時,我會用鏈接列表來擴充引用列表,這些鏈接列表中包含對該主題有不同看法的文檔。

基本上這將包括這些表:

Document (id, data) 
DocumentPoints (documentId, topic, stance) 
Citation (documentId, topic, stance) 

當有人加載一個文件,該引文拉昇爲好。對於每個引文,您都可以搜索DocumentPoints以查看具有不同立場的相同主題。這個項目中最困難的部分是創建需要在數據庫中存儲數據的5或6個文檔。之後,解決方案是微不足道的。

在附註中,大多數其他答案都告訴您使用一些現有的解決方案......除非分配告訴您,否則不要這樣做。如果你自己解決整個問題,你會更好地瞭解問題和解決問題的各種方法(這絕對不是唯一/最好的方法)。當老師要求您做某件事情時,您選擇實施解決方案的任何產品都不支持,您無法修復它。如果你自己寫了,你也可以輕鬆實現新規範。