2010-09-29 69 views
1

我正在讀碩士學位。在計算機科學和剛剛完成源的第一年。 (這是兩年的課程)。很快,我必須提交一份關於碩士學位的提案。項目。我選擇了以下主題。 「機器學習/信息檢索項目

」機器學習在信息檢索系統中對文檔排序的適用性「。研究人員一直在使用各種機器學習算法對文檔進行排序。因此,作爲項目的第一階段,我將進行一次完整的文獻調查,並找出當前方法的優缺點。在項目的第二階段,我將提出一種新的(修改的)算法,以克服當前方法的侷限性。

其實我的問題是這種類型的項目是否適合作爲理學碩士。項目?此外,如果有人在信息檢索領域有一些有趣的想法,是否有可能與我分享這些想法。

感謝

+2

在計算機科學理論棧交換站點(http://cstheory.stackexchange.com)上問你可能會更好。 – Ferruccio 2010-09-29 10:30:43

回答

6

排名始終是任何信息檢索系統中最難的部分。我認爲這是一個非常好的主題,但你必須小心 - 儘快 - 界定工作範圍。可能你不能開發一個新的IR引擎,而是建立一個基於例如apache lucene的原型。

目前有很多數據集,包括stackoverflow數據轉儲,它提供了你需要定義一個豐富的特徵向量的所有信息(點數,時間,你可以挖掘以前的問題等主題,標籤的流行度)爲你機器學習排名算法。在這部分工作中,您可以例如對特徵類型(例如用戶特定的,語義特徵 - 標題中的軟件名稱)進行分類,並執行一系列實驗以瞭解哪些特徵是最重要的,哪些特徵不適用於給定的數據集。

這樣的項目的第二個方向可以是如何高效地進行學習。背後的原因是網絡或社區論壇中的數據量以及論壇中的變化(如果您採用社區特定功能,這一點很重要),例如技術變更,新軟件發佈等。

有許多其他與搜索和機器學習相關的主題。最好的想法是在scholar.google.com上搜索最近關於排名,機器學習和搜索的調查報告,以瞭解最新的技術。下一步就是與你的MSc主管交談。

祝你好運!

1

一切你說的是好,應該做的,但你忘了最重要的部分:

證明你的算法是更好的和/或比其他算法快,具有良好的實驗,也許一些統計數據(p值,置信區間)。

如果你做到這一點,讓人們相信你的算法是非常有用的,你一定不會失敗:)

+0

這通常不需要碩士學位。項目或論文。你可以獲得你的碩士學位。即使你的修改或新想法並不比現有的更好。 – 2014-09-20 14:45:47