2011-08-17 142 views
5

所以這裏是我的問題。我有兩段文字,我需要看看它們是否相似。不是在字符串度量的意義上,而是在意義上。以下兩段是相關的,但我需要確定它們是否涵蓋了「相同」主題。任何幫助或指導解決這個問題將不勝感激。比較兩個英文字符串的相似性

化石燃料是通過自然過程形成的燃料,如厭氧 分解埋藏的死亡有機體。其生物化石燃料的年齡通常爲數百萬年,而有時超過6.5億年。化石燃料含有高百分比的碳,包括煤炭,石油和天然氣。 化石燃料的範圍從揮發性材料與低碳:氫氣比例如甲烷,液體石油非揮發性材料 由幾乎純碳組成,如無煙煤。甲烷可以是在烴田中發現的 ,單獨與油有關,或者在甲烷包合物的形式中。人們普遍認爲,它們通過暴露於熱量和數百萬年地殼中的壓力形成了死亡植物的化石遺骸,形成了 。這種生物學理論在1856年由Georg Agricola首次提出,後來由 Mikhail Lomonosov在18世紀引入。

第二:

化石燃料重整是從化石燃料如天然氣生產氫氣或其它 有用的產品的方法。這是在稱爲重整器的處理設備中實現的 ,其在高溫下與蒸汽 反應與化石燃料。蒸汽甲烷重整器 廣泛用於工業制氫。也有興趣在 開發更小的單位基於類似的技術 產生氫作爲燃料電池的原料。小型蒸汽供應燃料電池的重整裝置目前是研究和開發的主題,通常涉及甲醇或天然氣的重整,但其他燃料也正在考慮如丙烷,汽油,汽油,柴油,柴油等的 。和乙醇。

回答

3

一般來說,我認爲這仍然是一個懸而未決的問題。自然語言處理仍然是一個新興領域,雖然我們可以做得很好,但做這種分類和分類仍然非常困難。

我不是NLP的專家,但您可能想查看these lecture slides討論情感分析和作者身份檢測。您可能使用的技術來進行您所建議的文本比較與您將用於前述分析的技術相關,您可能會發現這是一個很好的起點。

希望這會有所幫助!

2

您還可以看看機器學習中的潛在狄利克雷分配(LDA)模型。這裏的想法是找到每個文檔(或段落)的低維表示,簡單地作爲一些「主題」的分佈。該模型通過一系列文檔/段落以無監督的方式進行培訓。

如果您對段落集合運行LDA,那麼通過查看隱藏主題向量的相似性,您可以找到給定的兩個段落是否相關。

當然,基線是不使用LDA,而是使用術語頻率(用tf/idf增加)來度量相似度(向量空間模型)。