2012-04-27 118 views
0

在當今時代,我們擁有大量的一切信息。有時候,這些信息是巨大的,沒有數字化。你會發展出什麼樣的邏輯形式來從許多類似的手冊中找到特定的信息,從而實時爲用戶提供信息。用戶不需要通讀所有的文件。 你是否首先將文檔轉換爲類似的結構?有什麼建議麼?
編輯:
我知道這是某種文本搜索問題。 讓我來舉一個例子,這樣的問題變得有點聚焦:
手動1:(加州)用於搜索文檔的邏輯

Table of content 
... 

Precautions: 
1.) The operator must use synthetic gloves to handle chemicals 
... 

手冊2:(用於Minesotta)

Table of content 
... 
Precautions: 
1.) Use polymer gloves while being in any contact with hazardous chemicals 
... 

現在程序的用戶只需要對「處理有害化學物質」進行查詢,程序應該給他以上兩個選項

  1. CA)的運營商,而與危險化學品

非常感謝你的任何接觸必須使用合成手套來處理化學品

  • MN)採用高分子手套。

  • +0

    您是否查看過任何主要的文檔管理系統(例如[IBM FileNet](http://www-01.ibm.com/software/data/content-management/))以查看它們的功能? – 2012-04-27 13:33:27

    回答

    1

    隱含地說,您至少有五個級別的「重組」要與之抗衡。

    1. 如何組織來自加州的手冊集? (文檔集)
    2. 如何從純文本文件中提取文本? HTML? PDF?一個Word文檔? (文件物理格式)
    3. 如何識別章節,標題,小標題,標題,表格? (在文檔級別的語義)
    4. 如何解析純文本以提取含義? (在句子級​​別的語義)
    5. 如何處理同義詞和整體關係? (本體論)

    你的問題意味着某種句子級別的語義和本體論分析,當你認識到「與任何接觸」都與「處理」有關。

    你可以看看IBM's Watson project,瞭解如何從大量數據中提取意義以及本體的一些新穎方法。

    你的方法對於這些問題應該具體化還是一般化?這部分取決於語料庫的界限。您是否正在處理Google搜索中顯示的任何「化學品」文件,或僅處理加州環保局的公開文件?

    +0

    謝謝@大衛。我正在考慮你指向我的方向。很好的解釋。我正在尋找來自加利福尼亞州EPA_的公開文件 – 2012-04-27 15:04:57