information-extraction

    7熱度

    2回答

    什麼是條件隨機場? 條件隨機字段如何在結構化或非結構化文本中將專有名稱標識爲人員,組織或地點? 例如:本品由計算器公司訂購 是什麼條件隨機場做鑑定計算器公司作爲一個組織?

    1熱度

    3回答

    我想弄清楚如何使用Ruby從非結構化文本中提取日期。 例如,我想解析這個字符串的日期「2010年2月1日中午12:00(東部標準時間)之後開始的應用程序將不被考慮。」 有什麼建議嗎?

    1熱度

    4回答

    我們從電子郵件中提取各種信息 - 航班,汽車租賃,酒店等。該方法是提取郵件正文,通常採用HTML格式,但有時候是文本或我們使用PDF/Word/RTF附件中的信息。然後,我們應用正則表達式(有時以幾個步驟)以獲取以表格形式提供的信息(您可以考慮飛行表,酒店表等)。注意,儘管我們解析HTML,但這不是網頁抓取。 目前我們正在使用QL2的WebQL引擎,但我們正在考慮將其替換爲商業原因。你能推薦另一臺

    0熱度

    1回答

    有誰知道周圍是否有任何圖書館會提取日期和時間給定的文本?不管哪種語言,我只是在尋找一個圖書館來玩。

    0熱度

    2回答

    如何從提取的網頁中提取數據? 其中java腳本會隨着時間更新數據。 是否有可能編寫可從網頁Java腳本訪問變量的用戶腳本? 請建議可能的方法來實現這一點。

    3熱度

    2回答

    我正在從論壇中提取數據。我的腳本based on工作正常。現在我需要從單個帖子中提取日期和時間(2009年12月21日,20:39)。我無法得到它的工作。我使用FireXPath來確定xpath。 示例代碼: require 'rubygems' require 'mechanize' post_agent = WWW::Mechanize.new post_page =

    66熱度

    2回答

    我正在尋找一個PDF庫,它將允許我從PDF文檔中提取文本。我看了PyPDF,這可以很好地從PDF文檔中提取文本。問題在於,如果文檔中有表格,則表格中的文本將與文檔文本的其餘部分一起提取。這可能會產生問題,因爲它會產生無用的文本部分,並且看起來亂碼(例如,將大量數字拼湊在一起)。 我在找東西是更先進一點。我想從PDF文檔中提取文本,排除任何表格和特殊格式。有沒有這樣的圖書館?還是我不得不對輸出文本做

    14熱度

    5回答

    我需要一個可以處理常見媒體格式的媒體信息提取庫(純Java或JNI包裝器)。我主要使用它的視頻文件,我需要至少這些信息: 視頻長度(運行) 視頻碼率 視頻幀率 視頻格式和編解碼器 視頻尺寸(寬X高) 音頻信道 音頻格式 音頻比特率和SAM pling rate 有幾個庫和工具,但我找不到Java。