information-extraction

7熱度

2回答

使用條件隨機場進行命名實體識別

什麼是條件隨機場？條件隨機字段如何在結構化或非結構化文本中將專有名稱標識爲人員，組織或地點？例如：本品由計算器公司訂購是什麼條件隨機場做鑑定計算器公司作爲一個組織？

1熱度

3回答

使用Ruby從文本解析日期

我想弄清楚如何使用Ruby從非結構化文本中提取日期。例如，我想解析這個字符串的日期「2010年2月1日中午12:00（東部標準時間）之後開始的應用程序將不被考慮。」有什麼建議嗎？

1熱度

4回答

尋找信息回報/文本挖掘應用程序或圖書館

我們從電子郵件中提取各種信息 - 航班，汽車租賃，酒店等。該方法是提取郵件正文，通常採用HTML格式，但有時候是文本或我們使用PDF/Word/RTF附件中的信息。然後，我們應用正則表達式（有時以幾個步驟）以獲取以表格形式提供的信息（您可以考慮飛行表，酒店表等）。注意，儘管我們解析HTML，但這不是網頁抓取。目前我們正在使用QL2的WebQL引擎，但我們正在考慮將其替換爲商業原因。你能推薦另一臺

0熱度

1回答

日期提取庫

有誰知道周圍是否有任何圖書館會提取日期和時間給定的文本？不管哪種語言，我只是在尋找一個圖書館來玩。

0熱度

2回答

如何解析包含javascript的呈現網頁

如何從提取的網頁中提取數據？其中java腳本會隨着時間更新數據。是否有可能編寫可從網頁Java腳本訪問變量的用戶腳本？請建議可能的方法來實現這一點。

3熱度

2回答

使用Ruby/Mechanize（和Nokogiri）從HTML中提取單個字符串

我正在從論壇中提取數據。我的腳本based on工作正常。現在我需要從單個帖子中提取日期和時間（2009年12月21日，20：39）。我無法得到它的工作。我使用FireXPath來確定xpath。示例代碼： require 'rubygems' require 'mechanize' post_agent = WWW::Mechanize.new post_page =

66熱度

2回答

高級PDF解析使用Python（提取沒有表等的文本）：什麼是最好的圖書館？

我正在尋找一個PDF庫，它將允許我從PDF文檔中提取文本。我看了PyPDF，這可以很好地從PDF文檔中提取文本。問題在於，如果文檔中有表格，則表格中的文本將與文檔文本的其餘部分一起提取。這可能會產生問題，因爲它會產生無用的文本部分，並且看起來亂碼（例如，將大量數字拼湊在一起）。我在找東西是更先進一點。我想從PDF文檔中提取文本，排除任何表格和特殊格式。有沒有這樣的圖書館？還是我不得不對輸出文本做

14熱度

5回答

Java的媒體信息提取器

我需要一個可以處理常見媒體格式的媒體信息提取庫（純Java或JNI包裝器）。我主要使用它的視頻文件，我需要至少這些信息：視頻長度（運行）視頻碼率視頻幀率視頻格式和編解碼器視頻尺寸（寬X高）音頻信道音頻格式音頻比特率和SAM pling rate 有幾個庫和工具，但我找不到Java。