crf

    -1熱度

    1回答

    我有兩個數據集:數據集A和數據集B.我想用CRF++(mirror)在數據集A上訓練條件隨機場(CRF),然後在數據集B上訓練CRF。是否可以用CRF ++ ? 我不想在兩個數據集上同時訓練CRF。

    1熱度

    1回答

    我正在尋找一種方法來使用功能條件與屬性和標籤bigrams在槌子。我仍然試圖瞭解如何才能夠使用剛生成的令牌標籤作爲確定下一個令牌標籤的功能?生成的令牌的特徵向量是否是先前令牌的標籤? 我誤解了CRF允許使用預測的以前的標籤作爲下一個標記的功能嗎? 在此先感謝!

    3熱度

    2回答

    我正在訓練斯坦福NER CRF模型,在自定義數據集上,但是用於訓練模型的迭代次數現在已經達到了迭代次數 - 即,這個培訓過程現在已經過去了幾個小時。 下面是在該終端打印的信息 - 文件被使用在下面給出 Iter 335 evals 400 <D> [M 1.000E0] 2.880E3 38054.87s |5.680E1| {6.652E-6} 4.488E-4 - Iter 336 eval

    0熱度

    1回答

    我需要在HTML文檔中標記部分文本。但是,它主要由日期,公司名稱,地址等形式的文本組成。我打算使用CRF(sklearn-crfsuite) 我的問題是難以將數據集劃分爲句子。我們能訓練一個沒有句法邊界的CRF模型嗎? CRFSuite或sklearn-crfsuite的教程不會談論這個。 如果沒有句子分割就無法完成,關於如何將這些文本分成句子的任何提示? 的數據是這樣的:(我不能共享的實際數據)

    1熱度

    2回答

    我已經嘗試過許多NER工具(OpenNLP,Stanford NER,LingPipe,Dbpedia Spotlight等)。 但是,經常回避我的是一個基於地名詞典/字典的NER系統,其中我的自由文本與預先定義的實體名稱列表相匹配,並且可能的匹配被返回。 這樣我可以有各種像PERSON,ORGANIZATION等列表我可以動態更改列表並獲得不同的提取。這將大大減少培訓時間(因爲其中大部分都基於m

    0熱度

    2回答

    我正在使用梯度上升使用顯着圖進行圖像分割。 這是一個過程的圖像:http://imgur.com/a/h8vBZ 我有一個訓練有素的模型,可以準確地預測我的課程。然後使用該模型來計算具有梯度上升和損失的輸入圖像的梯度。對我而言,這裏產生的梯度表示模型在預測中的重點。 我運行一個分位數篩選器來挑選與類最相關的梯度值(像素),然後從中產生一個二進制掩碼。這很好,但是發現地圖可以更準確和更緊密地圍繞圖像

    0熱度

    1回答

    爲了安全起見,並看到辛勤工作的成果,需要正確格式化數據的哪些功能? 我有這個dataset和template,手動標記爲NER。 就CRF ++的培訓而言,使用生成的模型進行測試會得到0%正確的結果。使用Wapiti的結果相同。 問題,應該修改模板文件嗎?或者也需要在訓練數據集中添加POS標籤。 此外,如果模型應該打折字套管而標記,應在訓練數據集反映其全部,使得下殼體被執行。但是它會不會影響某些從

    -1熱度

    1回答

    一個文檔的特定部分我的目標是給定一組文檔(主要是在金融領域),我們需要找出像公司名稱或文檔類型的特定部分,等 的假設培訓是在100個文件中進行的。很明顯,我會有一個傾斜的班級分佈(其中None佔99.9%左右的例子)。 我打算使用CRF(Sklearn上的CRFsuite)並已經通過了必要的文獻。我需要在以下方面提供一些建議: 數據集是否足以訓練CRF?考慮到每個文檔可以分成大約100個令牌(每個

    0熱度

    1回答

    我真的不明白如何結合sklearn_crfsuite和凱拉斯。 我必須做一個經典的LSTM,並保證最後一次激活,我使用sklearn_crfsuite? 有人有一個例子嗎? THX,

    1熱度

    1回答

    當你建立你的crf_learn與-t選項模型文件: crf_learn模板train_data -t模型 然後它會產生兩個模型文件,一個他們是model.txt。 有人可以告訴什麼是浮點數意味着什麼? 參見下面的示例: 版本:100 成本因素:1 maxid:40 XSIZE:1個 乙 我 U00:%×[0,0] 乙 36乙 20 U00 :, 26 U00:か 18 U00:が 22 U00:こ