2017-04-06 108 views
1

我在學習西班牙語和製作一些閃存卡(供我個人使用)來幫助我學習動詞。從網站報廢數據

下面是一個例子,page example。因此,在頁面的頂部,您將看到過去分詞:bloqueado & gerund:bloqueando。我希望在我的代碼中獲得這兩個值,並用於我的閃存卡。

如果這是可能的,我將使用c#控制檯應用程序。我知道,從網站上刪除數據並不理想,但這是一次性的。

任何有關如何開始這樣的事情和避免陷阱的指導將非常有幫助!

+0

那麼你有什麼嘗試,以及你卡在哪裏?你有沒有可能顯示的代碼? – bassfader

+0

以及我試着看看網頁的HTML,看看我是否可以解析它,但我無法看到我在html中所需的字段。因此,否則一直在閱讀,以查看其他方式來取消數據,但不使用一些第三方應用程序 – mHelpMe

+1

*你是什麼意思,「但是我看不到我在html中所需的字段」*?你指什麼領域?使用Chrome開發人員工具查看HTML時,我很容易找到這些值/詞,它們都列在以下部分標記中:'

'。對我來說目前還不清楚你到底有什麼問題... – bassfader

回答

0

我知道這不是一個確切的答案,但這裏是我建議的過程。

  1. https://www.gnu.org/software/wget/並將網站鏡像到 文件夾。 Wget是一個網絡蜘蛛,並將遵循該網站上的鏈接,直到它下載了所有內容。您必須使用幾個不同的參數運行它,直到找出所需的正確設置。
  2. 使用C#遍歷文件夾中的每個文件,並從每個文件中的<section class="verb-mood-section">中提取 單詞。您可以選擇是將它們輸出到控制檯還是將它們存儲在數據庫或平面文件中。

理論上應該那麼容易。