2011年10月5日 星期三

中文斷詞系統使用

在文字探勘中斷詞斷字是資料處理的重要步驟,英文句子我們可以藉由空白取得句中的每個單字,但中文句子因為沒有分隔符號所以我們無法藉由程式自動化處理取得句中的字或詞,所幸中研院有研發中文斷詞系統,本篇將介紹如何申請及使用

首先我們先連結到中文斷詞系統的網址


進入畫面後,我們可以看到左方選單有個線上服務申請的連結,點選後右方畫面此時會更新並出現按此申請的字樣


填寫相關資訊並勾選我同意本服務條款及前述注意事項後按下送出按鈕


接著進入填寫相關資訊時所留的電子信箱,此時會收到啟動確認信函,點撃信件中的此處即完成服務申請


由於中文斷詞系統是經由TCP Socket傳送相關資料,我們必須撰寫Socket Client程式或直接使用中文斷詞系統網站上的斷詞服務客戶程式,這裡我們只介紹斷詞服務客戶程式,首先我們可以看到網頁左方有個線上資源連結,點選後右方會出現下載斷詞服務客戶程式(console)字樣,點選連結下載即可


下載後解壓縮我們可以得到下面的目錄及檔案


其中ckipsocket.propeties是設定檔,裡面記載著中文斷詞系統的IP、通訊埠、帳號、密碼...等,
帳號及密碼是之前申請服務時所填寫的申請帳號及申請密碼,host及port請不要變更這二項是固定的,更詳細的說明請參酌README.txt


在目錄Text中有二個資料夾,input資料夾所儲放的是要送往中文斷詞系統進行斷詞處理的文件,而文件的個數可以是一個或多個,output資料夾則是中文斷詞系統處理後回傳的結果文件,結果文件內容是以全型空白作為詞與詞的分隔符號,至於是否可以自行定義目錄結構或目錄名稱,答案是可以的,我們可以參考test.bat的內容
CkipClient.exe ckipsocket.propeties Text\input Text\output
CkipClient.exe是主程式
ckipsocket.propeties是設定檔
Text\input是預設的input資料夾
Text\output是預設的output資料夾

最後我們以財政部2011-11-10新聞稿「民眾檢舉逃漏稅應提出明確具體事證」部份內容並刪除標點符號作為我們實驗裡input的資料












然後執行test.bat
































接著我們會在output資料夾看到與input資料相同檔名的文件,以下為文件內容















每個詞後面是詞類標記,而(N)一般來說代表名詞,詳細詞類標記可至中文斷詞系統裡的詞類標記列表下載