首先我們先連結到中文斷詞系統的網址
進入畫面後,我們可以看到左方選單有個線上服務申請的連結,點選後右方畫面此時會更新並出現按此申請的字樣
填寫相關資訊並勾選我同意本服務條款及前述注意事項後按下送出按鈕
接著進入填寫相關資訊時所留的電子信箱,此時會收到啟動確認信函,點撃信件中的此處即完成服務申請
由於中文斷詞系統是經由TCP Socket傳送相關資料,我們必須撰寫Socket Client程式或直接使用中文斷詞系統網站上的斷詞服務客戶程式,這裡我們只介紹斷詞服務客戶程式,首先我們可以看到網頁左方有個線上資源連結,點選後右方會出現下載斷詞服務客戶程式(console)字樣,點選連結下載即可
下載後解壓縮我們可以得到下面的目錄及檔案
其中ckipsocket.propeties是設定檔,裡面記載著中文斷詞系統的IP、通訊埠、帳號、密碼...等,
帳號及密碼是之前申請服務時所填寫的申請帳號及申請密碼,host及port請不要變更這二項是固定的,更詳細的說明請參酌README.txt
CkipClient.exe ckipsocket.propeties Text\input Text\outputCkipClient.exe是主程式
ckipsocket.propeties是設定檔
Text\input是預設的input資料夾
Text\output是預設的output資料夾
最後我們以財政部2011-11-10新聞稿「民眾檢舉逃漏稅應提出明確具體事證」部份內容並刪除標點符號作為我們實驗裡input的資料
然後執行test.bat
接著我們會在output資料夾看到與input資料相同檔名的文件,以下為文件內容
每個詞後面是詞類標記,而(N)一般來說代表名詞,詳細詞類標記可至中文斷詞系統裡的詞類標記列表下載