標題: 以序列標記方法解決古漢語斷句問題
Classical Chinese Sentence Division by Sequence Labeling Approaches
作者: 黃瀚萱
Hen-Hsen Huang
孫春在
Chuen-Tsai Sun
資訊科學與工程研究所
關鍵字: 古漢語斷句;自然語言處理;文本分割;序列標記;條件隨機域;Classical Chinese sentence division;natural language processing (NLP);text segmentation;sequence labeling;conditional random fields (CRFs)
公開日期: 2007
摘要: 斷句是古漢語處理的特殊議題。在20世紀之前,中文的書寫系統,並沒有使用標點符號的習慣。在閱讀古籍的時候,讀者必須從文句中,辨別應該停頓或分隔的地方,而後才能理解文義。由於斷句並沒有明確的規則和方法,全憑讀者的語感和經驗來判斷,同一個句子,不同的讀者,往往會有不同的斷法,而不同的斷法,造成了不同的文義解讀。所以,在處理古籍的時候,斷句是重要而困難的第一步驟。 過去沒有理想的自動化斷句方法,斷句的工作,多半交由文史專家,以人力來處理。雖然常見的經史典籍,目前已有斷句標點過的版本,但隨著歷史文獻不斷地發掘出土,仍然有無數的古代文獻,尚待斷句處理。 在本研究中,我以hidden Markov models(HMMs)和conditional random fields(CRFs)等兩種序列標記模型,設計古漢文斷句系統,並在實驗中獲得不錯的斷句結果。同時,在實驗中也發現,只要training data的質量足夠,則具有跨文本、跨作者、跨體裁的適用性。例如,以《史記》作training data,對於其他上古漢語的文本,都有頗佳的斷句表現。本研究的成果,展現了自動化古漢語斷句的可行性,並得以實用在數位典藏、文字探勘、資訊擷取等工作上,輔助人力,更快速地處理大量歷史文獻。
Sentence segmentation is a special issue in Classical Chinese language processing. To facilitate reading and processing of the raw Classical Chinese data, I proposed a statistical method to split unstructured Classical Chinese text into smaller pieces such as sentences and clauses. To build this segmenter, I transformed the sentence segmenting task to a character labeling task, and utilized two sequence labeling models, hidden Markov models (HMMs) and conditional random fields (CRFs), to perform the labeling work. My methods are evaluated on nine datasets from several eras (from the 5th century BCE to the 19th century). My CRF segmenter achieves an acceptable performance and can be applied on a variety of data from different eras.
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT009555586
http://hdl.handle.net/11536/39538
Appears in Collections:Thesis


Files in This Item:

  1. 558601.pdf