研究計畫
NAER-105-12-F-2-03-00-3-03
PG10504-0200
語料庫文本電腦輔助取向的華語文學習者辭典編撰初探
個別型計畫
張俊盛
國家教育研究院
合作研究(本院經費-各方人員)
國家教育研究院
語文教育及編譯研究中心
2016
2016-04-21
2017-04-20
已結案
自然語言處理,語料庫,辭典
自然語言處理,語料庫,辭典
?
華語學習辭典的體例、語言學習設計、電腦輔助編輯技術等等層面,無一不嚴重落後於英語學習辭典。採用電腦在大型語料庫中,分析統計詞彙頻率、句法現象、例句適妥性,決定詞典收錄詞條,分析詞意、選取例句、分析文法資訊,在國外已經行之多年。1970 年代英國 伯明罕大學 John Sinclair 教授與 Harper Collins 出版社合作建立大型機讀語 料庫,並以此語料庫協助編輯 Collins Cobuild 英文辭典及語法書的基礎。1995年出版的 Collins COBUILD 英語學習辭典第二版,首度採用 Pattern Grammar (Francis and Hunston, 2000),提供嚴密的文法資訊。Collins COBUILD 計畫所衍生的辭典編輯流程,促使包括各大出版社(例如,朗文、牛津、劍橋、麥克米倫)紛紛採用語料庫以及自然語言處理技術,來節省人力,提高辭典、文法書的品質。同時,有了資料與技術的加持,就可以更客觀,更容易、更有系統的的提供一致性的頻率、片語、搭配詞、語法、語用、語境資訊。?
本計畫將探討國外大型辭典如牛津辭典、麥克米倫辭典等,目前如何透過語料庫、資訊科技、自然語言處理技術,以節省編輯時間與成本,產生更豐富的辭典內容,讓學習者可以共有效地學習第二語言華語。本計劃探討的範圍包括參考英語學習辭典,來設計辭典目標、詞彙收錄原則、參考資訊範圍(如釋義、搭配詞、易混淆詞等)、編撰流程實務。
另外一個研究重點,則是將這些最佳實務,透過新開發的華語語料庫 COCT 以及華語處理技術,建置電腦輔助編輯系統雛形,作為華語學習者辭典編撰時之參考。本計劃的目標在於發展技術,以提升辭典編輯的速度、品質。以此,作為數位學習、辭典編輯、華語處理技術的基礎,帶動台灣在這些領域的學術研究,以及相關出版與學習產業的產品開發與升級。