原住民族教育-國家教育研究院 | 前瞻.開創.教育智庫

資料類型
研究計畫
計畫編號
NAER-105-12-F-2-03-00-3-03
GRB編號
PG10504-0200
計畫名稱
語料庫文本電腦輔助取向的華語文學習者辭典編撰初探
計畫類型
個別型計畫
計畫主持人
張俊盛
經費來源
國家教育研究院
執行方式
合作研究(本院經費-各方人員)
執行機構
國家教育研究院
執行單位
語文教育及編譯研究中心
年度
2016
期程(起)
2016-04-21
期程(迄)
2017-04-20
執行狀態
已結案
關鍵詞
自然語言處理,語料庫,辭典
Keywords
自然語言處理,語料庫,辭典
研究主軸

?
　　華語學習辭典的體例、語言學習設計、電腦輔助編輯技術等等層面，無一不嚴重落後於英語學習辭典。採用電腦在大型語料庫中，分析統計詞彙頻率、句法現象、例句適妥性，決定詞典收錄詞條，分析詞意、選取例句、分析文法資訊，在國外已經行之多年。1970 年代英國伯明罕大學 John Sinclair 教授與 Harper Collins 出版社合作建立大型機讀語料庫，並以此語料庫協助編輯 Collins Cobuild 英文辭典及語法書的基礎。1995年出版的 Collins COBUILD 英語學習辭典第二版，首度採用 Pattern Grammar (Francis and Hunston, 2000)，提供嚴密的文法資訊。Collins COBUILD 計畫所衍生的辭典編輯流程，促使包括各大出版社（例如，朗文、牛津、劍橋、麥克米倫）紛紛採用語料庫以及自然語言處理技術，來節省人力，提高辭典、文法書的品質。同時，有了資料與技術的加持，就可以更客觀，更容易、更有系統的的提供一致性的頻率、片語、搭配詞、語法、語用、語境資訊。?
　　本計畫將探討國外大型辭典如牛津辭典、麥克米倫辭典等，目前如何透過語料庫、資訊科技、自然語言處理技術，以節省編輯時間與成本，產生更豐富的辭典內容，讓學習者可以共有效地學習第二語言華語。本計劃探討的範圍包括參考英語學習辭典，來設計辭典目標、詞彙收錄原則、參考資訊範圍（如釋義、搭配詞、易混淆詞等）、編撰流程實務。
　　另外一個研究重點，則是將這些最佳實務，透過新開發的華語語料庫 COCT 以及華語處理技術，建置電腦輔助編輯系統雛形，作為華語學習者辭典編撰時之參考。本計劃的目標在於發展技術，以提升辭典編輯的速度、品質。以此，作為數位學習、辭典編輯、華語處理技術的基礎，帶動台灣在這些領域的學術研究，以及相關出版與學習產業的產品開發與升級。

語料庫文本電腦輔助取向的華語文學習者辭典編撰初探