Research Center For Translation, Compilation and Language Education | 周一銘 助理研究員
英語,是當今國際往來最重要的通用語(lingua franca),亦是作為世界公民不可或缺的技能。字彙能力則是培養英語「聽、說、讀、寫、譯」等能力之關鍵,學習者的字彙量與語言能力關係密切。一般而言,一個語言的語法規則數量有限,但字詞量龐大。有關研究亦指出,英語系國家成年母語人士字彙量約2-3萬。語言教育學者普遍認為,優先學習常用字彙有助於學習者提高語言學習效率。隨著資訊科技的發展,語料庫(Corpus)巨量資料結合自然語言處理技術(NLP)成為建置字彙表的利器。篇章語料經過數位化、斷句分詞、詞形還原(lemmatization)、標記(tag)等流程後,藉由機器演算法,可獲得詞頻、標準化頻率、覆蓋率、分布率和相互資訊(Mutual Information)等數據。
透過語料庫,我們觀察到一個重要的事實,即每個字詞的覆蓋率並不一致,甚至可以說十分懸殊。如圖1所示,想覆蓋86-92%的語料庫內容僅需要詞頻最高的前1,000字左右,但要達到95-98%覆蓋率則需要5,000字。也就是,額外多學的4,000字僅能提高覆蓋率6-9%。故,我們建議初學者應把有限的時間、心力放在覆蓋率較佳的字彙上。同時,在規劃課程時,應把語料庫的客觀證據作為我們安排字彙內容數量和時程先後的重要參考。
……【全文詳見相關連結內容】