語文教育及編譯研究中心 | 吳鑑城 副研究員
核心詞彙是指一組不受文本類型、主題、應用情境等影響,穩定使用的詞彙。核心詞彙相對於非核心詞彙(邊緣詞彙)來說數量較稀少,卻構成溝通內容的主要部份。在語言的使用上,當一個句子缺乏邊緣詞彙時,雖難以確切指稱物品,但仍足以傳達說話者的主要意涵,因此核心詞彙是語言學習中重要的一環。
傳統的核心詞彙選擇方法主要依據專家知識與經驗法則,語料庫語言學興起後,統計式的方法逐漸取代經驗法則。然而單純使用詞頻無法分離核心詞彙與邊緣詞彙,例如,從中研院平衡語料庫中觀察四個詞頻接近的詞在不同主題中的分布情況(見圖一),「網路」只有在科學主題之下才大量出現。「企業」則在社會及科學主題中大量出現。相對而言「今天」和「一定」在各類主題中出現的次數較為平均。在此例中,前兩個詞語屬邊緣詞彙,後兩個詞語屬核心詞彙。由此例的觀察可以發現詞語的核心程度與分布均勻度有高度的相關,因此許多研究者提出以分布均勻度來衡量詞語的核心程度。而計算詞語分布均勻度前必須先將語料庫切分成數個區塊,然後再計算詞語在區塊中的分布是否均勻。在這樣的計算程序中,每個區塊代表一個語言使用情境的實例,當分布均勻度越高時,即表示詞語受情境的影響越小。因此語料區塊的切分方法將關係到核心詞彙選擇的結果。
……【全文詳見相關連結內容】