語文教育及編譯研究中心 | 吳鑑城 副研究員
語料庫,顧名思義,是「語料」的「庫藏」。這個「寶庫」裡可能收藏著來自不同文本的語言素材,涵蓋範圍廣泛,包括(但不限於)古籍、現代小說、新聞文章、學術論文,甚至社群媒體上留言的書面語語料;也可以是保存著來自各種情境所產出的自然對話、演講、訪談,講課等語音(或其逐字稿)的口語語料。語料庫所涵蓋的龐大真實使用情境語言材料,蘊含著各種真實使用情境下的語言表達,反映了語言使用的多元面向。
近年來,大家耳熟能詳的大語言模型,如生成式預訓練變換模型(Generative Pre-trained Transformer, GPT)系列,正是通過深度學習技術在大量的語料庫上訓練而成。語料庫作為「教材」,模型從中學習語言的模式、規則,並將這些知識轉化為人機互動、語言生成的實用性技能,使模型能夠預測、生成符合語法結構的文本,並在文本中理解上下文的關聯性。
......【全文請見相關連結內容】