Research Center For Translation, Compilation and Language Education | 吳欣儒 副研究員
「特徵」,意思是一事物異於其他事物的特點,我們可以從一個人的外表來歸納他的外顯特徵,例如長得很高、頭髮很長、眼睛很大,這是一種透過比較而得的相對概念,例如林書豪很高,但若將他跟姚明相互比較,林書豪就不算高了。在高個如雲的NBA,林書豪不能以「高」作為他的特徵。應用這個概念,你知道一個文本(泛指任何的文字或口語的語言材料,長如一本書,短如一個段落,都可以稱為文本)也能歸納出它的語言特徵嗎?什麼是語言特徵?要怎麼做呢?
我們有時會在聽一個人說話的時候,發現他的口頭禪是「然後」、「隨便啦」、「奇怪欸你」,短的文本或許我們還可以自己歸納用詞特徵,但如果長如一本書、一部電影,甚至是上千萬、上億字數的文本時,我們就必須依靠電腦來處理了。現在的語料庫技術,有一種叫主題關鍵性(keyword keyness)的分析工具,可幫助我們歸納文本的語言特徵。這個工具的原理簡單來說,就是需要兩組語料庫,一組作為參照用(NBA),一組為觀察用(林書豪),觀察用的是我們要歸納特徵的對象。電腦以統計去計算這兩組語料庫每個詞語的出現頻次,並且以參照用的為基準,去看觀察用的語料庫中,哪些詞語的使用率是不尋常的高或不尋常的低(比預期的出現率高或低),用這個方式來歸納、推論屬於某個主題文本的詞語特徵。
……【全文詳見相關連結內容】