語文教育及編譯研究中心 | 白明弘 副研究員
一、錯別字是網路時代的特色之一
自有文字以來,錯別字即存在於書籍中。許多古書中的錯別字留傳了下來,至今成為通假字的來源之一。現代由於網路媒體發達,網路閱讀者也參與了訊息的產出,文字訊息常常快速埋沒在網路的洪流之中。訊息的流通性固然提高了,但關注的效期卻降低了。因此,訊息校正的重要性逐漸被忽略。根據國外研究,搜尋引擎中輸入的關鍵詞高達 26% 包含錯別字,錯別字已成為網路時代的特色之一。
二、自然語言研究力挽錯別字狂瀾
錯別字除了不便於閱讀外,在資訊處理上也是一大麻煩。一篇包含錯別字的文章,可能因此無法被檢索到;而使用者輸入的檢索條件如果包含錯別字則找不到正確的文件。幸而自然語言研究的發展,逐漸填補了錯別字所造成的問題。現今大部分知名的搜尋引擎(包括 google, bing, 百度等),都已支援錯別字更正建議。而文件編輯器(包括 MS word 及 OpenOffice),也都支援錯別字與文法偵錯與更正建議的功能。以英文來說,錯別字偵測的正確率大約可達99%。
……【全文詳見相關連結內容】