跳到主要內容區塊 :::
   
:::
首頁/研究主軸/原住民族教育/研究計畫/學科領域中文分詞技術發展研究

學科領域中文分詞技術發展研究

  • 資料類型

    研究計畫

  • 計畫編號

    NAER-107-12-F-2-03-00-1-03

  • GRB編號

    PG10701-0084

  • 計畫名稱

    學科領域中文分詞技術發展研究

  • 計畫類型

    個別型計畫

  • 計畫主持人

    吳鑑城

  • 經費來源

    國家教育研究院

  • 執行方式

    自行研究(本院經費-本院人員)

  • 執行機構

    國家教育研究院

  • 執行單位

    語文教育及編譯研究中心

  • 年度

    2018

  • 期程(起)

    2018-01-01

  • 期程(迄)

    2018-12-31

  • 執行狀態

    執行中

  • 關鍵詞

    中文分詞,詞典編輯,領域文本,開源碼

  • Keywords

    中文分詞,詞典編輯,領域文本,開源碼

  • 研究主軸

  •   英美各國建置語料庫,並運用語料庫技術輔助編撰各式辭典早已行之有年。然而,由於詞是中文最小的語言單位,但詞之間並不像英文有著明顯的區隔標記,所以分詞無疑是中文語料庫分析最基礎亦是最重要的步驟之一。本計畫檢視國內外正體中文分詞工具現況後,發現確實需要一套可有效專業領域文本分詞任務的開源工具,來作為本整合型計畫的穩固基礎。因此,本計畫將運用人工分詞知識庫、領域術語知識庫,並透過機器學習演算法,期望透過學習基礎中文分詞概念以及領域詞彙特性,研發出一個高精確度的學科領域中文文本分詞技術,並實作出應用工具以及線上系統。此結果不僅將供其他子計畫進行詞彙分析以及辭典編輯之資料前置處理等運用,強化基礎知識資源建置,且為了推廣研究成果,提昇研究社群能量,也將同時以開源碼方式開放給全國的研究人員使用。
      整體而言,本計畫研究成果,不僅可作為其他子計畫之基礎,也有助研究者應用語料庫於辭典編撰、語言分析、以及教材和課程設計之研究或是實務上,產出更豐碩的研究成果以提昇教育的品質。

  •   Building corpus, and using corpus technology to assist compiling various types of dictionary in Anglo-American countries have been a long time. However, unlike languages such as English where space is used as word delimiter, Chinese is written without explicit word delimiters, therefore, word segmentation is undoubtedly a basic and preliminary step of Chinese corpus processing. After reviewing the status of Traditional Chinese word segmentation tools, we find that there is a need for an open-source tool of domain-specific word segmentation to serve as a robust foundation for the integrated research project. The project thus aim at utilizing the hand-crafted segmentation corpus and the domain terminology knowledge base as training data to develop a machine learning algorithm, which learns the basic Chinese word segmentation concept and the domain lexical characteristics. The algorithm is expected to provide a high degree of precision in the task of domain-specific word segmentation. For practical application, an segmentation tool and an online system based on the proposed algorithm will be implemented for other projects to conduct vocabulary analysis and the preprocessing of dictionary editing materials to enhance the performance of building foundational knowledge. In order to promote the project result to benefit the research community, the tool will be open-source and available for all researchers.
      In conclusion, the research results of this project can not only serve as the basis of other projects, but also many corpus-based research projects, including dictionary compilation, language analysis, and teaching materials and curriculum design, to improve the quality of education.

top
回首頁 網站導覽 FAQ 意見信箱 EN
facebook youtube