跳到主要內容區塊 :::
   
:::
首頁/研究主軸/教科書研究/研究計畫/2012年至2014年出現的中文新詞調查

2012年至2014年出現的中文新詞調查

  • 資料類型

    研究計畫

  • 計畫編號

    NAER-104-12-F-2-02-00-3-02

  • GRB編號

    PG10501-0037

  • 計畫名稱

    2012年至2014年出現的中文新詞調查

  • 計畫類型

    個別型計畫

  • 計畫主持人

    高照明

  • 經費來源

    國家教育研究院

  • 執行方式

    委託研究(經採購委託他機構人員)

  • 執行機構

    國立臺灣大學

  • 執行單位

    外國語文學系

  • 年度

    2015

  • 期程(起)

    2015-12-31

  • 期程(迄)

    2016-12-30

  • 執行狀態

    已結案

  • 關鍵詞

    中文新詞辨識,新聞語料庫,N 連字串頻率

  • Keywords

    中文新詞辨識,新聞語料庫,N 連字串頻率

  • 研究主軸

  •   本研究利用資訊科學的技術透過中國時報及聯合報 2 個大型新聞語料庫的量化證據以半自動的方式擷取 2012 至 2014 年出現的新詞。我們使用 2 字到 4 字的 N 連字組(N-gram)建立新詞可能的集合,先排除其中含有不是中文字的例子,然後記錄每一個 N 連字組在 2006 至 2014 每一年出現的頻率。如果是 2012 年以後才出現的新詞,那麼2006到2011每年出現的頻率應該會低於2012到2014 出現的頻率。我們使用 2006 年到 2014 年兩個線性一次函數 Y=aX+b 來建立某個詞在某一年出現頻率的模型,其中 X 是 2006-2014 其中的某一年而 Y 則是某一個詞在 X 那一年出現的總次數。我們利用最小平方法取得最適合的函數並將新詞的開始年依序設為 2006,2007,...,2014,平均誤差(average error)最小的那個年份,即認定為該詞的開始年,但若出現年為 2006 或 2014,因無法建立兩個一次式,我們直接將誤差設為 0。我們利用詞頻 TF(term frequency)及文件頻率 DF(document frequency)來過濾較不可能是新詞的字串,先對「一次式平均誤 差」、「發生年前平均 TF」和「發生年後平均 TF」的範圍內抽樣計算在該參數下的可能新詞集合數量,再透過觀察參數和集合數量的變化關係,由人工選定合適的參數來過濾較不可能的字串。我們根據程式過濾後得到的新詞候選詞再以我們發展的程式透過年度頻率分布表和例句進一步過濾出現在 2012 年以前的詞。 實驗結果分別找到 12 個的 2 字新詞、26 個 3 字新詞及 61 個四字新詞。本研究所提出的方法可以快速找到某一段時間內出現的新詞,大幅減少人工調查新詞所需的人力及物力。

  •   This study presents a semi-automatic approach to identifying Chinese new words that occurred between 2012 and 2014 in the China Times and United Daily News corpora in Taiwan based on the quantitative evidence of the frequency distributions of ngrams. We first extracted bigrams, trigrams, and 4 grams from the news corpora and filtered out ngrams which contained characters which were not Chinese. We recorded the frequency of each ngram in each year between 2006 and 2014 and identified ngrams whose annual frequency between 2012 and 2014 exceeded their annual frequency between 2006 and 2011. These ngrams were candidates for new words. The frequency of a candidate ngram in a given year was then modelled by the linear equation Y = aX + b, where X was the year and Y was the frequency of an ngram in that year. The Principle of least squares was used to derive the linear equation. We used two linear models to predict the beginning year when the new word first occurred between 2012 and 2014. The year with the smallest average error was considered the beginning year of the new word. Each candidate ngram that was likely to be new word was manually checked against its frequency distributions and its concordances in the news corpora. After human inspection of the candidate words, we identified 12 two-character new words, 26 three-character new words, and 61 four-character new words which occurred between 2012 and 2014.

top
回首頁 網站導覽 FAQ 意見信箱 EN
facebook youtube