Language Models

N-gram

  • Bi-gram(n=2)
  • Tri-gram(n=3)

TF-IDF 

  • 詞頻(term frequency,TF)
  • 逆向文件頻率(inverse document frequency,IDF)

TF-IDF 很常和 N-gram 搭配在一起來做像是文章的關鍵字提取或是文章的相似度比較、文章分類的任務

https://ithelp.ithome.com.tw/articles/10281603