深入理解NLP Subword算法:BPE、WordPiece、ULM


1. One-Hot & Int 编码

原理过于简单,直接介绍其缺点:

  1. One - hot 编码的缺点
    1. 无法表达词的顺序信息
    2. 容易造成高维稀疏的现象,导致计算效率降低
  2. Int 编码的缺点
    1. 无法表达词语之间的关系
    2. 无解释性,且容易导致模型关注于极大或极小值;

2. Word embedding

1. Strengths

  1. High dimension → fixed low dimension (768,1024 ..)
  2. simliar vector value → High Relative (space distance)
  3. Strong Versatility → adjusted in different tasks;

2. Normal Algorithms

Frequency based on Embedding Method (基于词频统计的预测方式)

2.1 Word2vec (word to vector)

Untitled

a. CBOW