深入理解NLP Subword算法:BPE、WordPiece、ULM
原理过于简单,直接介绍其缺点:
Frequency based on Embedding Method (基于词频统计的预测方式)
Count Vector
比如我们有N个文本(document),我们统计出所有文本中不同单词的数量,结果组成一个矩阵。那么每一列就是一个向量,表示这个单词在不同的文档中出现的次数。
TF-IDF Vector
该方法在上述方法的基础上添加了权重,以此衡量不同词向量的重要性,下式中
N 表示文档的总个数;
n 表示包含该单词的文档的数量,即包含该单词的文档数量越少,值越大,该词越重要。
$$ tfidf_{i,j}=tf_{i,j}\times idf_i\\ idf_i = log(N/n) $$
Co-Occurrence Vector (协同向量矩阵,也称之为共现矩阵)
Co-occurrence:指两个单词 $w_1$ 和 $w_2$ 在一个Context Window 范围内共同出现的次数;
Context Window:指某个单词 $w$的上下文范围大小,也就是前后多少个单词以内才算是上下文,比如:
当 Context Window = 2 时,形成如下 2 维矩阵表;该方法的优势在于,将单词上下文之间的关系纳入考虑范围。