Text Classification Read notes

解决文本分类的问题
流程:

​ 特征提取 ->> (特征降维) >> 分类→评估

1557644929766

基于机器学习和深度学习都有一个难以避免的特点,就是模型本身的鲁棒性相对不够,但是处理的问题都十分复杂,对文本的预处理十分重要:

特征提取与清洗

文本数据的清洗

 1. 分词:Tokenization
 2. 去除意义不大的词语{啊,一,后,前}
 3. 大小写问题解决
 4. 口语化和简称
 5. 降噪{不必要的标点}
 6. 语法错误
 7. 词语的时态
 8. 还原词形

词语的语法分析

1. N-Gram

加权词语

1. 词袋模型(不计算顺序与上下文,将所有的 词扔进一个袋子中,附送的都是出现次数,基于单热编码)
 2. 词向量模型(神经忘录得到高位向量,具有上下文信息,但是并不能包含长连续全部的语义)

此处注意的事:并不是词向量(word2Vec)就是最好的,在贝叶斯邮件分类,文本分类中,词袋模型的下效率高,仅仅有文章的内容信息,鲁棒性更好

特征降维

  1. PCA 主成分分析法应用非常广
  2. ICA 独立成分分析,在线性的模型中应用多
  3. LDA ,NMF
-------------本文结束感谢您的阅读 :D -------------
Show comments from Gitment