Text Classification Read notes
解决文本分类的问题
流程:
特征提取 ->> (特征降维) >> 分类→评估
基于机器学习和深度学习都有一个难以避免的特点,就是模型本身的鲁棒性相对不够,但是处理的问题都十分复杂,对文本的预处理十分重要:
特征提取与清洗
文本数据的清洗:
1. 分词:Tokenization
2. 去除意义不大的词语{啊,一,后,前}
3. 大小写问题解决
4. 口语化和简称
5. 降噪{不必要的标点}
6. 语法错误
7. 词语的时态
8. 还原词形
词语的语法分析
1. N-Gram
加权词语
1. 词袋模型(不计算顺序与上下文,将所有的 词扔进一个袋子中,附送的都是出现次数,基于单热编码)
2. 词向量模型(神经忘录得到高位向量,具有上下文信息,但是并不能包含长连续全部的语义)
此处注意的事:并不是词向量(word2Vec)就是最好的,在贝叶斯邮件分类,文本分类中,词袋模型的下效率高,仅仅有文章的内容信息,鲁棒性更好
特征降维
- PCA 主成分分析法应用非常广
- ICA 独立成分分析,在线性的模型中应用多
- LDA ,NMF