| Ritarma

Text Classification Read notes

解决文本分类的问题
流程：

特征提取 ->> (特征降维) >> 分类→评估

1557644929766

基于机器学习和深度学习都有一个难以避免的特点，就是模型本身的鲁棒性相对不够，但是处理的问题都十分复杂，对文本的预处理十分重要：

文本数据的清洗：

 1. 分词：Tokenization
 2. 去除意义不大的词语{啊，一，后，前}
 3. 大小写问题解决
 4. 口语化和简称
 5. 降噪{不必要的标点}
 6. 语法错误
 7. 词语的时态
 8. 还原词形

词语的语法分析

1. N-Gram

加权词语

1. 词袋模型（不计算顺序与上下文，将所有的 词扔进一个袋子中，附送的都是出现次数，基于单热编码）
 2. 词向量模型（神经忘录得到高位向量，具有上下文信息，但是并不能包含长连续全部的语义）

此处注意的事：并不是词向量（word2Vec）就是最好的，在贝叶斯邮件分类，文本分类中，词袋模型的下效率高，仅仅有文章的内容信息，鲁棒性更好