第一章引言

研究现状

英文中，常用的特征单元有词（word）、词串（word n-gram)和词组（phrase）
目前表明，词是文本分类中表现较好的特征

中文中，常见的特征单元有词，字，子串（character n-grams)及其组合。

实验表明，中文中，单字的语义质量不好，性能较差，可以作为其他特征单元的补充。在信息检索中，
bi-grams的性能最优，略好于词。在文本分类中，词特征和子串特征都具有较好的分类性能。

后面就是介绍分类模型和数据集，忽略。

中文文本中没有类似于英文中的空格之类的显示表示词边界的标识，所以需要继续自动分词。

中文文本处理中，词并不是必须的特征单元，字符串类型（characters n-grams)也是高效常用的特征单元，尤其是二字串（bigrams).

子串切分不同于词切分的一个显著区别：词在文本中是互不重叠的，而字串是重叠的

如：我爱天安门
词切分：我/爱/天安门/
二字串切分：我爱/爱天/天安/安门/

所以，按照二字串切分后的特征数量要比词特征数量多很多。