论文部分内容阅读
基于langid模型对新浪微博用户发布微博中的汉语、英语、维吾尔语、音译维吾尔语四种语言进行识别研究。介绍基于langid模型的系统结构与原理,同时根据微博博文的特点,介绍影响langid模型识别效果的影响因子,并通过实验验证这些影响因子对实验识别效果。同时对结构比较相似、书写相似的英语和音译维吾尔语,基于langid语言识别模型能够取得更高的准确率。