微博是目前社交媒体领域研究的热点。基于微博的情感分析、微博数据挖掘等研究如火如荼,但是基于统计方法的微博研究却较为少见。因为它需要相关的微博标注语料库作为知识资源,所以目前这样的微博语料库相当的缺乏。本课题就是针对这一问题提出的,它以实验室已有的微博语料为基础,制定分词及情感标注的加工规范,并以规范为依据编制微博语料分词及情感标注的程序。 本程序主要分为两个功能:分词和情感分析。在本文中所建立的语料库中,就是在统计方法的基础上,进行的微博研究。根据微博特有的时效性和流行性,本语料库中包含了一些当下的热门微博词语。本程序在分词的时候,能够对微博上的热门词语识别并且成功进行分词。关于情感分析,除了能对单独的词汇进行情感分析标注以外,还可以对句子进行情感分析。这句要考虑到很多情况;比如否定词会改变整个句子的情感方向,程度副词对句子的情感有可能有减弱或者增强的作用;连词也可以加强或者改变句子的情感方向。所以,在编制情感分析的程序的时候,考虑到了一些否定词,连词和副词的影响。另外,不仅是词语,微博上还常常有很多表情,在编制的时候,也有适当考虑表情的分析处理。 对语料的分词以及情感标注主要从这几个方面实现: paper51.com 1.微博上的流行词词库:对近些年微博上流行过的一些热门词汇,短语以及句子进行统计,分析,然后构建词库。 2.微博表情的词库:对一些常用的微博表情进行统计,分析,构建微博表情的词库。 3.张华平分词软件的基础词库:该软件自带一些基础的名词,动词,形容词等词库,在分词的时候,可以对基础词汇进行分词的识别处理。 4.程度副词等词库:在知网上,查找程度级别副词词表,并将这些词添加到词库当中。 5.基础情感词词库:查看《知网》上面的情感词语集,《同义词词林》,还有台湾大学NTUSD词典这三个已有的词语集来进行构建。 关键词:分词规范;情感标注规范;语料分词;情感标注 目 录 摘 要 I Abstract II 第一章 概述 1 1.1情感分析的研究背景和意义 1 1.2情感分析的研究现状及已有成果 1 copyright paper51.com 1.2.1情感分析的研究现状 1 1.2.2情感分析的已有成果 1 1.3现有的分词词典 2 1.4现有的情感词典 2 1.4.1 WordNet 2 1.4.2 《知网》 3 1.4.3 NTUSD词典 3 1.5.1研究内容 3 1.5.2文章的组织结构 3 第二章 词性标注 4 2.1 词性标注规范 4 2.2 微博热门词汇的语料库建设 4 2.3微博表情词库构建 9 2.4程度副词、否定词、连词词库构建 9 2.4.1构造程度副词、否定词、连词词库的重要性 9 2.4.2程度副词、否定词、连词词库的构建 12 第三章 情感分析 14 3.1情感词汇本体基本介绍 14 3.2《情感词汇本体》的情感分类 14 3.3情感分类表示格式 15 3.4 《情感词汇本体》的优缺点 16 3.5 情感词库的完善 16 3.6情感分析结果 23 3.6.1词和短语的判断 24 3.6.2词和短语的情感分析 24 3.6.3句子的情感分析 25 3.6.4篇章的情感分析 26 第四章 实验结果与分析 26 4.1系统功能介绍 26 4.2实验流程 29 4.3实验分析 29 结束语 30 参考文献 31 http://www.paper51.com |